对于Hadoop产生的原因,我们从以下三个方面谈起:

  • 传统大规模系统的问题

(1)传统大规模计算

1.传统计算受到处理器限制:相对较小的数据量有很多复杂的处理。

  2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足

 (2)分布式系统

  1.更好的方案:使用更多的机器来处理单个作业

  2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂);有限的带宽

  3.数据瓶颈:传统系统中,数据存储在中央存储;数据在运行时拷贝到处理器;适合限量的数据

  然而,现代系统有很多数据,我们需要寻求新的方法来处理这些数据:Hadoop就应运而生,引入了一个彻底的新方法就是分布式计算,当数据存储时分布数据,而且在数据所在的位置运行计算。

  • Hadoop自身优势

 (1)  Hadoop的源起:

  1.思想起源:Google

  2.Hadoop之父:Doug Cutting

  3.Lucene->Nutch->Hadoop

  4.实现云计算的事实标准开源软件 

  5.包含数十个具有强大生命力的子项目

  6.已经能在上万节点上运行,处理数据量和排序时间不断打破世界纪录

 (2)  Hadoop核心设计

  1.当数据加载的时候分片成块 

  2.Map任务通常作用于单个块 

  3.Master程序管理任务

 (3)  Hadoop核心概念

  1.应用通过高级语言代码来写

  2.节点之间尽可能少的通信

  3.数据提前分布式存储

  4.把计算放到数据所在节点运行

  5.数据通过多副本存储来提供可靠性和高可用性

  6.Hadoop是可扩展并且容错的

三.Hadoop适用背景

 (1)大数据的处理模式:

 主要的处理模式可以分为流处理(stream processing)和批处理(batch processing):批处理是先存储后处理(store-process);流处理则是直接处理(straight-through process)

 (2)你可以用Hadoop做什么?

  


 (3)数据从哪里来?

 1.科学

医疗影像,传感器数据,基因测序,天气数据,卫星

  2.工业

金融,制药,制造业,保险,网游,能源,零售数据 

  3.资产

销售数据,客户行为,产品数据库,账户数据等

  4.系统数据

日志文件,健康和状态,活动信息流,网络消息,web分析,***检测和垃圾邮件过滤 

 (4)常见的Hadoop分析类型

ETL;文本挖掘;索引构建;图创建和分析;模式识别;协同过滤;  预测模型;情感分析;风险评估

(5)使用Hadoop分析的好处

实现以前不可能或不现实的分析;更低的成本;更少的时间;更多的灵活性;近线性的扩展性

以上就是根据自己的学习以及实际经验给大家分享的Hadoop产生的原因,对于更多想要学习和了解大数据的同学来说,这是一个很好的开端;平常大家可以多关注一些大数据的资讯,多看一些大数据相关的书籍,我平常喜欢关注如大数据cn这些微信公众号,里面对于大数据的资讯介绍还是不错的,大家也可以看看。总之,希望我们每一个人都踏踏实实从基础做起,不断巩固提高,一定会取得进步的。