对于Hadoop产生的原因,我们从以下三个方面谈起:
传统大规模系统的问题
(1)传统大规模计算
1.传统计算受到处理器限制:相对较小的数据量;有很多复杂的处理。
2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足
(2)分布式系统
1.更好的方案:使用更多的机器来处理单个作业
2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂);有限的带宽
3.数据瓶颈:传统系统中,数据存储在中央存储;数据在运行时拷贝到处理器;适合限量的数据
然而,现代系统有很多数据,我们需要寻求新的方法来处理这些数据:Hadoop就应运而生,引入了一个彻底的新方法就是分布式计算,当数据存储时分布数据,而且在数据所在的位置运行计算。
Hadoop自身优势
(1) Hadoop的源起:
1.思想起源:Google
2.Hadoop之父:Doug Cutting
3.Lucene->Nutch->Hadoop
4.实现云计算的事实标准开源软件
5.包含数十个具有强大生命力的子项目
6.已经能在上万节点上运行,处理数据量和排序时间不断打破世界纪录
(2) Hadoop核心设计
1.当数据加载的时候分片成块
2.Map任务通常作用于单个块
3.Master程序管理任务
(3) Hadoop核心概念
1.应用通过高级语言代码来写
2.节点之间尽可能少的通信
3.数据提前分布式存储
4.把计算放到数据所在节点运行
5.数据通过多副本存储来提供可靠性和高可用性
6.Hadoop是可扩展并且容错的
三.Hadoop适用背景
(1)大数据的处理模式:
主要的处理模式可以分为流处理(stream processing)和批处理(batch processing):批处理是先存储后处理(store-process);流处理则是直接处理(straight-through process)
(2)你可以用Hadoop做什么?
(3)数据从哪里来?
1.科学
医疗影像,传感器数据,基因测序,天气数据,卫星
2.工业
金融,制药,制造业,保险,网游,能源,零售数据
3.资产
销售数据,客户行为,产品数据库,账户数据等
4.系统数据
日志文件,健康和状态,活动信息流,网络消息,web分析,***检测和垃圾邮件过滤
(4)常见的Hadoop分析类型
ETL;文本挖掘;索引构建;图创建和分析;模式识别;协同过滤; 预测模型;情感分析;风险评估
(5)使用Hadoop分析的好处
实现以前不可能或不现实的分析;更低的成本;更少的时间;更多的灵活性;近线性的扩展性
以上就是根据自己的学习以及实际经验给大家分享的Hadoop产生的原因,对于更多想要学习和了解大数据的同学来说,这是一个很好的开端;平常大家可以多关注一些大数据的资讯,多看一些大数据相关的书籍,我平常喜欢关注如大数据cn这些微信公众号,里面对于大数据的资讯介绍还是不错的,大家也可以看看。总之,希望我们每一个人都踏踏实实从基础做起,不断巩固提高,一定会取得进步的。