大数据平台架构——框架篇
作为想要从事大数据,或已是大数据从业者但非大数据开发人员,我们如何理解和学习大数据平台的技术知识呢?
本文将以作为数据产品经理的角色来写写自己的理解思路,希望对大家有所帮助。
一、大数据平台介绍
首先,先解释下大数据的5V特征:
- 数据量大:一般以P(1000个TB)、E(100万个TB)或Z(10亿个TB)为计量单位
- **数据类型繁多:**包括结构化、半结构化和非结构化的数据,数据来源多样,文本、日志、视频、图片、地理位置等;
- **价值密度低:**大数据所具备的巨大体量,使其所包含信息较少。因此需要利用通过数据分析与机器学习更快速的挖掘出有价值的数据,带来更多的商业价值。
- **速度快:**数据增长速度快、并要求处理速度快、对时效性要求也高,海量数据的处理需求不再局限在离线计算当中。
- 真实性:数据的真实性和可信赖度差异较大,因此数据分析的精确度也有所不同。
大数据平台本质上就是对海量数据从采集、存储、计算、应用、管理、运维的多方位、多维度的组合研究设计,从而建设合理、高效的大数据平台架构。
二、大数据存储计算
- 那我们先讲讲最核心的大数据存储和计算吧。
这里就不得不引入Hadoop这个框架。Hadoop是大数据存储和计算的鼻祖了,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。
关于Hadoop,我们需要了解他们是什么、什么原理、使用场景、如何使用:
- HDFS、MapReduce
- NameNode、DataNode
- JobTracker、TaskTracker
- Yarn、ResourceManager、NodeManager
2. 对于大数据的处理,我们必须了解和会使用的就是SQL。