大家好,今天来为大家解答hadoop是做什么的这个问题,包括hadoop和mpp的区别?也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!
MPP是一种海量数据实时分析架构。
MPP作为一种不共享架构,每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。
MPP架构目前被并行数据库广泛采用,一般通过scan、sort和merge等操作符实时返回查询结果。
目前采用MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Google Dremel,这些都是实时数据处理领域非常有特点的系统,尤其是Dremel可以轻松扩展到上千台服务器,并在数秒内完成TB级数据的分析。
Hadoop作为一个开源项目群本身和MPP并没有什么直接关系,Hadoop中的子项目MapReduce虽然也是做数据分析处理的,但是一般只适用于离线数据分析,区别与MPP较为明显。
因为Map和Reduce两个过程涉及到输出文件的存取和大量网络传输,因此往往达不到实时处理的要求。
与MapReduce相似的系统还有Microsoft Dryad和Google pregel。
MPP是一种实时海量数据分析架构,而Hadoop是一个关于数据存储处理的项目群。
Hadoop资源管理由两部分组成:资源表示模型和资源分配模型。
其中,资源表示模型用于描述资源的组织方式,Hadoop采用“槽位”(slot)组织各节点上的资源;而资源分配模型则决定如何将资源分配给各个作业/任务,在Hadoop中,这一部分由一个插拔式的调度器完成。
Hadoop引入了“slot”概念表示各个节点上的计算资源。
为了简化资源管理,hadoop将各个节点上的资源(CPU、内存和磁盘等)等量切分成若干份,每一份用一个slot表示,同时规定一个Task可根据实际需要占用多个slot。
通过引入“slot”这一概念,Hadoop将多维度资源抽象简化成一种资源(slot),从而大大简化了资源管理问题。
关于hadoop是做什么的到此分享完毕,希望能帮助到您。
文章已关闭评论!
2024-09-20 11:46:50
2024-09-20 11:46:01
2024-09-20 11:44:22
2024-09-20 11:43:41
2024-09-20 11:43:33
2024-09-20 11:41:57
2024-09-20 11:41:51
2024-09-20 11:40:45