Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(DistributedFileSystem),其中一个组件是HDFS(HadoopDistributedFileSystem)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算[1]。
在hadoop中实现pagerank,先BuildPageRankRecords,然后RunPageRankBasic...
👤 wangshoupeng199
⬇️ 8 次下载
基于hadoop框架,用java编写实现倒排索引,...
👤 默默
⬇️ 9 次下载
Hadoop应用实例:基于Hadoop的大规模数据排序算法这是一份非常不错的资料,欢迎下载,希望对您有帮助!...
👤 xsr1983
⬇️ 6 次下载
Hadoop实战中文版...
👤 asdgfsdfht
⬇️ 29 次下载
《Hadoop 第二版》全面解析了Apache Hadoop生态系统的核心组件,包括HDFS分布式文件系统、MapReduce计算框架以及HBase、Hive和ZooKeeper等关键成员。本书不仅适合初学者快速入门,也适合有经验的开发者深入理解大数据处理技术。通过阅读本书,您将掌握如何构建高效的大...
👤 slq1234567890
⬇️ 3 次下载