作者:范东来 日期:2021-10-12 13:15:56
本书介绍了hadoop技术的相关知识,并将理论知识与实际项目相结合。全书共分为三个部分:基础篇、应用篇和总结篇。基础篇详细介绍了hadoop、yarn、mapreduce、hdfs、hive、sqoop和hbase,并深入探讨了hadoop的运维和调优;应用篇则包含了一个具有代表性的完整的基于hadoop的商业智能系统的设计和实现;结束篇对全书进行总结,并对技术发展做了展望。
hadoop是目前受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书基于新的hadoop(cdh5,apachehadoop 2.6)版本介绍hadoop技术的相关知识,不但详细介绍了hadoop、hdfs、yarn、mapreduce、hive、sqoop和hbase等,还深入探讨了hadoop、hbase的运维和性能调优,并包含了一个具有代表性的完整的基于hadoop的商业智能系统的设计和实现。本书的大特点是面向实践。基础篇介绍hadoop及相关组件的同时,包含了大量动手实例,而应用篇包含的基于hadoop的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的开发过程。本书由浅至深,从理论基础到项目实战,适合hadoop的初学者阅读,也可以作为高等院校相关课程的教学参考书。本书主要内容包含了hadoop新版本的几乎所有主要特性,是hadoop目前成熟的形态。深入介绍了nosql架构模式、hbase的架构和实现,以及hbase的高级特性。深入介绍了统一资源管理和调度平台的范型和yarn实现。深入介绍了hadoop、hbase性能调优,满足海量数据处理的需求。包含了一个完整的项目实战,从需求定义、系统设计和架构后到代码实现。包含了一个机器学习算法应用实战,利用hadoop进行大数据挖掘,从数据中寻找模式。