
全栈工程师开发手册 (作者:栾鹏)
架构系列文章
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,
hadoop、spark、Hbase、Hive、hdfs简介
Hbase:是一个nosql数据库,和mongodb类似
hdfs:hadoop distribut file system,hadoop的分布式文件系统
Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件(或者非结构化的数据)映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的Ma