大数据技术体系详解:原理、架构与实践
上QQ阅读APP看书,第一时间看更新

第二部分 数据收集篇

第2章 关系型数据的收集

从本章开始,我们将介绍与数据收集相关的工具和系统。正如第1章所述,数据可简单分为关系型和非关系型两种,本章重点介绍如何实现关系型数据的收集。

关系型数据是常见的一种数据类型,通常存储在像MySQL、Oracle等关系型数据库中,为了能够利用大数据技术处理和存储这些关系型数据,首先需将这些数据导入到像HDFS、HBase这样的大数据存储系统中,以便使用MapReduce、Spark这样的分布式计算技术进行高效分析和处理。从另一个角度讲,为了便于与前端的数据可视化系统对接,我们通常需要将Hadoop大数据系统分析产生的结果(比如报表,通常数据量不会太大)导回到关系型数据库中。为了解决上述问题,高效地实现关系型数据库与Hadoop之间的数据导入导出,Hadoop生态系统提供了工具Sqoop(SQL to Hadoop),本章将重点剖析Sqoop设计思想、基本架构以及常见的使用场景。