BigData
结构化数据:记录数据(数据库record)
半结构化数据:对象数据(程序对象object:json、xml、html)
非结构化数据:日志数据(log)、音频数据(audio)、视频数据(video)
Collect(采集)
记录数据:CDC架构
对象数据:ETL架构
日志数据:ELK(EFK)架构
CDC
Canal
在Database之间同步数据
Canal只能在数据库之间同步,DataX可以在不同存储系统之间同步
Sqoop
在Database和Hadoop之间同步数据
Sqoop是同步工具(tool),Flume是同步服务(service)
ETL
DataX
Flume
基于Hdfs
ELK
syslog
rsyslog
syslog-ng
ELK
Fluentd
Graylog
Loki
LogAgent
不常用
Transform(转换)
Storage(存储)
Hadoop:hdfs(分布式文件系统)、MapReducce(批处理框架),离线分析使用(全表扫描)
HBase:基于hdfs的分布式数据库(列式存储和KV存储),在线分析使用(索引扫描)
Cassandra:去中心化的分布式数据库(列式存储和KV存储),在线分析使用(索引扫描)
Compute(计算)
批处理(离线)计算引擎:Hadoop、Spark
流处理(实时)计算引擎:Storm、Spark Stream、Flink
Analyze(分析)
OLTP
OLAP
- OLAP是什么入门
 - OLAP是什么进阶
 - OLAP是什么详解
 - OLAP入门
 - OLAP进阶
 - OLAP详解
 - OLAP操作
 - OLAP即席查询(ad hoc query)详解
 - OLAP查询引擎详解
 - OLAP查询引擎选型入门
 - OLAP查询引擎选型进阶
 - OLAP查询引擎选型详解
 - OLAP之Hive、Pig、HBase对比
 - OLAP之Hive、SparkSql、Impala、Presto对比
 - OLAP之Hive、Impala、Presto对比
 - OLAP之Hive、Impala对比
 - OLAP之Impala、Presto对比
 - OLAP之ClickHouse和Doris对比入门
 - OLAP之ClickHouse和Doris对比详解
 
分析引擎:Pig、Hive
查询引擎:SparkSql、Impala、Presto、Kylin、Druid、Clickhouse、Doris
- HBase:存储
 - Pig:分析(用脚本)
 - Hive:分析(用HQL,类似SQL)