BigData
结构化数据:记录数据(数据库record)
半结构化数据:对象数据(程序对象object:json、xml、html)
非结构化数据:日志数据(log)、音频数据(audio)、视频数据(video)
Collect(采集)
记录数据:CDC架构
对象数据:ETL架构
日志数据:ELK(EFK)架构
CDC
Canal
在Database之间同步数据
Canal只能在数据库之间同步,DataX可以在不同存储系统之间同步
Sqoop
在Database和Hadoop之间同步数据
Sqoop是同步工具(tool),Flume是同步服务(service)
ETL
DataX
Flume
基于Hdfs
ELK
syslog
rsyslog
syslog-ng
ELK
Fluentd
Graylog
Loki
LogAgent
不常用
Transform(转换)
Storage(存储)
Hadoop:hdfs(分布式文件系统)、MapReducce(批处理框架),离线分析使用(全表扫描)
HBase:基于hdfs的分布式数据库(列式存储和KV存储),在线分析使用(索引扫描)
Cassandra:去中心化的分布式数据库(列式存储和KV存储),在线分析使用(索引扫描)
Compute(计算)
批处理(离线)计算引擎:Hadoop、Spark
流处理(实时)计算引擎:Storm、Spark Stream、Flink
Analyze(分析)
OLTP
OLAP
- OLAP是什么入门
- OLAP是什么进阶
- OLAP是什么详解
- OLAP入门
- OLAP进阶
- OLAP详解
- OLAP操作
- OLAP即席查询(ad hoc query)详解
- OLAP查询引擎详解
- OLAP查询引擎选型入门
- OLAP查询引擎选型进阶
- OLAP查询引擎选型详解
- OLAP之Hive、Pig、HBase对比
- OLAP之Hive、SparkSql、Impala、Presto对比
- OLAP之Hive、Impala、Presto对比
- OLAP之Hive、Impala对比
- OLAP之Impala、Presto对比
- OLAP之ClickHouse和Doris对比入门
- OLAP之ClickHouse和Doris对比详解
分析引擎:Pig、Hive
查询引擎:SparkSql、Impala、Presto、Kylin、Druid、Clickhouse、Doris
- HBase:存储
- Pig:分析(用脚本)
- Hive:分析(用HQL,类似SQL)