0%

bigdata

BigData

结构化数据:记录数据(数据库record)
半结构化数据:对象数据(程序对象object:json、xml、html)
非结构化数据:日志数据(log)、音频数据(audio)、视频数据(video)

Collect(采集)

记录数据:CDC架构
对象数据:ETL架构
日志数据:ELK(EFK)架构

CDC

Canal

在Database之间同步数据

Canal只能在数据库之间同步,DataX可以在不同存储系统之间同步

Sqoop

在Database和Hadoop之间同步数据

Sqoop是同步工具(tool),Flume是同步服务(service)

ETL

DataX

Flume

基于Hdfs

ELK

syslog

rsyslog

syslog-ng

ELK

Fluentd

Graylog

Loki

LogAgent

不常用

Transform(转换)

Storage(存储)

Hadoop:hdfs(分布式文件系统)、MapReducce(批处理框架),离线分析使用(全表扫描)
HBase:基于hdfs的分布式数据库(列式存储和KV存储),在线分析使用(索引扫描)
Cassandra:去中心化的分布式数据库(列式存储和KV存储),在线分析使用(索引扫描)

Compute(计算)

批处理(离线)计算引擎:Hadoop、Spark
流处理(实时)计算引擎:Storm、Spark Stream、Flink

Analyze(分析)

OLTP

OLAP

分析引擎:Pig、Hive
查询引擎:SparkSql、Impala、Presto、Kylin、Druid、Clickhouse、Doris

  • HBase:存储
  • Pig:分析(用脚本)
  • Hive:分析(用HQL,类似SQL)

Data Warehouse(数据仓库)

Data Mart(数据集市)

Data Lake(数据湖)

Data Middleground(数据中台)

Data Platform(数据平台)

Other

只想买包辣条