词汇表

最近更新时间: 2019-11-26 14:57:59

名词 描述
流式数据 实时、不间断产生的数据流,如业务日志、系统日志等各类日志信息。单条日志是流式数据采集和传输的基本单位。
Flume Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。
agent Flume 运行的核心是 agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具,含有三个核心组件,分别是Source、 Channel、 Sink。通过这些组件,Event 可以从一个地方流向另一个地方
Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。 高吞吐量:即使是非常普通的硬件,Kafka也可以支持每秒数百万的消息。 支持通过Kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载
topic topic是Kafka对一组消息的归纳。在大数据云服务中,一个流式数据采集服务对应一个topic,单个topic可以存储一个或多个日志中的流式数据。
OGG OGG 即Oracle Golden Gate,是一种基于日志的结构化数据复制软件。OGG 能够实现大量交易数据的实时捕捉,变换和投递,实现源数据库与目标数据库的数据同步,保持最少10ms的数据延迟
Canal Canal是通过模拟成为MySQL 的slave的方式,监听MySQL 的binlog日志来获取数据,binlog设置为row模式以后,不仅能获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据,基于这个特性,Canal就能高性能的获取到MySQL数据数据的变更。
批量数据 在大数据云服务中专指数据文件。
数据交换接口 一个批量采集的服务对应一个数据交换接口,在数据集成中,采集到的数据文件将通过数据交换接口中定义的字段映射成数据库表中的数据。