Debezium 博客
此帖最初发布于 WePay 工程博客。
在此博客文章系列的上半部分,我们解释了我们在 WePay 设计 Cassandra 流式数据管道的决策过程。在此帖中,我们将把该管道分解为三个部分,并更详细地讨论每个部分
-
Cassandra 到 Kafka,使用 CDC 代理
-
Kafka 到 BigQuery,使用 KCBQ
-
使用 BigQuery 视图进行转换
本文最初发布在 WePay 工程博客。
历史上,MySQL 一直是 WePay 微服务的事实数据库选择。随着 WePay 的扩展,我们的一些微服务数据库中写入的数据量变得非常大,这迫使我们必须在分片 MySQL(例如 Vitess)和切换到原生分片 NoSQL 数据库之间做出扩展决策。经过一系列评估,我们选择了 NoSQL 数据库 Cassandra,主要因为它具有高可用性、水平可伸缩性和处理高写入吞吐量的能力。
Debezium 项目致力于提供易于部署的连接器,因此用户可以通过获取正确的连接器存档并将其解压到 Kafka Connect 的插件路径中,来尝试运行他们选择的连接器。
这适用于所有连接器,但 Debezium PostgreSQL 连接器除外。该连接器具有独特性,因为它需要在 PostgreSQL 源数据库本身内部安装逻辑解码插件。目前,有两个支持的逻辑插件。
-
postgres-decoderbufs,它使用 Protocol Buffers 作为非常紧凑的传输格式,并由 Debezium 社区维护。
-
基于 JSON 的插件,它基于 JSON 并由其自己的上游社区维护。