Debezium 博客

Debezium 异步引擎 Debezium 异步引擎

2024年7月8日，作者：Vojtěch Juránek

机器学习 Flink Spark 在线学习示例 Apache Kafka

Debezium 从项目一开始就提供了一种直接在 Debezium 内部运行连接器的方式。提供这种功能的方式随着时间的推移而改变，并且仍在不断发展。本文将描述在这方面又一次的演进——Debezium 引擎的新实现。

使用数据库数据流进行在线机器学习使用数据库数据流进行在线机器学习

2023年9月23日，作者：Vojtěch Juránek

机器学习 Flink Spark 在线学习示例 Apache Kafka

在上一篇博文中，我们展示了如何利用 Debezium 来训练包含数据库现有数据的神经网络模型，并使用这个预训练模型来分类新存储到数据库中的图像。在这篇博文中，我们将进一步深入——我们将使用 Debezium 从数据库创建多个数据流，并使用其中一个流进行持续学习和改进我们的模型，第二个流用于对数据进行预测。当模型不断改进或根据最近的数据样本进行调整时，这种方法被称为在线机器学习。在线学习只适用于某些用例，并且实现给定算法的在线变体可能具有挑战性，甚至不可能。然而，在在线学习可行的情况下，它成为一个非常强大的工具，因为它允许实时响应数据变化，并避免了重新训练和重新部署新模型的需要，从而节省了硬件和运营成本。随着数据流越来越普遍，例如随着物联网的出现，我们可以预期在线学习将越来越受欢迎。它通常非常适合分析流数据，在可能的情况下进行分析。

使用 Debezium 和 TensorFlow 进行图像分类使用 Debezium 和 TensorFlow 进行图像分类

2023年5月2日，作者：Vojtěch Juránek

机器学习 TensorFlow 示例 Apache Kafka

随着 ChatGPT 近期的成功，我们可以看到人工智能领域和机器学习领域的又一轮兴趣。这一领域的上一轮兴趣，至少在一定程度上，是由优秀的机器学习框架（如TensorFlow、PyTorch）或通用数据处理框架（如Spark）的出现所引起的，它们使得编写机器学习模型变得更加直接。自那时以来，这些框架已经成熟，编写模型变得更加容易，正如您稍后在本博文中将看到的。然而，数据集的准备和从各种来源收集数据有时可能需要时间和精力。创建一个完整的管道，该管道可以提取现有或新创建的数据，进行调整，并将其注入选定的机器学习库，这可能具有挑战性。让我们研究一下 Debezium 是否能帮助完成这项任务，并探讨如何利用 Debezium 的功能使其变得更容易。