Debezium 博客

Debezium 从项目一开始就提供了一种直接在 Debezium 内部运行连接器的方式。提供这种功能的方式随着时间的推移而改变,并且仍在不断发展。本文将描述在这方面又一次的演进——Debezium 引擎的新实现。

上一篇博文中,我们展示了如何利用 Debezium 来训练包含数据库现有数据的神经网络模型,并使用这个预训练模型来分类新存储到数据库中的图像。在这篇博文中,我们将进一步深入——我们将使用 Debezium 从数据库创建多个数据流,并使用其中一个流进行持续学习和改进我们的模型,第二个流用于对数据进行预测。当模型不断改进或根据最近的数据样本进行调整时,这种方法被称为在线机器学习。在线学习只适用于某些用例,并且实现给定算法的在线变体可能具有挑战性,甚至不可能。然而,在在线学习可行的情况下,它成为一个非常强大的工具,因为它允许实时响应数据变化,并避免了重新训练和重新部署新模型的需要,从而节省了硬件和运营成本。随着数据流越来越普遍,例如随着物联网的出现,我们可以预期在线学习将越来越受欢迎。它通常非常适合分析流数据,在可能的情况下进行分析。

随着 ChatGPT 近期的成功,我们可以看到人工智能领域和机器学习领域的又一轮兴趣。这一领域的上一轮兴趣,至少在一定程度上,是由优秀的机器学习框架(如TensorFlowPyTorch)或通用数据处理框架(如Spark)的出现所引起的,它们使得编写机器学习模型变得更加直接。自那时以来,这些框架已经成熟,编写模型变得更加容易,正如您稍后在本博文中将看到的。然而,数据集的准备和从各种来源收集数据有时可能需要时间和精力。创建一个完整的管道,该管道可以提取现有或新创建的数据,进行调整,并将其注入选定的机器学习库,这可能具有挑战性。让我们研究一下 Debezium 是否能帮助完成这项任务,并探讨如何利用 Debezium 的功能使其变得更容易。

版权所有 © Debezium 及其作者。保留所有权利。有关我们的商标详情,请访问我们的 商标政策商标列表。第三方商标属于其各自所有者,在此提及并不表示任何认可或关联。
×