【通往Cassandra之路】活用Cassandra进行实时人工智能的方法之一:引入篇-特征存储是什么?

首先

东京卡桑德拉日

今年,日本也将举办Cassandra Day活动,时间是2023年6月1日。去年,Cassandra Day在柏林、伦敦、阿姆斯特丹、河内、雅加达、休斯顿、圣塔克拉拉、西雅图和新加坡举办过。

我们将在东京举办的本次活动中发布与Apache Cassandra相关的文章。

image.png

关于Apache Cassandra

要用一句话概括,Apache Cassandra是一个开源的分布式数据库管理系统。

和其他分布式数据库管理系统一样,使用多个通用服务器构建一个数据库(也可以只使用一个服务器进行开发等目的)。

在这里,我们将省略详细的解释,而是将介绍给感兴趣的人,这个角色将转交给官方网站或维基百科。

 

Cassandra和人工智能

这篇文章的来源

从Alan Ho的Google Quantum AI文章《使用Cassandra作为实时特征存储的从业者指南》中,我们将介绍有关引入的信息。

本文阐述了“关于如何使用实时特征存储作为最佳实践”的内容。在这里,我们希望更多地解释为什么它的重要性,而不是关注于如何实施(最佳实践)。

 

实时人工智能(AI)是什么?

实时人工智能根据当前发生的事件进行推理或训练模型。

过去,通常在夜间或整天以批处理方式进行模型训练和基于模型的推理(预测)。
目前,最新的机器学习系统越来越倾向于利用最新数据进行推理,以提供尽可能准确的预测。
一些先进的公司,如TikTok和Google,通过实时模型训练的方式,进一步推动了实时范式。

面对这种变化,特征数据(用于训练和推断机器学习模型的数据)的处理方式(具体来说,作为持久化层的数据库)也需要适应。

「特征(特征值)存储是什么?

特征存储库是一个具备机器学习(ML)所独有的以下功能的数据系统。

    • 生データを特徴量に変換するデータパイプラインを実行する

 

    • 特徴量データを保存および管理する

 

    トレーニングと推論の目的のために特徴量データを一貫提供する

以下是特征存储的生命周期示意图。(引自博客文章《Feature Store是什么》)

image.png

 

另外,以下是特色商店的主要组成部分(摘自同一部营销博客)。

image.png

卡桑德拉和特征存储库

实时人工智能在特征数据的处理上,特别是在模型提供和训练方面,对于持久层数据库有一定的要求(如性能等)。

Cassandra在满足这些需求的数据库中被使用。

在Uber的雇用案例中,以具体例来说。

在上述介绍的博客文章中,详细讨论了性能要求的数值,并介绍了最佳实践。

我們將通過介紹Uber公司的實際應用案例,來引起關注並總結目前關於即時人工智能和功能商店的情況。

以下是Uber公司工程部营销博客介绍的系统概述。

image.png

有关详细信息,请参阅博客正文。

 

最终

在本文中,我们介绍了与Cassandra和人工智能相关的实时人工智能和功能存储这两个关键词。

另外,为了那些想要了解更具体内容的人们,我提供了一些信息源的链接。

在考虑以这篇”入门篇”为基础,在另一个机会上发布更深入内容的文章。

广告
将在 10 秒后关闭
bannerAds