关于Apache Airflow的使用情况趋势调查

首先

Airflow是一种被称为”作业执行管理基础设施”或”工作流管理系统”的软件。
它可以启动和管理定期执行的批处理应用程序,判断其执行结果成功或失败,并启动管理下一个要执行的批处理应用程序。
本文总结了对互联网上公开的Apache Airflow的使用情况进行调查的结果。
由于详细功能在各种博客和文章中都有解释,所以不在此展开。

考虑是否采用Airflow作为判断标准时,满足功能要求是必要的,但通常还需要考虑使用案例和实绩等因素。希望此段话能够被正在考虑使用Airflow的人阅读,并作为向客户和上司说服的材料使用。

空气流动的历史

这是Airflow的主要事件。
明年将是其开发开始10年的时间(截至2023年3月)。
从个人感受来看,近2至3年间,Airflow的知名度突然上升并且用户数量也增加了。

年月出来事2014年10月Airbnb社のMaxime Beaucheminによって開発がスタート。2015年6月バージョン 1.0.0 がリリース。2016年3月Apache Software FoundationのIncubatorプログラムに参加。2018年3月GCPがCloudComposerのBeta版をリリース。2019年1月Apache Software Foundationのトップレベルプロジェクトに昇格。2019年9月Airflowのロゴマーク(風車)が決定。 2020年7月Apache Airflow初のカンファレンスイベント、Airflow Summitが開催。2020年11月AWSがMWAA(Amazon Managed Workflows for Apache Airflo)をリリース。2020年12月バージョン 2.0.0 がリリース。2023年2月AzureのAzure Data Factoryの新機能としてマネージドAirflowがリリース

类似软件的中文翻译

下面整理了类似于Airflow的“作业执行管理基础设施”和“工作流管理系统”软件。

ソフトウェア名開発元OSS費用GitHub☆開発最新バージョンAirflowAirbnb○無償29.3k2014~v2.5.1DigDagTreasure Data○無償1.2k2016~v0.10.5Argo WorkflowsApplatix -> Intuit -> CNCF○無償12.6k2017~v3.4.5Dagsterelementl○無償(有償版あり)6.6k2018~v1.1.20JP1日立製作所×有償-1994~-System Walker富士通×有償-1995~-HinemosNTTデータ○無償(有償サポートあり)912004~

※The table above represents information as of March 2023.

除了非OSS的JP1和System Walker之外,从GitHub上的数量来看,Airflow是压倒性的胜利者。
Argo Workflows排在第二位,Dagster排在第三位。
由于Argo Workflows是以容器为前提的,因此作为通用工具,Airflow是更受欢迎的。
虽然有一些使用Digdag的案例,但也出现了转向Airflow的案例。
此外,考虑到Digdag的最新版本为v0.10.5(截至2023年3月),并且尚未发布1.0.0版本,可以认为它仍处于开发中。

image.png

最近的使用趋势

可以在官方的GitHub页面上找到使用Apache Airflow的企业名单。
(在版本1.10.0之前,这些信息在README.md中)
这是为了促进社区活动和企业宣传而积极公开。
截至2023年2月,已有480家公司使用该开源软件,说明它得到了广泛的应用。
一些知名的公司有:

    • Bloomberg

 

    • PayPal

 

    • Spotify

 

    • Twitter

 

    Yahoo!

据图表所示,公开宣布使用的公司数量发生了变化。

image.png

在2.0.0版本发布时,可以看到使用Apache Airflow的公司数量急剧增加。与Apache Airflow的历史进行对比,这一时机与Airflow Summit的举办和AWS的MWAA发布时间重叠(虽然发布了一个月前)。
此外,2.0.0版本的发布还进行了大量的功能添加和改进。
基于这些背景,我认为自2020年左右知名度上升,并增加了使用Airflow的公司数量。

我們隨後調查了「Apache Airflow」在Google Trends上的搜索量趨勢。

image.png

根据这些数据,从2017年左右开始逐渐增加搜索量,但从2019年左右开始基本保持平稳。从2022年入场以来,搜索量迅速上升的情况也可见一斑。
就地区来看,意外的是,我们可以看出新加坡、韩国和以色列排名较高,而不是美国。

同样,企业也将Apache Airflow视为对工程师所需的技能之一。根据2023年3月的调查,我发现在一些自由职业工程师的岗位需求中,“Apache Airflow”被列为必备技能。然而,从这些职位的特点来看,它们更多是针对”数据基础工程师”或”数据分析工程师”等职位,因此Airflow似乎更多是作为与数据分析相关的技术而被要求掌握的。

利用实例来说明

云服务供应商的趋势

虽然Apache Airflow的历史也有记录,但三家大型云服务提供商都提供了Airflow的托管服务。

クラウドベンダサービスリリース時期GCPCloud Composer/Cloud Composer22018AWSMWAA2020AzureAzure Data Factory2023

GCP是首家将Airflow作为托管服务发布的平台。因此,在使用案例中,也有一些技术博客等公开了使用Cloud Composer的情况。AWS在GCP两年后以MWAA的形式发布了托管服务,而Azure在今年则以Azure Data Factory的形式发布了托管服务。

在企業中的應用範例

我从公开在互联网上的技术博客等渠道汇总了一份针对国内企业的使用案例表。

企業名/サービス名概要一休.comホテルやレストラン予約サイト一休.comの事例です。
ホテル情報、予約情報、ユーザ情報、アクセスログやそれらに紐づくマスタデータはすべてDWHに格納しているそうです。
各種情報をDWHに格納するためにETLツールによるデータ変換を実行しており、その実行基盤としてAirflowを利用しているとのことです。
ETLツールによるデータ変換は日次約400タスクが実行されるそうです(週次や時間起動も含めると更に大規模だとか)。
2018年にDigdagからAirflowに移行したとのことですが、どういった課題があり、それをAirflowでどう解決したかは参考資料の「一休のETL処理をAirflowで再構築しました」に記載されています。
また、記事公開時点では表示のタイムゾーンを変更ができないことを制約として挙げていますが、最新バージョン(2023年3月現在)ではタイムゾーンの変更ができるみたいです。

参考資料
一休のデータフローをAirflowを使って実行してみる
一休のETL処理をAirflowで再構築しました
一休の1 to 1マーケティングを支えるプラットフォームYahoo! JapanヤフーのAIプラットフォームにおける事例です。
ヤフーが提供する様々なサービスが蓄積したビッグデータを利用し、ユーザビリティやサービスの改善のため、AIや機械学習によるデータ分析を行っているとのことです。
ヤフーではデータ分析のためAIプラットフォームを構築しており、データ取得、前処理、学習のタスク実行管理にAirflowを利用しているようです。
Airflowはk8s上で動かしており、Kubernetes pod operatorによりk8s上のジョブを起動させているようです。
ジョブ実行管理にはArgo Workfloも利用しており、AirflowからArgo Workflowのジョブを実行するケースもあるとのこと。
また、Airflowによりジョブ実行がスケジューリングされたことや過負荷を防ぐことが可能になり夜間対応がほぼなくなったそうです。

参考資料
AirflowとKubernetesで機械学習バッチジョブの運用負荷を低減した話
ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽にZOZOZOZOでは生のAirflowではなくGCPのCloud Composerを利用しているようです。
ZOZOTOWNでは毎日大量の商品が出品されるため、機械学習で商品情報の登録を補佐するシステムを利用しているそうです。
商品情報の取得、データの分類および推論処理、結果の出力といった一連のタスクの実行管理にCloud Composerを利用しています。

参考資料
Cloud Composer 2上でApache Airflow 2のワークフローを実装するGMOペパボGMOペパボはGMOグループの一社で、「ホスティング」「EC支援」など個人向けウェブサービスを提供しています。
こちらも生のAirflowではなくGCPのCloud Composerを利用した事例となります。
GMOペパボではデータ駆動によるマーケティングや意思決定の自動化を目指しており、そのためのデータ基盤を構築したと公表しています。
このデータ基盤におけるデータの加工や学習といったタスクの実行にCloud Composerを利用しているとのことです。

参考資料
GMOペパボのサービスと研究開発を支えるデータ基盤の裏側電通デジタル広告代理店ということもあり、デジタル広告のプランニングツールの開発や広告配信実績データの可視化・予測データをクライアントに提供しているとのことです。
社内の複数のチームで独自のワークフロー(主にDigdag)を利用していたところを、デファクトのツールとしてAirflowを社内で広めていったそうです。
主に広告データの取得や加工といったタスクの実行管理に利用しており、AWSのFarget上にAirflowを立ち上げて利用しているみたいです。

参考資料
Airflowを広告データのワークフローエンジンとして運用してみた話
Airflowのタスク実行環境を分離する

主要用于机器学习任务的数据转换和学习管理。然而,在金融机构中,关键任务或主要业务领域(如销售结算等)的实例并不多见。(在这些领域,我认为可能会使用像JP1或System Walker这样的有强大支持的工具,或者即使使用了也不向外公开。)

在一休.com和電通デジタル等公司中,他们正在從Digdag轉換到Airflow。從這些案例中可以看出,Airflow在管理複雜任務的執行方面具有優勢。

除此之外,还有一些国外的案例,在官方网站的“应用案例”页面也列举了一些案例。

此外,我认为在由日本公司开发的项目中,经常会使用JP1、System Walker或者Hinemos这样的工具。这是因为客户需要支持,一直以来都在使用这些工具,所以可能有无法使用其他工具的原因。

总结

从Airflow的开发开始已经过去了10年,根据调查结果可以看出它在许多公司中得到了广泛的应用。
由于国内有许多成功案例,可以预见未来会有更多公司选择使用它。
我们需要继续关注Airflow的发展动向。

广告
将在 10 秒后关闭
bannerAds