並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 38 件 / 38件

新着順 人気順

airflowの検索結果1 - 38 件 / 38件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

airflowに関するエントリは38件あります。 AirflowPythonプログラミング などが関連タグです。 人気エントリには 『Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita』などがあります。
  • Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita

    はじめに ワークフローを作成、実行、監視するためのプラットフォーム「Airflow」が、近年人気を集めていて、多くの企業に利用されています。Airflow Summit 2022 のようなグローバルイベントも開催されるようになり、世界中から2000人以上のコントリビュータ(私もその1人)が貢献しているアツいプロジェクトです。 この記事で Airflow を使う意味と主要コンセプトを説明します。最後に、100行未満で実装できる本格的なデータパイプラインの実例をお見せしたいと思います。 Airflowとは 概要 Airflowは ワークフロー を作成、実行、監視するためのプラットフォームです。ここで言う「ワークフロー」は、依存関係にある複数の タスク を、下図のように繋いだ形で、パイプラインとして実行していくものと思ってください。 Airflowを使うと、より早く、よりロバストなワークフローが

      Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita
    • Airflow入門

      DeNA / MoT共同のAI技術共有会で発表した、Airflow入門資料です。

        Airflow入門
      • たった3人で運用するドコモを支える機械学習基盤の作り方 ー Kubernates × Airflow × DataRobot を使ったMLOpsパイプライン ー - ENGINEERING BLOG ドコモ開発者ブログ

        TL;DR 自己紹介・モチベーション 処理の再現性の担保・デプロイの迅速化 実現したかったこと 1. コードの再現性を担保する 2. 簡単に機械学習タスクの実行パイプラインをかけるようにする 3. ノートブックファイルを、そのままの形でパイプラインに組み込めるようにする スケーラビリティの確保 DataRobotについて スコアリングコード機能 実装上のポイント 工夫点 はまったポイント 所感 あとがき TL;DR 機械学習基盤をKubernates上で構成することで、機械学習にかかわる一連の処理の再現性を担保できるようになった。 AutoML製品(DataRobot)の機能をKubernates(以下k8s)上で実行させることで、バッチ予測を並行実行し、大幅に高速化することができた。 データサイエンティストが自分自身で容易に機械学習パイプラインの定義・デプロイができるようになった。 自己

          たった3人で運用するドコモを支える機械学習基盤の作り方 ー Kubernates × Airflow × DataRobot を使ったMLOpsパイプライン ー - ENGINEERING BLOG ドコモ開発者ブログ
        • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

          こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

            Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
          • Cloud Composer 2上でApache Airflow 2のワークフローを実装する - ZOZO TECH BLOG

            はじめに こんにちはZOZOデータサイエンス部MLOpsブロック松岡です。 本記事では先日リリースされたGCP(Google Cloud Platform)Cloud Composerの最新バージョンCloud Composer 2について紹介します。 ZOZOTOWNでは、多種多様な商品が毎日新たに出品されています。現在MLOpsブロックでは、機械学習で商品情報の登録を補佐するシステムを開発しています。 このシステムでは商品情報を保存するデータベースへ大量の書き込み処理が発生します。このアクセスによる負荷が日常業務に影響を及ぼすリスクを最小限に抑えるため、推論処理は夜間に行います。夜間に処理を完了させるには強力なマシンリソースを使用する必要があります。コストの観点から処理が行われていない時間はマシンリソースを使用停止する必要もあります。また、人手を介さずに安定して稼働出来る仕組みも求めら

              Cloud Composer 2上でApache Airflow 2のワークフローを実装する - ZOZO TECH BLOG
            • コードリーディングでAirflowの仕組みを理解する

              こんにちは。Nowcastでエンジニアをしている片山(@fozzhey)です。 NowcastではワークフローマネジメントツールとしてAirflowを採用しています。 Airflowは日本でもよく採用されており、実際に活用されている方も多いと思います。 しかし、Airflowを使うことはできるけど、実際にどういう仕組みで動いているのかは分からない方が多いのではないでしょうか? せっかくPythonで書かれているのに、Airflowのコードを読まないのはもったいない! ということで、この記事ではAirflowのコードリーディングを行いたいと思います。 なるべくコードやGithubのリンクを貼っていますが、手元のエディターでAirflowのリポジトリを開きながら読んでいただくとより理解が深まると思います。 コードリーディングの題材題材とするDAGとタスクこの記事ではAirflowが提供するサン

                コードリーディングでAirflowの仕組みを理解する
              • Airflow's Problem

                Airflow's ProblemIn 2022, data engineers manage forests, not trees I wrote an entire blog post trying to pin down why I dislike Airflow. But despite my rationalizations, it came out like a break-up letter — just way too personal: Dear Airflow, I tried to make it work, I really did. But you are too old, your abstractions are clunky, and I think you’re ugly. It’s over between us. Sincerely, Stephen

                  Airflow's Problem
                • Amazon Managed Workflows for Apache Airflow (MWAA) でのAiflow v2系への移行記録 - KAYAC Engineers' Blog

                  こんにちは。技術部の池田です。 この記事では、Amazon Managed Workflows for Apache Airflow (MWAA) のAirflow v2系への移行を行いましたので、その時の話をしたいとお思います。 内容としては、主に以下となります。 MWAA では v1.10.12の環境を直接 v2.0.2に移行できないぞ! ローカルでDAGのテストをしていると互換性チェックは楽だぞ! 新しいv2.0.2の環境を作るときには、最初はrequirements.txtやDAGを空っぽにしておくと良いぞ! ConnectionsとVariablesの新環境への移植は頑張るんだぞ!!! 背景 MWAAでもAirflow v2系のサポートが始まりました。 先日、Airflowの勉強会に参加して初めて知ったのですが、Airflow v1系は2021/06月末でEOLです。 早く移行を

                    Amazon Managed Workflows for Apache Airflow (MWAA) でのAiflow v2系への移行記録 - KAYAC Engineers' Blog
                  • Dagster vs Airflow: Feature Comparison

                    Get the tale of the tape between the two orchestration giants and see why Dagster stands tall as the superior choice. When it comes to data orchestration there are two names that are almost always in the conversation: Apache Airflow and Dagster. We often get asked why data engineering teams should choose Dagster over Airflow. It boils down to a few key differences: Asset orientation: Dagster focus

                      Dagster vs Airflow: Feature Comparison
                    • [レポート] dbtとAirflowとGreat Expectationsで堅牢なデータパイプラインを構築する #dbtcoalesce | DevelopersIO

                      大阪オフィスの玉井です。 12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からBuilding a robust data pipeline with dbt, Airflow, and Great Expectationsというセッションを受講したので、レポートを記します。 イベント概要 公式 Coalesce 2020 online - December 7-11, 2020 Building a robust data pipeline with dbt, Airfl

                        [レポート] dbtとAirflowとGreat Expectationsで堅牢なデータパイプラインを構築する #dbtcoalesce | DevelopersIO
                      • Airflowをソースコードから起動する

                        風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ご興味のある方は、ぜひご応募ください。 風音屋アドバイザーの渡部徹太郎(@fetarodc) です。 このブログではAirflowをソースコードから起動する方法を説明します。 ソースコードから起動できると、デバッガを刺してデバッグしたり、一部書き換えて動作を検証したりと、色々便利です。 環境 macOS BigSur(11.6.4) Python 3.9.7 virtualenv 20.7.2 Airflow 2.1.3 Docker 20.10.12 Airflowのインストール 作業ディレクトリの準備 作業するディレクトリを作成し、環境変数 WORK_DIR に登録します

                          Airflowをソースコードから起動する
                        • GitHub - windmill-labs/windmill: Open-source developer platform to power your entire infra and turn scripts into webhooks, workflows and UIs. Fastest workflow engine (13x vs Airflow). Open-source alternative to Retool and Temporal.

                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                            GitHub - windmill-labs/windmill: Open-source developer platform to power your entire infra and turn scripts into webhooks, workflows and UIs. Fastest workflow engine (13x vs Airflow). Open-source alternative to Retool and Temporal.
                          • Airflowさわってみた

                            概要 仕事でAirflowを触る機会があったので、そこで調べたことなどをまとめてみたいと思います。 Airflowとは Airflowは、処理(タスク)を順に実行したり、監視やスケジューリングができるフレームワークとなっています。 例えば、ETL処理(データの抽出、変換、ロード)を行うことに適しています。 Airflowの用語 Dag Airflowは一連のジョブ(処理のかたまり)をDagで定義します。 Dagとは、有向非巡回グラフ(Directed Acyclic Graph)のことで、1方向で処理を順に実行していくものになります。ETLでは、ロードは抽出、変換を先に実行しなくてはならないため、抽出→変換→ロードの順で処理を組み、Dagを作成することになります。 Operator 処理(タスク)を定義するテンプレートのようなもの。 様々なOperatorが用意されていて、Bashで処理を

                              Airflowさわってみた
                            • 時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)

                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータサイエンティストをしております、田辺 広樹(ざるご)です。 時系列ビッグデータに対しては、オフライン評価の実施にあたって、学習時とは異なる操作を行う必要があります。弊チームでは従来、これらに対して、書き捨ての集計クエリ、Python スクリプトを作成することで対応を行っていました。 本記事では、これらの操作を自動化し、オフライン評価のための工数を削減した取り組みをご紹介します。 前提: Yahoo!広告における機械学習パイプライン Yahoo!広告では、時系列ビッグデータを用いて、ヤフーの AI プラットフォーム上で広告配信コンバージョン率(CVR)予測モデルを学習し、広告配信に活用しています。

                                時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)
                              • Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ

                                サービス比較各サービス別に、Good/Challenge に分けて記載しています。 GoodMWAA Pythonで実現できることは基本すべて実装可能で、実装の制約が少ない UI が充実しており、実行履歴、ログ、実行時間等の様々な情報を参照することが可能 UI 上でワークフローの任意の位置からリトライ可能 各種クラウドSDK/OSS API を呼び出しを簡易化するための provider がサードパーティ提供されている Providers packages reference — apache-airflow-providers Documentation provider を pip でインストール後、各 provider に実装されている operator 関数を呼び出すことで実現可能 Step Functions AWS サービスの呼び出しをローコード(パラメータ指定程度)で実現可能

                                  Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ
                                • Apache Airflow : 10 rules to make it work ( scale ) | Towards Data Science

                                  Airflow is by default very permissive and without strict rules you are likely to create a chaotic code base that is impossible to scale and administrate. if you are not careful your shortcuts will cost you a lot afterwards Airflow permissive approach will let you schedule any custom code (jobs) but you will create a spaghetti stack if you do not follow very strict SEPARATION OF CONCERN design betw

                                    Apache Airflow : 10 rules to make it work ( scale ) | Towards Data Science
                                  • AWSのマネージドAirflow "MWAA" 所感

                                    Google Cloud Composerのリリース(2018年7月19日GA)から遅れること2年数ヶ月、AWSは2020年11月24日に Managed Workflows for Apache Airflow (MWAA) をリリースした。 Introducing Amazon Managed Workflows for Apache Airflow (MWAA) それから1年、遅ればせながら自分でも軽く試してみた。AWSコンソールからAirflow UIに飛ぶのに違和感を覚えつつも1、種々のAWSサービスとの連携を考えると「むしろなんで今まで無かったんだろう」という気さえする。 概要 公式のデモ動画が分かりやすいので、まずはそれを見てみよう。 ポイントは次の通り。 DAGファイル(Pythonコード)は専用のS3バケットに置く OSSのAirflowに完全準拠 (事前に設定した上限値

                                      AWSのマネージドAirflow "MWAA" 所感
                                    • 【増席】Airflow, Argo, Digdag...モダンなパイプラインツールをハックしよう! (2021/02/17 19:30〜)

                                      お知らせ connpassプライバシーポリシーの改定及び外部送信規律ページを追加いたしました。詳細につきましてはこちらをご覧ください。 新機能 技術カンファレンスをより見つけやすく、参加しやすくするための新機能「カンファレンス特集ページ」をリリースしました。「技術」や「テーマ」などのトピック別に探せるほか、直近開催予定のカンファレンスが一覧で確認できますのでご活用ください。詳しい機能説明や掲載方法についてはこちらをご確認ください。

                                        【増席】Airflow, Argo, Digdag...モダンなパイプラインツールをハックしよう! (2021/02/17 19:30〜)
                                      • AirflowのKubernetes移行~Kubernetesで運用するのは思ったより難しくない~ - pixiv inside

                                        初めまして。プラットフォーム開発部で全社横断データインフラやデータマネジメントを担当していますkashiraです。 この記事では、先日のPIXIV DEV MEETUP 2024のLTで発表した「AirflowのKubernetes移行 ~ Kubernetesで運用するのは思ったより難しくない ~」について登壇内容を元に大幅に加筆修正を行い、文章にしたものです。 先日の発表では、時間の都合上話せなかったことが多くありました。そのため、この記事で移行についての補足を多めに入れています。 この記事がAirflowの運用に困っている管理者の方にとって少しでもお役に立てれば幸いです。 スライドは下記で公開しています。 speakerdeck.com はじめに ピクシブではデータパイプラインの基盤として、全社共通のAirflowをデータ基盤チームで運用しています。 個人的に特徴的だなと思っている点

                                          AirflowのKubernetes移行~Kubernetesで運用するのは思ったより難しくない~ - pixiv inside
                                        • ワークフローエンジン Apache Airflowの理解を深める - Qiita

                                          本記事は、オープンソースのワークフローエンジンである Apache Airflow の説明と実際のハンズオンを記載する。 AWS では、マネージドサービスとして 2020年11月に Amazon Managed Workflow for Apache Airflow がリリースされたが、そちらは本記事に併せて今後投稿予定。 Apache Airflowとは Airflowは、2014年にAirbnb社が開発したオープンソースであり、2016年より Apache財団となる。開発言語は Pythonで、ワークフローエンジンに該当する。 Airflowは、予め決められた順序を基に、処理を実行するワークフローをプログラムで作成する。また、スケジュールや監視を行う事が可能。 ワークフローはタスクの有向非巡回グラフ(DAG)を作成する事により、タスクを実行する。 DAGとは DAGとは有効非巡回グラフ

                                            ワークフローエンジン Apache Airflowの理解を深める - Qiita
                                          • BigQueryのテーブルの値でAirflowの実行タスクを分岐する|Dentsu Digital Tech Blog

                                            電通デジタルでBIエンジニアをしている三瓶です。 普段は社内向け広告運用改善ダッシュボードのデータエンジニアリング周りを担当しています。 本記事では、AirflowのOperatorを使ってBigQueryのテーブルの値によって実行するタスクを分岐する方法についてご紹介します。 Airflowの実行タスクを分岐するに至った理由 弊社では主にワークフローエンジンのAirflow[1]を用いて取得したデータのETL関連タスクをワークフロー(DAG)に乗せて実行しています。 しかし、上の管理画面の画像のように多種多様なDAGを常時複数運用をしていると、出力結果の品質チェックを毎回行うのはかなりのコストがかかり日々コストの効率化に勤しんでいます。 そこで考案したのがBigQuery上の出力結果を取得し、品質的に異常があった場合はその内容をSlackへ通知し、そうでない場合は通常通りDAGを完了する

                                              BigQueryのテーブルの値でAirflowの実行タスクを分岐する|Dentsu Digital Tech Blog
                                            • Amazon MWAA (Amazon Managed Workflows for Apache Airflow) で ECS タスクを起動するジョブを作成して動かす。 - サーバーワークスエンジニアブログ

                                              こんにちは。 山が好きな山本です。 紅葉シーズンですね。 仙ノ倉山から見る平標山、遠くに苗場山。2021/10 ジョブ管理ソフトウェア Airflow のマネージドサービスである、Amazon MWAA (Amazon Managed Workflows for Apache Airflow) を検証しています。 環境作成と利用料金につきましては、以下の記事で解説しています。 参考にご参照ください。 Amazon MWAA (Amazon Managed Workflows for Apache Airflow) のネットワーク構成と料金の概算。 - サーバーワークスエンジニアブログ また、タイムゾーンを東京に変更する方法もブログ記事を書いています。 Amazon MWAA (Amazon Managed Workflows for Apache Airflow) のタイムゾーンを東京に変

                                                Amazon MWAA (Amazon Managed Workflows for Apache Airflow) で ECS タスクを起動するジョブを作成して動かす。 - サーバーワークスエンジニアブログ
                                              • MWAA(airflow)×dbtの組み合わせはcosmosを使おう

                                                はじめに airflow上でdbtを実行するパッケージcosmosがリリースされたので触ってみました。 これまでの課題 airflow上で直接dbtを動かすパターン airflow上でdbtを実行する場合、基本はBashOperatorが選択肢になります。この場合、以下のような課題点がありました。 dbtと他のパッケージの依存関係の管理が必要 dbt上の処理がすべてまとまって表示されるため、途中からやり直しなどの細かい制御は効かない ECSなどの別サービスを呼び出すパターン 以下の記事のようにecsでdbtを実行することによってパッケージの依存関係からは解放されます。 ただし処理の細分化に関しては以前課題が残ったままの状況でした。 astronomerのblogではtaskを動的に生成することも行なっていましたが、かなり複雑な処理になります。 今回のパッケージについて cosmosは上記を

                                                  MWAA(airflow)×dbtの組み合わせはcosmosを使おう
                                                • ジョブ管理ツールの定番、Apache Airflowのマネージドサービスを使う利点と勘所

                                                  本連載の第5回で紹介した「Apache Airflow」は米Adobe(アドビ)や米Airbnb(エアビーアンドビー)、米Google(グーグル)、米Twitter(ツイッター)をはじめとした世界的なIT企業などで採用されているオープンソースの統合ジョブ管理ツールです。 ワークフローをコードベースで管理でき、時間などを含めた様々な依存関係を簡潔に表せるため、多くの企業で利用されており、ジョブ管理ツールとしてデファクトスタンダードになりつつあります。現在、Apache AirflowはGoogle CloudやAmazon Web Services(AWS)といったプラットフォームでマネージドサービスが提供されています。 今回はマネージドサービスとしてGoogle Cloudで提供されている「Cloud Composer」、AWSで提供されている「Amazon Managed Workflo

                                                    ジョブ管理ツールの定番、Apache Airflowのマネージドサービスを使う利点と勘所
                                                  • Airflowで構築したワークフローを検証する - Qiita

                                                    データ基盤の監視 データ基盤は下流の分析・可視化・モデリングの「基盤」となるので、監視は言うまでもなく品質を担保するため重要な存在です。データ基盤監視の考え方についてこの2つの記事が紹介しています。 同じくSQLによるデータ基盤を監視しており、最も大きな違いは自作ツールかAirflowで検証することだけです。本文はAirflowで構築したワークフローの検証についてもう少し紹介したいと思います。 まず、Data Pipelines Pocket Referenceではデータ基盤検証の原則が紹介されました。 Validate Early, Validate Often 要はできるだけ早く、できるだけ頻繁に検証するとのことです。ELTあるいはETL処理においては、Extract, Load, Transformそれぞれのステップが終了した直後に監視するのは最も理想的だと思います。 Transfo

                                                      Airflowで構築したワークフローを検証する - Qiita
                                                    • Airflowの日時関連概念おさらい - Qiita

                                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? このところAirflowについて公式資料を読んできた中で、重要概念としてしばしば登場した各種の日付概念をおさらいしておきます。 データ区間(data interval) ワークフロー(DAG)の実行中に処理対象となるデータの区間(期間)。 バッチ処理の対象となるデータを特定するための情報。 開始日時(data_interval_start)と終了日時(data_interval_end)で示される。 例えば一日ごとに起動するワークフローならば、 「今回」2022-07-23 00:00:00に起動した回のデータ区間は 2022-07-2

                                                        Airflowの日時関連概念おさらい - Qiita
                                                      • ワークフロー管理 - Amazon Managed Workflows for Apache Airflow (MWAA) - AWS

                                                        Amazon Managed Workflows for Apache Airflow は、次世代の Amazon SageMaker で利用できます Amazon Managed Workflows for Apache Airflow (MWAA) Apache Airflow のためのセキュアで可用性が高いマネージドワークフローオーケストレーション

                                                          ワークフロー管理 - Amazon Managed Workflows for Apache Airflow (MWAA) - AWS
                                                        • Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog

                                                          はじめに こんにちは。Data Engineer の @shase です。 弊社ではいくつかのユースケースでCloud Composer(Airflow)を使っているのですが、今回はデータチームで開発している、分析者向けBigQuery SQL実行基盤(社内の通称はSaved Query Workflow)について紹介します。 このシステムは今年の春から動いているものです。 システム概要 今回紹介するシステムの概要です。 分析者はSQLとYAMLをGitHubにコミットしてPRを作成します。 エンジニアがレビューをします。 Cloud ComposerでSQLがスケジュール実行され、結果がGoogle Sheets などに出力されます。 背景 組織全体のKPI集計やレポーティングとは別に、分析者個人や特定のチームが使うテーブルやレポートを定期的に作成する場合を想定したユースケースとして、分

                                                            Cloud Composer(Airflow)で分析者向けBigQuery SQL実行基盤をつくりました - スタディサプリ Product Team Blog
                                                          • 【Airflow Summit 2022 東京】オフライン参加レポ - Qiita

                                                            はじめに Airflow Summit は、Apache Airflow のユーザーと開発者のグローバルコミュニティのための年次イベントです。2022年は2回目の開催で、東京では実際に集まって講演を聴講する local event が行われました。 ここ数年、コロナ禍でイベントが一斉にオンライン化され、他の開発者とリアルで会う機会が少なかったので、いい気分転換でしたし、オフラインイベントに参加する重要さ を感じさせられました。開催は Tokyo Apache Airflow Meetup が行い、今後も Airflow に関するイベントを開催していくそうなので、少しでも Airflow に興味があればご参加ください!(僕が会いたい!) 当日の流れ エリア/施設 開催地は品川区にある大崎ブライトコアホールでした。朝から気温と日差しが厳しく、マラソンでもしてきたような汗を掻いた状態で入り口にた

                                                              【Airflow Summit 2022 東京】オフライン参加レポ - Qiita
                                                            • Airflow Deferrable Operators

                                                              クリスマスも年の瀬も近づいていますが、新年来てほしくないですよね?明日も来てほしくないですよね?時の進みをDeferしたいですよね? Airflowのドキュメント見ていたら、"Defer"という魅力的なキーワードを見つけたので調べてみました。 tl;dr 2.2でDeferrable Operatorというのが出たよ 2.0で登場したSmart Sensorを置き換えるよ Pythonの非同期IOの仕組みを使い、Workerではない場所(Triggerer)で処理を待つよ 使えるOperatorはまだ少ないよ AWS/GCPのmanaged Airflowでは使えないよ。Astrnomerか自前の環境か必要だよ 登場の背景 Deferrable Operatorですが、基本的にはSensorを改善するものです。 (ただし、外部リソースにアクセスするOperator全般に使えるらしい) その

                                                                Airflow Deferrable Operators
                                                              • 新卒エンジニアが Airflow のバグを発見してからコントリビュートするまで | メルカリエンジニアリング

                                                                この記事は、Merpay Advent Calendar 2023 の9日目の記事です。 こんにちは。今年の春に新卒でメルペイに入社し、Credit Platform Team でバックエンドエンジニアをしている@champonです。Credit Platform Team では主に ML(いわゆるAI与信) を用いた与信枠の算出を行っていますが、その中でも自分はワークフローエンジンである Airflow を用いたデータパイプラインの開発・運用を行っています。 今回は、業務中に Airflow のバグを見つけてからその原因を調査し、実際にコントリビュートするまでの過程をお話したいと思います。 Airflow とは まず簡単に、Airflow について説明します。 Airflow とは、ワークフローエンジンの一種であり、Apache Software Foundation が管理する OSS

                                                                  新卒エンジニアが Airflow のバグを発見してからコントリビュートするまで | メルカリエンジニアリング
                                                                • データ統合に欠かせないApache Airflow、どのような企業にマッチするのか

                                                                  DX(デジタルトランスフォーメーション)を推進するうえで、データを効率よく扱うためのデータ統合は欠かせません。 統合のためのツール選びも重要です。そうした「統合ジョブ管理ツール」の領域はこれまでプロプライエタリー製品およびそれらをクラウドに対応させた製品が多く利用されてきましたが、現在この分野でもオープンソースソフトウエア(OSS)が使われるようになっています。 タスクの依存関係をベースとしたフロー定義が可能で、主要なクラウドプラットフォームとも連係しやすい「Apache Airflow」が注目されています。今回は「Google Cloud」や「Amazon Web Services(AWS)」といった主要クラウドでマネージドサービスとして提供されているApache Airflowを解説します。 なぜ統合ジョブ管理ツールが必要なのか 多くの場合、全てのデータが単一のシステムに保存されている

                                                                    データ統合に欠かせないApache Airflow、どのような企業にマッチするのか
                                                                  • Google Cloud Composerをcomposer-1.17.6-airflow-2.1.4にバージョンアップしました - Pepabo Tech Portal

                                                                    Airflow v2のリリースブログに”Massive Scheduler performance improvements”とあるように、Airflow v2ではスケジューラの性能が大幅に強化されています。 キューに入ったタスクが開始するまで、Airflow v1.10.14では最長で5分ほどかかっていたのですが、v2.1.4に上げたところ数秒に短縮され、全体的なDAG実行時間を短縮することができました。 また、Cloud Composerを構成するコンポーネントのバージョンが全体的に新しくなったことで、それぞれに関連する既知の脆弱性に対応できたことも、バージョンアップによる恩恵のひとつです。 Cloud Composerは、AirflowやGoogle Kubernetes Engine、Google Cloud SQL、そして多くのPyPIパッケージの組み合わせで構成されています。

                                                                      Google Cloud Composerをcomposer-1.17.6-airflow-2.1.4にバージョンアップしました - Pepabo Tech Portal
                                                                    • Amazon Managed Workflows for Apache Airflow (MWAA) のセットアップ - Qiita

                                                                      Amazon Managed Workflows for Apache Airflowとは Amazon Managed Workflows for Apache Airflow (以下MWAAと呼びます) は、ワークフロー制御ツールであるApache AirflowのAWSマネージドサービスです。 マネージドサービスのため、デプロイの簡易化、オートスケーリング、AWSサービスのプラグインのインテグレーションを行うことができるのが特徴になります。 MWAAのセットアップ方法 事前準備 MWAAのセットアップを行うには事前にMWAAの情報の格納を行うS3のバケットを作成しておく必要があります。 ここでは、airflow-${AWS_ACCOUNT_ID}-${AWS_REGION}-bucketというバケットを作成して、以下の3つのフォルダも作成しておきます。 dags in0 out0 M

                                                                        Amazon Managed Workflows for Apache Airflow (MWAA) のセットアップ - Qiita
                                                                      • Airflow : Docker で検証環境を構築して画面と CLI と REST API で操作する - kakakakakku blog

                                                                        ワークフローを管理するソフトウェア「Apache Airflow」に入門する.今までは本当にザッと試した程度の経験しかなく,テックブログに記事を書いたことすらなかった.幅広くある機能を試しながら学習ログを記事にしていく.今回は Airflow の検証環境を構築して画面と CLI と REST API で操作するところまでまとめていく💪 なお Airflow の原則と特徴は公式サイトに載っている. Principles(原則) Scalable(スケーラブル) Dynamic(ダイナミック) Extensible(拡張可能) Elegant(エレガント) Features(特徴) Pure Python(標準の Pyhon 実装) Useful UI(便利な UI) Robust Integrations(堅牢な統合) Easy to Use(使いやすさ) Open Source(オープン

                                                                          Airflow : Docker で検証環境を構築して画面と CLI と REST API で操作する - kakakakakku blog
                                                                        • Airflow Study #1 「Airflowの内部構造と動かし方を理解する」で LT してきました | DevelopersIO

                                                                          こんにちは、みかみです。 2021/06/23(水) にオンライン開催された、株式会社ナウキャスト様主催の勉強会 Airflow Study #1 「Airflowの内部構造と動かし方を理解する」 にて、「Airflow のアーキテクチャをざっくり学んで�Google Cloud Composer で�マネージド環境をつくって動かしてみた。」というタイトルで LT させていただいてきました。 スライド まとめ(所感) データ分析基盤で Airflow を利用しているケースも多々あるのではないかと思いますが、ネット上などで Airflow に関する情報を探すと、特に日本語の情報は意外と少ない印象です。。 そんな中、Airflow 一色の本イベントでは、ご参加者様からのコメント含めて興味深いお話をたくさんお聞きすることができました。 特に Airflow 1系から2系への以降ガイドなど、実際の

                                                                            Airflow Study #1 「Airflowの内部構造と動かし方を理解する」で LT してきました | DevelopersIO
                                                                          • Amazon Managed Workflows for Apache Airflow (MWAA) を導入・運用してみて - GO Tech Blog

                                                                            ※本記事の背景にある『DRIVE CHART』は、2025年8月1日付けで会社分割に伴い新会社GOドライブ株式会社に移管されました。現在は、GOドライブ社のテックブログにて継続的に技術情報を発信していますので、そちらもご参照ください。 DRIVE CHARTでは、機械学習システムのデータパイプラインとしてAirflowを利用しています。 今回は、AWSで提供されているマネージドサービス「Amazon Managed Workflows for Apache Airflow(MWAA)」に移行したので、ちょっとしたtipsや導入・運用時のハマリポイントをまとめようと思います。 はじめに こんにちは スマートドライビング事業部システム開発部AI基盤グループで、皆VSCodeを使ってる中で1人寂しくVimで開発している大内です。 今回は、機械学習システムのデータパイプラインとして、AWSが提供し

                                                                              Amazon Managed Workflows for Apache Airflow (MWAA) を導入・運用してみて - GO Tech Blog
                                                                            • Airflow Breeze を利用してローカルで Airflow を起動する | フューチャー技術ブログ

                                                                              概要TIG の多賀です。 OSS として Airflow へ貢献するにあたり、ローカルでの実行やテストの環境整備が必要になります。また、 Airflow を利用するにあたってもローカルでの動作確認をしたいケースは多いかと思います。 Airflow では、 Airflow Breeze と呼ばれる環境が整備され、公式より提供されています。当記事では、 Airflow Breeze について概要を記載し、 Airflow への OSS 貢献の入り口となれば良いと考えています。 Airflow Breeze とはAirflow Breeze とは、ローカルで Airflow を簡単に実行できるように整備された環境を指します。実態はコンテナベースで構築され、Docker Compose が利用されています。 airflow/AirflowBreeze_logo.png at master · ap

                                                                                Airflow Breeze を利用してローカルで Airflow を起動する | フューチャー技術ブログ
                                                                              1

                                                                              新着記事