[B! BigQuery] ji_kuのブックマーク

Fight with growing data on Rails

名古屋Ruby会議03 発表資料。

ji_ku 2017/02/13

リンク

BdashというBIツールをリリースしました - hokaccha memo

BdashというアプリケーションをElectronで作りました。 bdash-app/bdash: A simple business intelligence application. 以下からダウンロードしてインストールできます（現状まだMac版だけ）。 https://github.com/bdash-app/bdash/releases ざっくりとこんな感じのことができる。 SQLを書いて保存＆実行できる結果を元にグラフを書ける gistで共有できる現状で対応しているデータソースはMySQL、PostgreSQL（Redshift含む）、BigQuery 仕事でRedshiftを使って分析SQLを書くことが増えて、手元ではJupyter Notebookを使ってたんだけど、SQL書いてグラフを書くだけの用途には若干オーバースペックでもうちょっと簡単にできるといいなと思ったのがき

ji_ku 2017/02/08

リンク

Bigqueryの内部処理について徹底解剖してみた| PLAID engineer blog

プレイドの @nashibao です。弊社では結構BigQueryを使い倒させていただいていて、社内向けのバッチ解析やChartIO/ModeAnalytics等を介した社外向けのレポーティングとしての利用だけでなく、ABテストなどの集計系では（Query数のコントロールのためにキャッシュは介していますが）ほぼ直接アプリケーションのバックエンドとして利用しています。またStreaming Insertが思ったより安定しているので、ニアリアルタイムにイベントを反映することができ、適当なQueryを投げ込んでPBの集計を気軽にやって、数百万使って唖然としてとりあえず寝て忘れる、みたいなことをしています。先日も"GCP NEXT World Tour in Tokyo"において、弊社 @makinoy がジョブズばりのプレゼンをさせてもらいました。 Google Cloud Platfor

ji_ku 2016/12/09

BigQuery

リンク

SQLおじさん(自称)がBigQueryのStandard SQLを使ってみた

2016/10/22 GCPUG Fukuoka 4thで発表。 BigQueryのStandard SQLの機能やLegacySQLからの移行に関する注意点など。

ji_ku 2016/10/25

BigQuery

リンク

EmbulkでMySQLのデータをBigQueryにロードするのに便利なツールの開発 - 電脳徒然日記

Embulkを利用してMySQLのデータをBigQueryにロードする際に便利なツールを開発したので紹介です。「Samidareっていいます！　よろしくお願いします。Embulkの設定作成はお任せください！」開発経緯業務でログデータの解析基盤としてBigQueryを使用することになったのですが、本番環境のMySQLのデータもBigQueryで参照できるようにすると色々と夢が膨らむという事に気付きました。 Embulkを利用すると簡単にMySQLのデータをBigQueryにロードできるという情報を入手したので検証したところ、確かにこれは楽チンだという結論に至りました。ただ、問題点としてテーブルの数だけEmbulkの設定ファイルを作成し、テーブル毎にEmbulkを実行しなければならないという点です。当初でもBigQueryにロードしたいテーブル数は20以上あり、今後対象のテーブルが増え

ji_ku 2016/10/15

リンク

BigQuery の Partitioned Table 調査記録 - Qiita

embulk-output-bigquery の Partitioned Table 対応で調べてたので、その時に調べたものを雑にまとめておく。APIを直接叩いて実装しているので、bq コマンドでの使い方については調べていない。 EDIT: 現在は DATE もしくは TIMESTAMP カラムを指定した partitioning が可能ですが、本ドキュメント記載時にはまだ BigQuery がサポートしていなかったため、その記述が抜けています。 TL; DR 基本的に tableId に partition decorator ($YYYYMMDD) を指定して操作する DAYパーティションしか(今のところ)切れない。特定パーティションのデータを置き換えたい場合は、パーティションを指定して、writeDisposition: 'WRITE_TRUNCATE'として load (または

ji_ku 2016/10/04

BigQuery

リンク

83億レコードを移行し、日々2,500万レコードのアクセスログをBigQueryに記録している話（インフラ編） - Money Forward Developers Blog

こんにちは。インフラエンジニアの村上です。マネーフォワードのインフラチームは、サービスに関わるインフラから、自社の作業環境、開発環境、さらにはサービスのインフラの中でも物理的なものからOS・ミドルウェア・アプリケーションのメンテナンス・ビルド・リリース・運用まで幅広く関与しています。今回はGoogle Cloud PlatformのBigQueryを活用してアクセスログの分析環境を構築した時の話を紹介します。この記事に書かれる事データ分析基盤としてBigQueryを使用した話とデータ量を例示しながら使用を開始した時のトラブルシュートとパフォーマンスについて紹介する。データ移行のコツもうまく含めながら書いていく。 BigQueryを採用した訳マネーフォワードの家計簿は350万人以上のお客様に利用いただき、アクセスログは日々2.500万件程度増えております。サービス開始から

ji_ku 2016/08/05

BigQuery

リンク

Google BigQuery クエリーリファレンス - Google Cloud Platform

このページは、2015 年 3 月 1日現在の https://cloud.google.com/bigquery/query-reference の翻訳です。最新の情報は、こちらの英語のページもご確認ください。修正等のフィードバックがあれば、こちらからお寄せください。 BigQuery のクエリーは、標準 SQL の SELECT 文にアレンジを加えたものを使って書きます。BigQuery は、COUNT、算術演算、文字列操作など、さまざまな関数をサポートしています。このドキュメントでは、BigQuery クエリーの構文と関数の詳細を説明します。目次クエリーの構文 BigQuery のすべてのクエリーは、次の形式の SELECT 文です。 SELECT [[AS] ] [, [[AS] ], ...] [() WITHIN ] [FROM [(FLATTEN(|()] [, |()

ji_ku 2016/06/09

BigQuery

リンク

はじめての BQ GAS

gcpja night #28 での発表資料です。サンプルコードはこちら: https://gist.github.com/hakobera/537b35971e3b698ae083

ji_ku 2016/04/22

BigQuery

リンク

BigQuery で今月のテーブル名を TABLE_QUERY を使って取得する - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

ji_ku 2016/04/22

BigQuery

リンク

VOYAGE GROUP　エンジニアブログ : BigQueryで使えるクエリをまとめてみた

2015年02月16日15:55 カテゴリ BigQueryで使えるクエリをまとめてみたこんにちは。Zucks Ad Networkの開発に携わっている@smileeeenです。最近では所謂ビッグデータを活用している事例も珍しくなくなってきました。ビッグデータを用いて分析などを行う時に、便利なツールの1つとしてGoogleが提供しているBigQueryがあげられると思います。弊社内でもBigQueryの活用例が増えてきているので、この機会にどのようなクエリが発行できるのか、お勉強を兼ねてまとめてみました。ちなみに私は普段MySQLに慣れ親しんでいるので、MySQLではできないような事を中心にまとめてみたいと思います。それでは、公式サイトのリファレンスに倣って確認していきたいと思います。 Query Reference - Google BigQuery — Google Clo

ji_ku 2016/04/22

BigQuery

リンク

https://qiita.com/yuichi_komatsu/items/3aae65c362b2a57f6fbf

ji_ku 2016/03/22

BigQuery

リンク

MySQL のテーブルを BigQuery にインポートするための App::BigQuery::Importer::MySQL - まいんだーのはてなブログ

このエントリは MySQL Casual Advent Calendar 2014 の1日目として書かれた記事であり、同時に Google Cloud Platform Advent Calendar 2014 の17日目として書かれた記事でもあります。このエントリは MySQL と BigQuery を組み合わせて使う際に誰しも思うであろうことをどう解決するかという一手について書いたものです。 MySQL についてもはや説明不要の RDBMS ですね。これを読まれている方の中でも多くの人が使っているのではないでしょうか。 MySQL Casual Advent Calendar 2014 はまだまだ執筆者を募集しておりますので、ふるってご参加ください。 MySQL Casual Advent Calendar 2014 - Qiita BigQuery についてこちらも説明は要らな

ji_ku 2016/03/22

BigQuery

リンク

BigQueryで擬似truncate・擬似delete - Qiita

※注意：2015年5月末くらいに試した内容なので今後も使い続けられる方法かどうかはわかりません。 BigQueryにデータをインポートしたけど間違いがあったのでインポートし直したい、ということありますよね。普通のDBみたいにtruncateやdeleteができれば楽なのですがBigQueryにはそのような機能は用意されていないようです。しかし、クエリ実行のオプションを使うことで擬似truncateすることができたのでメモしておきます。擬似truncate まず、WebUIを開き、truncateしたいテーブルのselect文を書きます。この時、LIMIT 0を付けておきます。そして右下のShow Optionsボタンをクリックします。 Destination Tableに同じテーブルを指定し、Write PreferenceをOverwrite tableにします。データ量が多い

ji_ku 2016/03/22

BigQuery

リンク

BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

まだ入門もしてないので「ことはじめ」じゃないです。大体触ってみたのを載せます。 Wikipedia 集計サンプルデータのwikipediaを集計してみました。データは3億行ほどあり、サイズは36GBほどあります。今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。上位陣はbotさん達ですね。結果としては、3億行のデータを、何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。わお。料金データ保管: $0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwiki

ji_ku 2016/02/26

BigQuery

リンク

MySQLからBigQueryへのデータロード

はじめまして、エンジニアの古堀です。 Aimingではログの分析ツールとしてGoogleのBigQueryを利用しています。ゲームプレイのログを集計、分析して機能開発、改善の指針として活用しています。実際に運用に乗せてみるとログだけでは情報が足りず、ユーザー情報やマスターデータなども必要であると気付きました。そこでMySQLのデータをBigQueryに反映させる試みに取り組んだので紹介したいと思います。 BigQueryの特長と言えば以下の2点ですが、実際に使用してみるとGoogleアカウントでの認証や権限設定なども便利だと感じますね。 * クエリーの処理速度が速い(数十億件のテーブルでも数十秒で結果が返ってくる) * 費用が安い h2. Embulkの採用 MySQLのデータをBigQueryに反映するツールとして “Embulk”:https://github.com/embulk

ji_ku 2016/02/25

BigQuery

リンク

これでBigQueryをドヤ顔で語れる！BigQueryの基本

社内勉強会で発表するのに使った資料です。 google big queryが基本的な使い方が全て分かるようにまとめたものただし、続きはWebで（公式ドキュメントで）

ji_ku 2016/02/25

BigQuery

リンク

ネストされたJSONデータをFluentdでGoogle BigQueryに投入してクエリを実行する

ネストされたJSONデータ（https://cloud.google.com/bigquery/docs/personsData.json）を、fluentdを使ってGoogle BigQueryに投入します。 BigQueryは、こういった構造化されたデータに対応する WITHIN、FLATTEN といったSQL関数が準備されています。これらを利用したSQLクエリを構築してデータを取り出してみます。プロジェクトを作成 https://console.developers.google.com/project Google Developers Consoleを開き、プロジェクトを作成して、『プロジェクト ID』『メールアドレス』をメモしておいてください。また、P12キーファイルを保存しておいてください。認証で必要になります。サーバ AMI: CentOS 6 (x86_64)

ji_ku 2016/02/25

BigQuery

リンク

fluent-plugin-bigquery利用時に、tableを動的に設定する - Qiita

経緯ちょうどログ解析基盤を移行しようとしていたところに、下記の記事が。 Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja BigQueryは、社内の利用者も多いGoogle Apps Script用のAPIも用意されているので、これは検証せねばと思っていました。検証には、こちらの記事がたいへん参考になりましたm(__)m FluentdでGoogle BigQueryにログを挿入してクエリを実行するそして、課題も。。 fluent-plugin-bigquery単体では、BigQueryの格納先tableを動的に変更することができません。 BigQueryのPricingをみると、クエリ毎にtableのデータ量で課金されます。また、recordの削除はできないので、定期的にtableを変更してクエリ対象のtableが肥大化し