タグ

redshiftに関するhazy-moonのブックマーク (8)

  • みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ

    こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi

    みんなのウェディングのデータ分析基盤の現状 — みんなのウェディングエンジニアリングブログ
  • RedshiftでELBのアクセスログ(9千万件)を解析してみた | DevelopersIO

    はじめに AWSチームのすずきです。 AWSが提供するDWHのAmazon Redshiftを利用して、S3上に保管されたELBのアクセスログ(15万ファイル、30GB、9千万レコード)を解析する機会がありましたので、 その内容について簡単に紹介させていただきます。 参考資料 今回の作業にあたって、以下の記事を参考とさせて頂きました。 Using Amazon Redshift to Analyze Your Elastic Load Balancer Traffic Logs ELB のログを Redshift で解析してみる 環境情報 Amazon Redshiftは、東京リージョン起動済みのクラスタを利用しました。(ds1.large×1台) 一時テーブル作成 CREATE TABLE IF NOT EXISTS tmp_elb_access_log ( request_time V

    RedshiftでELBのアクセスログ(9千万件)を解析してみた | DevelopersIO
  • Amazon Redshift DB開発者ガイド – データのロード処理(3).データロードに関するトラブルシューティング | DevelopersIO

    Amazon Redshift DB開発者ガイド、データロード処理の第3弾です。前回のエントリに盛り込もうと思ったのですがボリューム(文字数)の都合で断念しました。(^-^;) 第3弾はエラー発生時の解決方法やヒントについてまとめている『トラブルシューティング』にちなんだ内容です。実際実行時に数多く目にする事でしょうから、何かとこの手の情報は入り用になってくるのかな、と思います。問題解決に少しでもお役に立てるようであれば幸いです。 目次 データロードに関するトラブルシューティング マルチバイト文字のロードエラー ロードエラーリファレンス データロードに関するトラブルシューティング このセクションでは、ロード時のエラーに関するエラーの識別方法及び解決方法についての情報を提供します。 COPYコマンドで指定されたAmazon S3のバケットは、対象のクラスタと同じリージョン内にある必要がありま

    Amazon Redshift DB開発者ガイド – データのロード処理(3).データロードに関するトラブルシューティング | DevelopersIO
  • Amazon Redshift DB開発者ガイド – データのロード処理(2).COPYコマンドの使用 | DevelopersIO

    『データロードのベストプラクティス』に続くデータロードの処理、第2弾です。またもやかなり長〜くなってしまいましたが、リファレンス的にご利用頂ければと思います。m(_ _)m COPYコマンドは、Amazon S3上のファイルから、又はDynamoDBのテーブルから並列にデータを読み込み、ロードするためにAmazon Redshiftの超並列処理(MPP)を活用しています。 注意: 大量データのロードの際はCOPYコマンドを使う事を我々は強くお奨めします。 個々にINSERT文を使用する場合、実行スピードはとてつもなく遅くなるかもしれません。 また、あなたのデータが他のAmazon Redshiftのデータベーステーブルに存在する場合は、 パフォーマンス向上の為にINSERT INTO … SELECT又はCREATE TABLE ASを使用します。 詳細については、INSERT 又は CR

    Amazon Redshift DB開発者ガイド – データのロード処理(2).COPYコマンドの使用 | DevelopersIO
  • Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:後編) | DevelopersIO

    Amazon Redshiftを始めてみよう』の後編です。前編コンテンツはこちら。 Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:前編) (クラスタ作成・接続設定等) Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:後編) (クラスタ接続・各種操作) また、Redshiftは利用料金もお高めなのでこちらの注意書きも再掲。 あなたが起動しようとしているクラスタは、Sandbox内でお試し的に動かせるものではなく、 実際に稼働し、終了させるまでAmazon Redshiftのクラスタ利用料金が発生し続けます。 ここに記載されている実践作業が終了したら、費用を最小限に抑える為に速やかに クラスタを終了・削除するようにしてください。 なお進行をより簡易にさせる為に、ここでは『VPCの外側に(VPCを利用せず)クラスタを作成した場合』で進める事にします。

    Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:後編) | DevelopersIO
  • Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:前編) | DevelopersIO

    今年6月のAWS Summit Tokyo 2013で東京リージョンでも使えるようになったRedshift。その流れを受けて、国内でもより一層注目度が高まっている今日この頃皆様如何お過ごしでしょうか。 そんなRedshiftについて、この機会に自分も触れてみようと思います。私自身、これまで超大規模データやデータウェアハウスに関しては触れて来ておらず、この分野に関しては専門的な知識は有してはいませんが、そんな感じのスタートでRedshiftの巨大な山を登り始め、自分自身徐々に理解を深めていければ、またエントリを御覧の皆様にも同様に読み進めて行く事で理解を深めていって頂ければ幸いです。よろしくお願いします。 ※文字も画像も多目な分、ひとまとめにするとボリューム的にスクロールバーの長さがエラい事になりそうなので前後編に分けてお届けします。:-) 目次 RedShiftとは はじめに / Gett

    Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:前編) | DevelopersIO
  • Amazon Redshift DB開発者ガイド – Welcome | DevelopersIO

    以下の『入門ガイド』前後編エントリでは1からRedshiftに触れ、簡単なSQL文を実行してみたり結果を確認してみたり、という事を実践しました。 Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:前編) | Developers.IO Amazon Redshiftを始めてみよう(入門ガイド翻訳&実践:後編) | Developers.IO 入門ガイド(Getting Started)の他にも公開されている『DB開発者ガイド(Database Developer Guide)』及び『管理ガイド(Management Guide)』についても、順次読み進め、実践&翻訳記録としてアウトプットして行こうと思います。 当エントリはその片方、『DB開発者ガイド』のトップページにあたる部分です。 目次 始めてAmazon Redshiftを使う方へ DB開発者の方々へ 前提条件 Am

    Amazon Redshift DB開発者ガイド – Welcome | DevelopersIO
  • Amazon Redshift 管理ガイド – Amazon Redshiftとは何か? | DevelopersIO

    DB開発者ガイドと合わせて、『管理ガイド』(Management Guide)の方も攻めて行こうと思います。同様にTOPのページから。こちらのドキュメントでは管理の側面から、どういう事が出来るのか、どういう手段(GUI、SDK等)で出来るのか、と言った観点から解説を行なっています。 Amazon Redshiftとは何か? Amazon Redshiftクラスタ管理ガイドへようこそ。Amazon Redshiftは、クラウド内で完全に管理された、ペタバイト規模のデータウェアハウスサービスです。 あなたが普段使っているものと同じ、SQLベースのツールやビジネス・インテリジェンス(BI)アプリケーションを使って、Amazon Redshiftは事実上、どんなサイズのデータ分析であっても高速なクエリパフォーマンスを提供します。AWS管理コンソールで数回クリックするだけで、あなたは数百ギガバイトの

    Amazon Redshift 管理ガイド – Amazon Redshiftとは何か? | DevelopersIO
  • 1