タグ

sparkに関するd_animal141のブックマーク (7)

  • AWS Glue Spark Job - How to group S3 input files when using CatalogSource?

  • Spark and YARN - Qiita

    SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。 クラスタマネージャとしてのYARN Sparkはアプリケーション(厳密にはSparkアプリケーション)ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr

    Spark and YARN - Qiita
  • Apache Sparkとは何か――使い方や基礎知識を徹底解説

    はじめまして。コラビットの川原と申します。私は「HowMa」というサービスで、Apache Spark(以下、Spark)を利用した住宅価格の推定エンジンの開発を担当しています。連載では、Sparkの概要や、ローカル環境でのSparkのクラスタの構築、Sparkの基的な概念やプログラミングの方法を説明していきます。そして、簡単なアプリケーションを作成して、Amazon EMR(Elastic MapReduce)のクラスタ上で実行できるまで解説します。 これからSparkの導入を考えている方、または、業務で使う予定はないが少し興味がある方を対象に、サービス運用の中で得た知識を提供できればと思います。 Apache Sparkとは Apache Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワークです。JavaScalaPythonなどいろいろなプログラ

    Apache Sparkとは何か――使い方や基礎知識を徹底解説
  • Spark Framework with Kotlin

    この記事はKotlin Advent Calendar 2016の12日目の記事です。 Kotlin Advent Calendar 2016 - Qiita さて、今年は一部のmicroservicesをKotlinで実装してリリースしたりしたので個人的にはKotlinを実戦投入した記念すべき年とも言えます? このmicroservicesはSpringBootで実装されていますが、最近はSpark Frameworkのようなmicroフレームワークに注目してます。 Spark Framework Spark Frameworkとはサーバを同梱した(中身はJetty)軽量なWebフレームワークです。ちなみに、SparkといえばApache Sparkが有名ですが完全に別物なのであしからず。 Spark Framework - A tiny Java web framework Spark

    Spark Framework with Kotlin
  • Kotlin + Spark Framework + Sql2o で作るシンプルなREST API - Qiita

    はじめに 少し前に見つけた「国内の公開されているサーバーサイド Kotlin 採用事例まとめ」の記事を見てから、 Kotlin でやるサーバーサイド開発にだんだん興味が出てきているので、実際に何か作ってみようと思います。 今回は、軽量な Spark Framework と組み合わせて、簡単な REST API を作ってみました。 https://github.com/amtkxa/kotlin-spark-rest-api 作るにあたり、色んな方の記事を参考にさせていただきました。ありがとうございます。 前準備 主に使ったもの Kotlin version 1.3.11-release-272 (JRE 1.8.0_181-b13) spark-core 2.8.0 jackson-databind 2.9.8 jackson-module-kotlin 2.9.8 sql2o 1.6.0

    Kotlin + Spark Framework + Sql2o で作るシンプルなREST API - Qiita
  • 【IntelliJ IDEA + Sparkアプリ + Kotlin: 設定と対峙したエラー】 - Qiita

  • Spark on EMRでlog出力する - Qiita

    概要 Sparkは複数サーバで分散処理する影響でログ設定もちょっと面倒だったので、まとめておきます。 前提 他のシステムがlogbackで実装されてるとしても、Sparkアプリではlog4jでログ出力するのがトラブルが少なそうです。 簡単に調べてみると、Spark(というかHadoop, EMR)は、log4jでのログ出力を前提としているようでした。 Sparkもコンパイルの依存にlog4jなどが入っているし、EMRでも実行時のクラスパスにslf4j-log4j12などがついてきます。 頑張って一つずつ依存を取り除いていけば解消出来るのかもしれませんが、僕はEMRの中をいじるのはオススメしません。きっと嵌まります。 log4j.propertiesの読み込ませ方 Sparkは複数マシンのJVMで、Driver/Executorが動くため、 それぞれに設定を行う必要があります。 静的に読む方

    Spark on EMRでlog出力する - Qiita
  • 1