Skip to main content

· 6 min read

ここではSetup Apache Kafka - Confluent ver. (JPver.)で作成したKafka clusterに対しPub/Subを行うProducer/Consumer applicationを作成する。簡単のためまずはLocal上でAppを開発し、その後Kafka Cluster構築時に作成したAMIをベースにEC2を起動し、EC2上で対象のAppを稼働させる。具体的には以下の内容を実施する。

  1. Initial setup
  2. Running Producer app
  3. Running Consumer app

· 10 min read

以下の内容については基本的にSpark: The Definitive Guideの内容をベースとしており、一部必要な情報については他のリソースから付け足している。今回はChapter9 Data Sourcesをベースとし、内容をまとめているあ。大まかな流れとしては以下。

  1. DataSource API
    1. Read API
    2. Write API
  2. For CSV
  3. For JSON
  4. For Parquet
  5. For ORC
  6. For SQLDatabases - Reading & Writing, and QueryPushdown
  7. For Text Files
  8. Advanced Topics for Read/Write - File format & Compression, Reading & Writeing data in parallel, Writing complex types and Managing file size

· 12 min read

以下の内容については基本的にSpark: The Definitive Guideの内容をベースとしており、一部必要な情報については他のリソースから付け足している。Sparkについて理解を深めるにはまず本書を読んでおくと良い。今回はChapter8 JoinをベースとしてDataFrame Joinおよび追加でRDD Joinについて挙動を確認していく。大まかな流れとしては以下。

  1. DataFrame Join Types - Inner, Outer, Left Outer, Right Outer, Left Semi, Left Anti, Natural, Cross (Cartesian)
  2. Notes in Join operation
  3. How performing DataFrame Join
  4. RDD Join
  5. Misc