Skip to main content

2 posts tagged with "spark"

View All Tags

· 10 min read

以下の内容については基本的にSpark: The Definitive Guideの内容をベースとしており、一部必要な情報については他のリソースから付け足している。今回はChapter9 Data Sourcesをベースとし、内容をまとめているあ。大まかな流れとしては以下。

  1. DataSource API
    1. Read API
    2. Write API
  2. For CSV
  3. For JSON
  4. For Parquet
  5. For ORC
  6. For SQLDatabases - Reading & Writing, and QueryPushdown
  7. For Text Files
  8. Advanced Topics for Read/Write - File format & Compression, Reading & Writeing data in parallel, Writing complex types and Managing file size