Часть 1 Big Data 1. Основа и составляющие Spark Введение в Apache Spark: архитектура (Driver/Executor), RDD, DataFrame, модель ленивых вычислений и DAG
Часть 2 Big Data 2. Языки, IDE и запуск Spark Языки (Scala, Python, Java, R) и среды разработки (IDE, notebooks) - что выбрать и для какой цели
Часть 3 Big Data 3. Данные: от чтения до записи Работа с данными: форматы (Parquet, CSV, JSON), чтение, трансформации, Spark SQL, Writer API и запись результатов
Часть 4 Big Data 4. Кластер и ресурсы в Spark Client и Cluster Mode, spark-submit, настройка памяти и ядер, Dynamic Allocation, сборка мусора (GC), YARN и Kubernetes
Часть 5 Big Data 5. Оптимизация и продвинутые техники Spark Catalyst Optimizer, управление Shuffle, борьба с Data Skew, кэширование данных, мониторинг, Broadcast, Accumulator
Часть 6 Big Data 6. Streaming, MLlib и UDF в Spark Потоковая обработка Structured Streaming, ML на больших данных с MLlib и расширение Spark с помощью UDF