Apache Spark: Теория

1. Основа и составляющие Spark

Введение в Apache Spark: архитектура (Driver/Executor), RDD, DataFrame, модель ленивых вычислений и DAG

2. Языки, IDE и запуск Spark

Языки (Scala, Python, Java, R) и среды разработки (IDE, notebooks) - что выбрать и для какой цели

3. Данные: от чтения до записи

Работа с данными: форматы (Parquet, CSV, JSON), чтение, трансформации, Spark SQL, Writer API и запись результатов

4. Кластер и ресурсы в Spark

Client и Cluster Mode, spark-submit, настройка памяти и ядер, Dynamic Allocation, сборка мусора (GC), YARN и Kubernetes

5. Оптимизация и продвинутые техники Spark

Catalyst Optimizer, управление Shuffle, борьба с Data Skew, кэширование данных, мониторинг, Broadcast, Accumulator

6. Streaming, MLlib и UDF в Spark

Потоковая обработка Structured Streaming, ML на больших данных с MLlib и расширение Spark с помощью UDF

Доступ ко всем урокам

Оформите подписку и получите доступ ко всем материалам курса

Оформить подписку