Часть 1 Big Data 1. Data Lake, Data Warehouse, Lakehouse Базовые концепции хранилищ данных: сравнение Data Lake, Data Warehouse и Lakehouse, архитектура, разделение storage/compute
Часть 2 Big Data 2. Object Storage — хранилище данных S3-совместимое хранилище: архитектура, классы хранения, проблема мелких файлов, сравнение S3 и HDFS, оптимизация
Часть 3 Big Data 3. Форматы файлов данных Parquet, ORC, Avro: колоночные и строчные форматы, сжатие, predicate/projection pushdown, сравнение и выбор формата
Часть 4 Big Data 4. Open Table Formats — ядро Lakehouse Delta Lake, Apache Iceberg, Hudi, Paimon: архитектура, ACID, Time Travel, Schema Evolution, MERGE, оптимизация, интероперабельность
Часть 5 Big Data 5. Каталоги и метаданные Каталоги метаданных: Hive Metastore, REST Catalog, Nessie, Unity Catalog, Polaris — сравнение и выбор
Часть 6 Big Data 6. Query Engines — движки запросов Apache Spark, Trino, Flink, Dremio, ClickHouse: типы движков, подключение к Table Formats, сравнение и типичные стеки
Часть 7 Big Data 7. Архитектурные паттерны Medallion, CDC, Streaming Ingestion, Lambda/Kappa, Data Vault: паттерны построения пайплайнов в Lakehouse
Часть 8 Big Data 8. Практика: как собрать Lakehouse Платформы и стеки: Yandex Cloud, Open Source DIY, Docker Compose, выбор стека под задачу и бюджет
Часть 9 Big Data 9. Безопасность, Governance и Data Quality RBAC/ABAC, ФЗ-152, удаление данных, аудит, Data Lineage, Quality Gates, Great Expectations, Data Catalog