Агент без логов - чёрный ящик, как и любая другая система. Когда вы получили странный ответ или зависание на ровном месте, без полных трейсов и наблюдаемости вы не поймёте почему так вышло. Сэмплированных логов мало - агенту нужен контекст каждого шага: какой промпт ушёл в модель, сколько токенов сожгли, какой инструмент дёрнули, что вернулось. И тут начинается главная боль 2026 года - ваш стек observability и анализа логов трещит по швам.
ClickHouse Cloud в этой связке стал стандартом анализа логов и наблюдаемости ИИ-агентов, а старые системы (Elasticsearch, Loki, Prometheus, Postgres) не выдержали высокой кардинальности и дорогого retention. ClickHouse - колоночная база на C++, которая в 2026 окончательно вытеснила Elasticsearch из ниши хранения логов и стала фундаментом для observability ИИ-агентов и не только их. Кейсы LangChain, Canva, Sierra, Shopee, Trip.com - наглядный тому пример.
Зачем нужны логи ИИ-агентов и почему важна наблюдаемость
ИИ-агент - это не просто промпт в ChatGPT. Это цепочка вызовов: модель → инструмент → результат → следующий шаг → проверка. Один пользовательский запрос превращается в десятки и сотни внутренних операций. А без полных логов с отладкой будут проблемы.
[TGBLOCK]
Что хочется логировать от агента:
- Каждый шаг рассуждения. Что модель "подумала" перед действием.
- Промпт целиком. С системным промптом, контекстом, историей.
- Ответ модели целиком. Не сэмпл, не первые 1000 символов - всё.
- Вызовы инструментов. Какой инструмент, с какими аргументами, что вернул.
- Метрики токенов и денег. Prompt tokens, completion tokens, кешированные токены, цена.
- Латентность каждого шага. Где агент завис.
- Версии модели и промпта. Чтобы понять регрессии.
- Trace ID и Span ID. Чтобы связать всё в одну цепочку.
Получается примерно 10-50 КБ логов на один пользовательский запрос. Если у вас миллион запросов в день - это 10-50 ГБ ежедневных логов. И всё с очень высокой кардинальностью - миллионы уникальных Trace ID, миллионы инструментов, миллиарды токен-метрик - простыми системами такое не вытянуть.
Почему старые системы не справляются с анализом логов ИИ-агентов
Стандартный observability-стек 2020-2024 это связка Prometheus + Loki + Grafana или Elasticsearch + Kibana. Они построены для другой эпохи - когда логов было в сто раз меньше, кардинальность ниже, а агентов вообще не существовало.
Что ломается на агентах:
Высокая кардинальность убивает индексы. В Prometheus каждая уникальная метка создаёт новую временную серию. Trace ID, Agent ID, Tool ID - всё это уникальные значения, миллионы серий, индексы раздуваются до невозможности.
Elasticsearch ест диск. Чтобы обеспечить поиск, Elasticsearch хранит инвертированные индексы для каждого поля. На больших объёмах логов это превращается в дорогое удовольствие - 70 ТБ на проекте может стоить $50-100К/мес.
Дорогой retention заставляет сэмплировать. Хранить 90 дней логов в Elasticsearch на 50 ТБ - слишком дорого. Поэтому компании выбрасывают 90% данных через сэмплирование. Но с агентами сэмплинг не работает - им нужен полный сырой контекст.
PostgreSQL захлёбывается на аналитике. Реляционная модель не для миллиардных событий. Beehiiv, Respan AI, LangChain - все они выросли из Postgres именно на агентских логах.
Команда LangChain в начале 2026 года официально перевела LangSmith с Postgres на ClickHouse. Причина - Postgres перестал тянуть аналитические запросы. Объём: 300 миллионов агентских прогонов в месяц. Это та цифра, при которой старые БД ломаются.
Что такое ClickHouse и почему он бьёт всех в логах
ClickHouse - колоночная база данных для аналитики (OLAP база данных). Открытый исходный код на C++ написан под Яндекс.Метрику, где нужно считать миллиарды строк за секунды. Доступен в двух форматах - self-hosted и управляемый ClickHouse Cloud. Почему именно ClickHouse выиграл нишу observability и анализа логов в 2026?
Колоночное хранилище + векторизация
В отличие от Postgres или MySQL (где строки хранятся целиком), ClickHouse хранит данные по столбцам. Когда вы делаете SELECT count(*) WHERE status = 500, движок читает только столбец status, а не всю строку. Плюс векторизация: одна инструкция CPU (SIMD) обрабатывает сразу пачку значений. На больших объёмах это разница в 10-100 раз.
Сортировка при вставке
ClickHouse сразу раскладывает данные по гранулам (8192 строки) в порядке сортировки. По заявлениям ClickHouse, подготовка данных к запросам у них в 22 раза дешевле, чем у Snowflake, который пишет как попало, а потом фоном кластеризует.
Феноменальное сжатие
Реальные кейсы из практики: - Qonto (банк): 231 ТБ → 376 ГБ. Сжатие 99.8%. Экономия $70K/год только на S3. - Harvey AI (LegalTech с агентами): 5.4 ТБ логов в день → 4.5 ГБ. - ClickHouse сам: 20 ГБ nginx-логов → 109 МБ (в 178 раз). - Trio (бразильский финтех): сжатие данных на 88%.
Сжатие достигается за счёт колоночного формата + ZSTD/LZ4 + специальные кодеки под типы данных (Delta для timestamp, DoubleDelta для метрик).
Высокая кардинальность не пугает
Миллионы уникальных Trace ID, Span ID, Agent ID - ClickHouse переваривает без падения производительности. Это не Prometheus, где каждая уникальная метка плодит временную серию.
Три механизма прунинга
ClickHouse умеет отсекать ненужные данные ещё до чтения:
- Primary Index - разреженный индекс по гранулам, сортировка.
- Lightweight Projections (с версии 25.6) - копия данных в другом порядке сортировки, занимает мало места, ускоряет альтернативные паттерны запросов.
- Skip Indexes (minmax, bloom) - пишут метаданные о каждой грануле.
Запрос автоматически использует оптимальный механизм, быстро отсекающий лишние блоки. На больших таблицах это даёт ускорение в 10-100 раз.
Data Lake-ready
ClickHouse научился читать Iceberg и Delta Lake прямо на месте без ETL-обвязки. Запрос к Parquet занимает 0.625 сек, тот же запрос после вставки в ClickHouse - 0.022 сек (в 30 раз быстрее). Это даёт возможность делать гибрид: горячее хранить в ClickHouse, а холодное - на S3 в Iceberg (не зря же он так называется).
300М агентских прогонов в месяц на ClickHouse
LangChain - один из главных фреймворков для построения ИИ-агентов. Их платформа LangSmith - это observability для агентов: трейсы, метрики, оценки качества, отладка.
До 2026 LangSmith был на PostgreSQL. Когда трафик дорос до сотен миллионов прогонов в месяц, Postgres перестал тянуть аналитические запросы:
- Тяжёлые JOIN на миллиардах строк.
- Агрегации по времени с группировкой по 5-7 измерениям.
- Дашборды отваливались, инженерам приходилось строить материализованные представления для каждого нового вида запросов.
Вот что получилось после перехода LangSmith на ClickHouse:
- 300 миллионов агентских прогонов в месяц обрабатываются без проблем.
- Latency аналитических запросов снизилась с десятков секунд до миллисекунд.
- Материализованные представления больше не нужны - ClickHouse считает на лету.
- Стоимость инфраструктуры упала кратно.
Это был один из самых показательных кейсов года, и он задал тренд: если вы строите observability для агентов, теперь ClickHouse - дефолтный выбор.
Три врага наблюдаемости и анализа логов
ClickHouse открыто объявил войну трём устоявшимся подходам, которые были стандартом 10 лет:
1. Сэмплированию
Старый подход: храним только 10% логов, остальное выбрасываем - экономим деньги. Когда агент сделал что-то странное и вам надо разобраться - нужный лог окажется в выброшенных 90%. Сэмплирование убивает отладку.
Новый подход с ClickHouse: храним всё сырое, без сэмплирования. За счёт сжатия x14-178 это дешевле чем хранить агрегаты в старых системах.
2. Агрегации (roll-ups)
Старый подход: сырые данные хранятся 7 дней, потом пересчитываются в агрегаты (среднее за час, день, неделю). Агрегаты хранятся долго. Но при этом теряется возможность нырнуть в конкретный трейс. Если что-то сломалось 30 дней назад - вы видите только усреднённую статистику. Это бесполезно для дебага.
Новый подход: храним сырое долго, агрегируем при чтении. ClickHouse достаточно быстр чтобы агрегировать миллиарды строк на лету.
3. Короткому retention
Старый подход: 7-14 дней хранения, дальше дорого. В то же время ML-команды хотят анализировать поведение моделей за месяцы. Регрессии моделей всплывают только на длинной дистанции.
Новый подход: 90-365 дней сырых данных в ClickHouse + Tiered Storage с уходом на S3. Стоимость сжатого хранения настолько низкая, что годовой retention становится нормой.
Agentic Data Stack: эталонная архитектура наблюдаемости для ИИ-агентов
Команда ClickHouse в 2026 предложила типовую архитектуру для агентских приложений - Agentic Data Stack. Что она включает:
- Интерфейс: LibreChat (open-source ChatGPT-подобный фронт) или своя оболочка.
- Данные: ClickHouse как единое хранилище для аналитики, логов, трейсов, метрик.
- Протокол связи: MCP-серверы (Model Context Protocol) - открытый стандарт от Anthropic для безопасного подключения моделей к данным и инструментам.
- Observability: Langfuse или ClickStack (от ClickHouse, на базе OpenTelemetry).
Что важно: всё в одном кластере. Единая БД для логов, метрик и бизнес-аналитики. Это упрощает архитектуру в разы.
Один разработчик собрал production-grade систему за пару дней:
- Next.js на фронте.
- ClickHouse для аналитики.
- PostgreSQL для транзакций.
- ClickPipes CDC для синхронизации Postgres → ClickHouse.
- 18 специализированных агентов на LibreChat, каждый со своим системным промптом и доменом данных.
- Langfuse для метрик промптов и токенов.
- ClickStack на OpenTelemetry для инфраструктурных логов.
Главный инсайт автора - агентная разработка работает только когда платформа данных не сопротивляется.
Кейс Canva: 6 миллионов событий в секунду
Canva (графический редактор для миллионов пользователей) держит observability на ClickHouse:
- 6 миллионов событий в секунду - 3 миллиона спанов + 3 миллиона логов.
- Сжатие в 14 раз. Реальное сжатие на их данных.
- Расходы на инфраструктуру упали на 70% после миграции.
- Поиск трейсов ускорился в 10 раз: с 30 секунд до 2.5 секунд.
Архитектурная фишка: они ушли от стандартных распределённых таблиц ClickHouse к прямой записи в локальные таблицы через кастомные коллекторы (буферизация по 200К записей). Это снимает нагрузку с координации вставок.
Материализованные представления используются как индекс для Trace ID - таблица переиндексируется в другом порядке сортировки, что позволяет искать конкретный трейс за миллисекунды.
Кейс Sierra: observability и аналитика в одном кластере
Sierra - стартап с оценкой больше миллиарда долларов. Что они сделали:
- Снесли раздельные стеки для мониторинга (Prometheus/Loki) и аналитики (Snowflake/BigQuery).
- Объединили всё в одном кластере ClickHouse.
- SRE-команда и продуктовые аналитики работают с одними данными.
Архитектура: Kafka → центральная таблица → Materialized Views → Alerts. Всё внутри ClickHouse.
ClickHouse достаточно быстрый для real-time дашбордов (миллисекунды на агрегации миллиардов строк) и достаточно дешёвый для долгого retention. Раньше эти роли выполняли разные системы. Теперь - одна.
Кейс Trip.com: 50 петабайт логов в ClickHouse
Trip.com - крупнейшая китайская тревел-платформа. Держат 50 петабайт логов в ClickHouse.
До миграции был Elasticsearch. После переезда:
- Ускорение запросов в 4-30 раз в зависимости от паттерна.
- Существенное сокращение расходов на инфраструктуру.
- Возможность держать длинный retention без боли.
50 петабайт - в тысячу раз больше, чем "обычный большой проект". ClickHouse держит такую нагрузку.
Кейс Huntress: $70К → $5К в месяц после Elasticsearch
Huntress Labs защищают 4 миллиона эндпоинтов. Логи безопасности генерят непрерывным потоком. Вот что произошло после перехода с Elasticsearch на ClickHouse Cloud:
- Счёт упал с $70 000 до $5 000 в месяц.
- Объёмы те же.
- Поиск стал быстрее.
Это в 14 раз дешевле. Не на 30%, не в 2 раза - в 14. Такие разницы редко бывают, но в логах ClickHouse vs Elasticsearch они норма.
Анализ логов ИИ-агентов в ClickHouse Cloud: практика и мониторинг
Перейдём от кейсов к практике. Покажу как реально устроен анализ логов агентов ИИ в ClickHouse Cloud - какие запросы делают команды, что мониторят, как ловят аномалии.
Базовая схема таблицы для логов агентов ИИ:
CREATE TABLE agent_traces (
timestamp DateTime64(3),
trace_id String,
span_id String,
parent_id Nullable(String),
agent_id LowCardinality(String),
user_id String,
step_type Enum('llm_call', 'tool_call', 'reasoning', 'memory_read'),
model LowCardinality(String),
prompt String CODEC(ZSTD),
completion String CODEC(ZSTD),
tokens_in UInt32,
tokens_out UInt32,
latency_ms UInt32,
status LowCardinality(String),
cost_usd Float32
)
ENGINE = MergeTree
ORDER BY (timestamp, agent_id, trace_id)
TTL timestamp + INTERVAL 90 DAY
SETTINGS index_granularity = 8192;Что важно: LowCardinality для повторяющихся полей экономит место в десятки раз. CODEC(ZSTD) сжимает текстовые промпты и ответы в среднем в 5-10 раз. TTL на 90 дней даёт долгий retention без хайповых расходов на ClickHouse Cloud.
Типичные запросы для анализа логов агентов ИИ:
-- Сколько стоит каждый агент в день
SELECT
agent_id,
toDate(timestamp) AS day,
sum(cost_usd) AS daily_cost,
count() AS calls
FROM agent_traces
WHERE timestamp >= now() - INTERVAL 30 DAY
GROUP BY agent_id, day
ORDER BY day DESC, daily_cost DESC;
-- Самые медленные шаги по агентам
SELECT
agent_id,
step_type,
quantile(0.95)(latency_ms) AS p95,
quantile(0.99)(latency_ms) AS p99
FROM agent_traces
WHERE timestamp >= now() - INTERVAL 1 DAY
GROUP BY agent_id, step_type
HAVING p99 > 5000
ORDER BY p99 DESC;
-- Ловим всплески ошибок
SELECT
toStartOfMinute(timestamp) AS minute,
agent_id,
countIf(status = 'error') AS errors,
count() AS total,
errors / total AS error_rate
FROM agent_traces
WHERE timestamp >= now() - INTERVAL 1 HOUR
GROUP BY minute, agent_id
HAVING error_rate > 0.05
ORDER BY minute DESC;В ClickHouse Cloud такие запросы летят за миллисекунды даже на миллиардах строк. Это и есть та самая наблюдаемость, которой нет в классических Prometheus+Loki: вы видите не агрегаты, а сырые трейсы каждого вызова ИИ-агента.
ClickHouse vs Elasticsearch, Postgres, Loki, Snowflake
Краткая сравнительная таблица:
| Сравнение | Что лучше для агент-логов | Почему |
|---|---|---|
| ClickHouse vs Elasticsearch | ClickHouse | В 4-30 раз быстрее, в 5-15 раз дешевле, лучше с высокой кардинальностью |
| ClickHouse vs PostgreSQL | ClickHouse для аналитики, Postgres для OLTP | Postgres захлёбывается на миллиардах строк, ClickHouse - нет |
| ClickHouse vs Loki | ClickHouse | Loki не справляется с высокой кардинальностью, ClickHouse - вполне |
| ClickHouse vs Snowflake | ClickHouse | В 22 раза дешевле подготовка данных к запросам + возможности real-time аналитики |
| ClickHouse vs BigQuery | ClickHouse | Clickhouse дешевле, даёт real-time, имеет меньше latency |
| ClickHouse vs Iceberg | ClickHouse для горячих, Iceberg для холодных | Iceberg плох на параллельной записи метаданных |
Главные выводы:
Elasticsearch - главная жертва. В 2026 ClickHouse буквально вытеснил его из ниши логов. Когда внедрили полнотекстовый поиск через инвертированные индексы, у Elasticsearch исчез последний повод оставаться.
Postgres - партнёр, не конкурент. Связка Postgres (OLTP, транзакции) + ClickHouse (аналитика, логи) через ClickPipes CDC - стандартный паттерн 2026.
Snowflake/BigQuery дорогие. В эпоху агентов с тысячами мелких запросов разница в стоимости подготовки данных становится критической.
ClickHouse Cloud или self-hosted: что выбрать для анализа логов
У ClickHouse Cloud и self-hosted версии тот же движок, но разная операционка. Для анализа логов ИИ-агентов это важно: Cloud даёт нулевую операционку, self-hosted - полный контроль над инфраструктурой.
ClickHouse Cloud - управляемый сервис
- Автоматическая репликация и бэкапы с PITR.
- Авто-скейлинг compute, разделение storage/compute (данные на S3).
- ClickPipes - управляемый CDC из Postgres/MySQL/MongoDB.
- BYOC (Bring Your Own Cloud) - софт управляется ClickHouse, крутится в вашем облаке.
- SharedMergeTree - облачно-нативный движок для параллельной работы compute-нод с одними данными.
Тарифы: Basic, Scale, Enterprise. Usage-based. Compute поминутный, блоками по 8 GiB RAM.
Self-hosted (бесплатно)
- Тот же движок, никакой лицензии.
- Все облачные фичи - руками: шардинг, репликация через ClickHouse Keeper, мониторинг, бэкапы, апгрейды.
- Скрытая стоимость: 10-20% времени одного инженера на стабильный кластер.
- Плюс затраты на железо, storage, трафик.
Когда выбирать ClickHouse Cloud vs self-hosted
Self-hosted подходит когда:
- Объём данных больше 50 ТБ сжатого.
- Стабильная предсказуемая нагрузка.
- Сильная DevOps-команда внутри.
- Жёсткие требования комплаенса.
Cloud подходит когда:
- Объём меньше 50 ТБ.
- Нагрузка переменная или растёт.
- DevOps-ресурсов мало.
- Нужно быстро в прод.
Показательно: Avride (автономный транспорт) с десятилетним опытом администрирования ClickHouse выбрали Cloud - не хотели тратить время на "прогрев" кластеров. Если уж они выбрали Cloud, обычной команде тем более стоит начать с него.
Архитектурные паттерны для логов агентов
Несколько проверенных паттернов из реальных кейсов.
Async Inserts по умолчанию
С версии 26.3 ClickHouse включил Async Inserts по умолчанию. Что это значит: вам больше не нужно городить буфер на стороне приложения. Можете слать мелкие вставки - ClickHouse сам собирает их в батчи.
Для логирования агентов это удобно: каждый шаг агента может писать одну строку в ClickHouse - со вставкой база разберётся сама.
Скользящее окно через Refreshable Materialized Views
Кейс Trio: вместо пересчёта всего исторического монолита - refreshable materialized views пересчитывают только последние 4 часа. Это спасает от дублей из Kafka и опоздавших событий (с использованием ReplacingMergeTree).
Для агентских логов это паттерн "горячие 4 часа всегда свежие, остальное - на лету".
Kafka → центральная таблица → Materialized Views → Alerts
Стандартный паттерн ETL для observability:
- Kafka собирает поток логов от агентов.
- Центральная таблица (RAW) принимает всё.
- Materialized Views агрегируют для разных дашбордов.
- Alerts срабатывают на условия в MV.
Sierra использует именно этот паттерн.
MCP-агент в ClickHouse
Свежий тренд - ClickHouse открыл MCP-сервер, через который агенты могут сами запрашивать данные. То есть LLM-агент может выполнять SQL-запросы к вашим логам, искать аномалии, генерировать алерты.
Это и есть Agentic Analytics в действии:
LLM генерирует SQL → проверяет схему → выполняет →
→ если ошибка - рефлексирует → пробует снова
ClickHouse дополнительно открывает API к Query Insights - агент сам видит, что база тормозит, анализирует план запроса и предлагает индекс.
SODA: наблюдаемость без вендор-лока
Большой тренд 2026 года - отказ от вендор-лока. Datadog, New Relic, Splunk запирают ваши данные у себя, и за выход придётся доплачивать.
Решение - OpenTelemetry как стандарт сбора + ClickHouse как место хранения + любой визуализатор сверху (Grafana, Superset, Metabase). Это и есть SODA - Send Observability Data Anywhere.
Для агентов это особенно важно: вы хотите иметь возможность кросс-коррелировать логи модели, инфраструктурные метрики, бизнес-события. В закрытых системах это невозможно. В связке OpenTelemetry + ClickHouse - норма.
С чего начать мониторинг ИИ-агентов в ClickHouse Cloud
Если вы решили попробовать - вот пошаговый план.
- Начните с ClickHouse Cloud. Бесплатный trial, не надо настраивать инфру. Войдёте в продукт за час.
- Создайте таблицу для трейсов агентов. Минимум полей: timestamp, trace_id, span_id, parent_id, agent_id, prompt, completion, tokens_in, tokens_out, latency_ms, status, metadata (JSON).
- Используйте MergeTree с правильной сортировкой. ORDER BY (timestamp, trace_id) для большинства случаев.
- Подключите OpenTelemetry. Стандартный коллектор + экспортер в ClickHouse через OTLP/HTTP.
- Добавьте Langfuse поверх. Для красивых дашбордов трейсов агентов и анализа промптов.
- Настройте retention. TTL на таблицу - 90 дней горячих, дальше в S3 через Tiered Storage.
- Покройте критические метрики. Среднее время агента, p95/p99 latency, токены в секунду, стоимость на запрос.
Через месяц вы будете удивляться как раньше жили без полной картины.
FAQ
Зачем нужен ClickHouse для логов ИИ-агентов?
Логи ИИ-агентов имеют высокую кардинальность (миллионы Trace ID), большой объём (десятки ГБ в день) и требуют долгого retention для отладки регрессий моделей. Старые системы (Elasticsearch, Loki, Postgres) ломаются на этой нагрузке. ClickHouse выдерживает миллионы событий в секунду и сжимает данные в 14-178 раз.
Можно ли использовать ClickHouse бесплатно?
Да. ClickHouse - open-source проект с лицензией Apache 2.0. Self-hosted версия бесплатна. Платная только ClickHouse Cloud, где платите за compute и storage. Open-source движок идентичен по возможностям.
Чем ClickHouse лучше Elasticsearch для логов?
В 4-30 раз быстрее на агрегациях, в 5-15 раз дешевле в инфраструктуре, нормально работает с высокой кардинальностью, лучше сжатие. Кейс Huntress: счёт упал с $70К до $5К/мес после миграции. Кейс Trip.com: ускорение в 4-30 раз на 50 ПБ данных.
Что такое ClickStack?
ClickStack - референсная архитектура от ClickHouse для observability на базе OpenTelemetry: коллектор + ClickHouse как хранилище + Grafana/визуализатор. Стандартный путь для логов, метрик и трейсов, в том числе для ИИ-агентов.
Что выбрать: ClickHouse Cloud или self-hosted?
Cloud - если объём меньше 50 ТБ, нагрузка переменная, DevOps-ресурсов мало. Self-hosted - если больше 50 ТБ, нагрузка стабильная, есть сильная команда. Большинство команд начинают с Cloud и переезжают на self-hosted только при значительном росте.
Можно ли связать ClickHouse с Postgres?
Да, стандартный паттерн 2026. Postgres для OLTP (транзакции, авторизация), ClickHouse для аналитики и логов. Синхронизация через ClickPipes (управляемый CDC) или собственный пайплайн Kafka.
Подходит ли ClickHouse для real-time дашбордов?
Да, это его сильная сторона. Latency типичного запроса - миллисекунды на миллиардах строк. Кейс Mintlify: дашборды ускорились с десятков секунд до подсекунды после миграции с PostHog на ClickHouse Cloud.
Чем наблюдаемость отличается от мониторинга?
Мониторинг - это про известные метрики (CPU, память, RPS). Наблюдаемость глубже: вы можете задать любой вопрос о поведении системы и получить ответ. Для ИИ-агентов это критично - поведение модели часто непредсказуемо, и обычные алерты не помогают. Нужен полный сырой контекст в ClickHouse Cloud для глубокого анализа логов.
Что такое анализ логов ИИ-агентов и зачем он нужен?
Это разбор каждого шага агента: какой промпт ушёл в модель, какие инструменты вызвал, сколько токенов сжёг, где завис. Без анализа логов отладка ИИ-агента превращается в гадание. ClickHouse Cloud даёт нужный уровень детализации - сырые трейсы хранятся 90+ дней и аналитика летит за миллисекунды.
Подходит ли ClickHouse Cloud для логов небольшого проекта?
Да. ClickHouse Cloud тарифицируется по факту использования, минимальный compute стартует от пары долларов в день. Для проекта с миллионом событий в день это в разы дешевле Datadog/New Relic при той же или лучшей наблюдаемости.
Как итог
ИИ-агенты требуют другого подхода к observability. Сэмплирование, агрегация при записи, короткий retention - всё это паттерны прошлой эпохи, которые ломаются на агентских логах с высокой кардинальностью и большим объёмом.
ClickHouse в 2026 стал стандартом для observability ИИ-агентов: колоночное хранение, феноменальное сжатие, миллионы событий в секунду, кейсы LangChain (300М прогонов/мес), Canva (6М событий/сек), Sierra, Trip.com (50 ПБ). Стек называется Agentic Data Stack: ClickHouse как ядро + OpenTelemetry для сбора + MCP для интеграции с агентами + Langfuse для визуализации.
Главный совет: если строите серьёзную агентскую систему - начинайте observability на ClickHouse Cloud с первого дня. Когда вырастете, спасибо себе скажете. Логи - та инвестиция, которую недооценивают пока агент не сломается. А без полного контекста причину поломки установить очень сложно.