Приветствую всех, кто интересуется ИИ. ChatGPT - это круто, но он не всегда нам подходит: сложный процесс регистрации из РФ, обязательный VPN, подписка Plus за 20$, а также большой расход на API могут вас отпугнуть. Всё это осложняется тем, что модели OpenAI закрыты - их никто не выложит в интернет и работать с ними бесплатно не получится.
Но вы наверняка слышали, что в интернете полно других LLM (больших языковых моделей). Многие из них - opensource, то есть изначально делались открытыми. С подобными моделями можно работать локально, загрузив их себе на компьютер. На это не нужно больших расходов - только хороший компьютер (или же сервер) и желание тестировать:)
Сегодня попробуем выбрать некоторые LLM - аналоги ChatGPT - и запустить их у себя на компьютере. И для этого будем использовать программу под названием LM Studio.
Системные требования для LM Studio: какое железо нужно
Перед установкой LM Studio, давайте разберём требования по железу. От него напрямую зависит какие модели потянет ваш компьютер и с какой скоростью будут идти ответы.
Минимальные требования для запуска LM Studio:
- 8 ГБ оперативной памяти - подойдут только маленькие модели до 3B параметров с сильным квантованием Q2-Q3.
- 4-ядерный процессор от Intel Core i5 или AMD Ryzen 5.
- 10-20 ГБ свободного места на диске под модели.
- Windows 10/11, macOS 12+ или Linux x86_64.
Оптимальная конфигурация для комфортной работы с LM Studio:
- 16-32 ГБ оперативной памяти - запустите модели на 7-13B параметров с приличным качеством.
- Дискретная видеокарта с 8-16 ГБ VRAM (NVIDIA RTX 4060/4070, RTX 3060 12GB или Mac M-серии). GPU ускоряет генерацию в 5-15 раз.
- SSD-накопитель - модели грузятся быстрее.
Топовый сетап для энтузиастов:
- 64 ГБ оперативной памяти - можете запустить 30B+ модели на CPU.
- RTX 4090 24GB или RTX 5090 - спокойно крутят 16-22B модели с хорошей скоростью.
- Mac Studio M2/M3 Ultra 64-128GB - сильный вариант благодаря унифицированной памяти.
Если у вас слабое железо - не расстраивайтесь. LM Studio автоматически показывает какие модели подойдут именно вашему компьютеру. В интерфейсе есть метка "compatibility guess", где система помечает совместимые варианты. Это удобная фишка, которой нет у конкурентов LM Studio.
Интерфейс LMstudio
LM Studio - это инструмент, позволяющий работать с различными ИИ-моделями. Найдите на сайте https://lmstudio.ai/ подходящую версию программы для вашей ОС, скачайте и установите её. Процесс установки стандартный, не отличается от большинства других программ.
У LM Studio удобный интерфейс с поиском по LLM. Вы можете искать популярные opensource-модели, такие как LLaMa или Mistral:

При нажатии на поиск вас перекинет во второе окно, где система представит на выбор ряд моделей. Если вы видите сверху кнопку "compatibility guess", то вам показаны далеко не все модели, соответствующие запросу. Вы видите только те модели, которые могут корректно работать на вашей машине. Чтобы увидеть все модели, нажмите на эту кнопку и с небольшой задержкой она сменится на "all models" - вот теперь вы видите всё.

При выборе конкретной модели справа отображаются её вариации, имеющие разный вес. Дело в том, что на вашем компьютере вы не запустите огромную модель, поэтому её немного урезают с помощью квантования. По итогу вы можете видеть справа версии от Q2 (с минимальным качеством ответов и минимальным весом) до Q8 (с более точными ответами и бОльшим весом). Проблема в том, что более точные ответы требуют гораздо больше времени, так как сильно нагружают машину.
[TGBLOCK]
Нажмите на Download справа от выбранной версии и внизу появится полоса загрузки моделей. Загрузите модели на ваш компьютер перед использованием.
В третьем окне можно найти что-то типа ChatGPT - тут можно создавать чаты, общаться с моделью, а справа - задавать настройки:

Но было бы странно ставить LM Studio, чтобы просто пообщаться с моделью - ведь для этого есть ChatGPT, Bard, GigaChat и другие ИИ. Основная проблема - автоматизация процессов. Общение по API требует расходов, ведь как правило именно за API берут деньги компании типа OpenAI.
Поэтому в четвёртом окне программы есть возможность запустить локальный сервер с выбранной моделью, чтобы вести с ним диалог программно. Это даёт массу возможностей автоматизации и позволяет проектировать ИИ-помощников даже без интернета, надо только запустить сервер зелёной кнопкой.

Ну и конечно набор моделей, которые вы скачали и можете использовать - пятое окно интерфейса. Непонравившиеся можно удалить.

В целом интерфейс у программы простой, даже неподготовленному пользователю будет не так сложно в нём разобраться.
У локальных LLM 3 проблемы
В качестве теста я решил взять Saiga Mistral, LLaMa 2 7B Chat и Mistral 7B Instruct - это то, что может работать на моем компьютере.
Проблема 1 - слабые тексты
Сперва попробуем русскоязычную Saiga Mistral с квантованием Q2 - самую лёгкую и быструю.

Локальные модели часто пишут по смыслу и даже неплохо, но их формулировки типа "занятие наших курсов" не позволяют полноценно их использовать без постоянных исправлений.

Видя подобные ляпы сразу хочется закрыть Saiga Mistral вернуться к ChatGPT. Но возможно я просто открыл слишком урезанную версию (всего 3ГБ).
Проблема 2 - скорость
Давайте попробуем модель побольше - например Mistral 7B Instruct с Quantization Q8.

Тут возникает другая проблема - даже если модель подходит под вашу машину, никто не сказал, что она будет быстро работать. Как итог - сильная загрузка процессора, долгий подбор ответа и некоторое зависание компьютера. И даже если подобная модель начинает писать текст, она делает это крайне медленно, параллельно мешая другим процессам на вашей машине.
Проблема 3 - язык
Теперь попробуем всем известную LLaMa, а точнее LLaMa 2 7B Chat. На этот раз взял Q3, чтобы избежать зависаний.

Минус LLaMa - заточенность под английский язык. На русском она пишет с трудом, а порой просто игнорирует прямое указание писать на русском и снова переходит на родной язык. Поэтому постоянные правки русскоязычных текстов обеспечены, если конечно повезёт и они вообще будут на русском.
LM Studio vs Ollama, llama.cpp и GPT4All: что выбрать
Когда речь про локальный запуск LLM, LM Studio - не единственный вариант. У него есть конкуренты. Разберём кратко чем отличаются и когда что использовать.
| Инструмент | Интерфейс | Аудитория | Сильная сторона |
|---|---|---|---|
| LM Studio | Полноценный GUI | Новички и опытные | Удобный поиск моделей, локальный API |
| Ollama | CLI + REST API | Разработчики | Простая интеграция в скрипты |
| llama.cpp | CLI | Хардкорные | Максимальная производительность, гибкость |
| GPT4All | GUI | Начинающие | Готовые модели сразу в комплекте |
| Jan | GUI | Альтернативщики | Open-source без телеметрии |
Кому подойдёт LM Studio:
- Хочется графический интерфейс и не лезть в терминал.
- Нужен встроенный поиск моделей с фильтрацией по совместимости.
- Планируется использовать локальный API совместимый с OpenAI.
- Важно работать со множеством моделей и быстро между ними переключаться.
Когда лучше взять Ollama:
- Сценарий полностью через скрипты и автоматизацию.
- Деплой на сервер без графики.
- Нужна простая интеграция с LangChain, n8n, Make.
Когда llama.cpp:
- Нужно выжать максимум из железа.
- Кастомные сценарии с нестандартными моделями.
- Готовы работать через CLI и конфиги.
Моё мнение: для большинства задач LM Studio - идеальный баланс между удобством и возможностями. Опытные пользователи всё равно часто возвращаются к нему ради удобного интерфейса даже когда есть Ollama в проде.
Запуск сервера в LMstudio
Теперь попробуем писать программы. Для этого нам нужно развернуть локальный сервер - жмём на зелёную кнопку:

Для обращения к нашему серверу на Python я не пользовался стандартным кодом, а написал свой запрос. Во первых, мне нужно было нормально читать русский язык, а во вторых - реализовать ожидание ответа в случае долгой генерации.
Для выставления ожидания ответа я использовал timeout, а для обработки русского языка - стандартную кодировку utf-8. Запрос делается по локальной ссылке без подключения к интернету, в остальном всё стандартно.

После запуска программы сервер начал генерировать историю (правда почему-то снова на английском):

Аналогичный запрос я реализовал для Excel, поэтому если у вас нет PyCharm или чего-то подобного - можно отправлять его обычной функцией из Power Query в Excel. Тут он уже ответил на русском и поинтереснее:

Оба скрипта я бесплатно опубликовал на Boosty вместе с маленькой инструкцией по их использованию.
RAG в LM Studio: работа с собственными документами
Одна из самых полезных фишек современного LM Studio - встроенная поддержка RAG (Retrieval-Augmented Generation). Это значит, что модель может отвечать на вопросы по вашим документам, а не только по тому, на чём её обучали.
Как это работает в LM Studio:
- В чате прикрепляете PDF, DOCX, TXT или CSV-файл - размер до 30 МБ.
- LM Studio разбивает документ на чанки, считает эмбеддинги через локальную embedding-модель.
- При вопросе - находит релевантные куски, подаёт их в контекст LLM, и модель отвечает с учётом ваших данных.
Никакой настройки векторных баз и LangChain не требуется - всё под капотом LM Studio. Это огромный плюс для всех, кто хочет приватный аналог NotebookLM или ChatGPT с загрузкой файлов.
Что важно знать про RAG в LM Studio:
- Качество ответов зависит от размера контекстного окна модели. Берите модель с контекстом 32K+ если документы большие.
- Для русского контента подойдут модели типа Saiga Mistral, YandexGPT 5-Lite, Qwen 2.5 (хорошо понимают русский) или Llama 3.1 8B.
- Embedding-модель тоже работает локально - данные не уходят наружу.
Сценарии где RAG в LM Studio выручает:
- Работа с конфиденциальными документами компании.
- Анализ внутренней документации, регламентов, инструкций.
- Чтение книг, статей, PDF с возможностью задавать вопросы.
- Подготовка к экзаменам и работа с учебниками.
Топ локальных моделей для русского языка в LM Studio (2026)
За 2025-2026 локальные модели сильно подтянулись по русскому языку. Раньше выбора особо не было - брали Saiga Mistral и страдали. Сейчас на выбор приличный набор моделей которые хорошо работают в LM Studio:
Saiga Mistral / Saiga LLaMA 3 (12B) - классика, заточенная под русский на базе оригинальной Mistral и LLaMA. Качество текста заметно выше чем у оригиналов на русских задачах.
Qwen 2.5 (7B-14B) - китайская модель от Alibaba, удивительно хорошо понимает русский. На 14B-версии качество близко к ChatGPT 4o-mini.
YandexGPT 5 Lite (8B) - локальная версия Яндекс-модели. Лучший выбор для русскоязычных задач если железо не топовое.
Llama 3.3 70B Instruct - если есть жирная видеокарта (24GB VRAM или Mac M3 64GB), это сейчас один из топовых вариантов. Понимает русский, не самый быстрый, но качество впечатляет.
T-Lite (T-Bank) - открытая модель от Тинькофф, заточена под финансовые и аналитические задачи на русском. Бесплатная, лёгкая.
Gemma 2 (9B-27B) - модель от Google, хорошее соотношение размера и качества. Русский неплохо тянет, особенно в инструкт-режиме.
Совет: начните с Qwen 2.5 7B или YandexGPT 5 Lite - быстро запустятся, дадут адекватный результат. Когда поймёте что нужно больше - переходите на 13-14B или 70B-варианты.
FAQ: LM Studio простыми словами
Что такое LM Studio простыми словами?
LM Studio - это бесплатная программа, которая позволяет запускать языковые модели типа ChatGPT прямо на вашем компьютере. Без интернета, подписки и отправки данных в облако. Похожа на ChatGPT интерфейсом, но всё работает локально.
Бесплатна ли LM Studio?
Да, LM Studio полностью бесплатна для личного и коммерческого использования. Скачать можно с официального сайта lmstudio.ai. Сами модели тоже бесплатные - LM Studio качает их с Hugging Face.
Какой компьютер нужен для LM Studio?
Минимум - 8 ГБ оперативки и современный 4-ядерный процессор. Комфортный сетап - 16-32 ГБ ОЗУ и видеокарта с 8+ ГБ VRAM. Чем больше памяти - тем большие модели вы запустите.
Можно ли использовать LM Studio без интернета?
Да, после первоначальной загрузки моделей. Интернет нужен только для скачивания моделей через встроенный поиск. После этого LM Studio работает офлайн.
Чем LM Studio отличается от ChatGPT?
LM Studio - локальная программа без подписки, без отправки данных в облако, без цензуры (зависит от модели). Минусы: качество моделей пока ниже ChatGPT 4o/5, скорость медленнее, занимает место на диске. Но приватность и бесплатность перевешивают для многих задач.
Можно ли подключить LM Studio к своим скриптам?
Да, LM Studio эмулирует API OpenAI. Достаточно сменить base_url с api.openai.com на localhost:1234 - и все ваши OpenAI-скрипты, n8n-сценарии и LangChain-приложения начнут работать с локальной моделью.
Итоги работы с LM Studio
Какие выводы я сделал из экспериментов с локальными большими языковыми моделями?
- Локальные LLM могут писать достаточно неплохо, с небольшими ошибками, но при масштабировании этот минус будет сильно мешать.
- Для качественной работы локальных LLM нужен мощный компьютер - как по оперативке, так и в плане процессора.
- В идеале - запускать большие языковые модели на специальном сервере, который может расширять свои параметры (ядра процессора и оперативку) в зависимости от нагрузки.
- На текущий момент эффективнее работать с ChatGPT или другими сервисами по API, чем использовать локальные LLM на своём домашнем компьютере. Ответы получаются более качественные и меньше вероятность ошибки.
Вариант с арендой мощных серверов под запуск LLM я пока не тестировал, обязательно дополню данную статью если появятся интересные наблюдения. Но вариант с машиной, которая может автоматически задействовать больше ресурсов при большой нагрузке - довольно интересен. Он исключает проблемы, которые возникали у нас с моделями на Q8.
На текущий момент решения от крупных компаний типа OpenAI или Google - более интересны и дают более точные ответы, поэтому в работе планирую использовать их. Возможно, в будущем локальные модели также покажут свою эффективность и каждый из нас сможет иметь свой карманный ИИ 😊