Llama 3.3, Mistral, Phi-4, Qwen 2.5 — локальные модели стали впечатляющими. Но стоит ли разворачивать свою? Мой опыт после полугода экспериментов.



Для наши AI-сервисы я использую Groq API с Llama 3.3 — это по сути «облачная локальная модель». Быстро, дёшево, и не нужно поддерживать GPU-серверы.

Для 90% бизнесов — API (Claude, GPT, Groq). Для enterprise с требованиями к конфиденциальности — Ollama + Llama 3.3 на собственных серверах. Для экспериментов — тоже Ollama, это бесплатно.
Нужна консультация по AI-инфраструктуре? напишите мне.
Собрал тестовый сервер: AMD Ryzen 9 7950X, 128GB RAM, 2x RTX 4090 (48GB VRAM). Общая стоимость: ~$5000. Установил Ollama, скачал Llama 3.3 70B (4-bit quantization, ~35GB).
Скорость: ~30 tokens/sec. Для интерактивного использования — приемлемо. Для batch-обработки 1000 статей — медленно (Claude API через Groq даёт 200+ tokens/sec).
Качество: На уровне Claude Sonnet для простых задач. Для кода — заметно хуже Claude Opus. Для генерации текста на русском — достаточно, но стилистически беднее.
Энергопотребление: 500W под нагрузкой. При 24/7 работе — ~360 kWh/месяц ≈ $40 за электричество (в России дешевле). Плюс шум: два 4090 под нагрузкой — как пылесос.
Простая математика: Claude API стоит ~$15/million input tokens для Sonnet. Если вы делаете 100K запросов в день по 1000 токенов — это $1.5K/день = $45K/месяц. Локальный сервер с 2x A100 — $2K/месяц в облаке или $30K разово. Окупается за 1 месяц.
Но если у вас 1000 запросов в день — API стоит $15/месяц. Локальный сервер не окупится никогда.
Breakeven point: ~20K запросов в день. Ниже — используйте API. Выше — считайте экономику локального development.