Сокращение затрат и ускорение обработки данных с Compressa
ООО КомперссаЭйАЙ
Узнать большеКратко о кейсе Актион
У компании Актион сотни тысяч документов на разные темы — бухгалтерия, юриспруденция, медицина, охрана труда и т. д. Они требуют регулярного отслеживания, анализа и обработки, поэтому команда решила подключить к этому процессу LLM.
Проблема:
Кроме внушительного размера самой базы на сотни тысяч документов и базы запросов, обе из них меняются практически каждый день и требуют такой же частоты перезапуска LLM. Базовая конфигурация включала в себя две модели — Saiga 7B на CPU + Mistral 7B на GPU (самые маленькие модели, которые подходили по качеству). После первых месяцев тестирования стало понятно, что возможности написанной архитектуры сильно ограничены. Полученной пропускной способности не хватало для создания стабильной и эффективной высоконагруженной системы, способной обрабатывать 100к+ LLM генераций каждый день.
Решение:
Команда Compressa передала в Актион готовый on-prem Docker контейнер с нужной моделью Mistral 7B и лучшей доступной оптимизацией, который запустили на 1 из А100-ых карт всего за несколько часов (с установкой всех зависимостей). В сборке уже были все нужные API и UI интерфейсы, поэтому последующее тестирование и подключение к бизнес-процессу потребовало еще меньше времени. В результате пропускной способности от Compressa на 1 карте А100 хватило, чтобы оставить только ее и освободить 4 других GPU и 20 CPU.
ДО COMPRESSA:
• x5 GPU A100
• x20 CPU
ПОСЛЕ СOMPRESSA:
• x1 GPU A100
В 36 РАЗ выросла пропускная способность LLM
Благодаря освобожденным A100 и новой, кратно меньшей стоимости токенов, Актион начал активные эксперименты с LLM в других продуктах для дальнейшего улучшения бизнес-метрик. Раньше такие эксперименты блокировались низкой пропускной способностью инференса. Кроме этого, Compressa поддерживает эффективное дообучение обычных и квантованных моделей через LoRa адаптеры, поэтому в скором времени команда хочет приступить к дообучению своих LLM под конкретные бизнес-задачи.
O Compressa
Compressa — это готовая LLM инфраструктура для вашего сервера, которая включает в себя лучшие методы оптимизации инференса, квантизацию, эффективное дообучение LoRa адаптеров, а также API & UI интерфейсы для удобной работы с моделями. Стоимость токенов с Compressa до 10 раз меньше, чем у Gigachat, YaGPT и аналогов, а модели работают до 70 раз быстрее, чем Hugging Face на PyTorch. Готовый Docker контейнер Compressa можно развернуть за день и сразу начать использовать для решения бизнес-задач, при этом вы не будете зависеть от внешних API. При необходимости, наши ML инженеры могут помочь с консультациями, настройкой или интеграционными работами.