Сокращение затрат и ускорение обработки данных с Compressa

Генеративный ИИ, Ритейл, E-commerce, IT

ООО КомперссаЭйАЙ

Узнать больше

Кратко о кейсе Актион 

У компании Актион сотни тысяч документов на разные темы — бухгалтерия, юриспруденция, медицина, охрана труда и т. д. Они требуют регулярного отслеживания, анализа и обработки, поэтому команда решила подключить к этому процессу LLM. 

Проблема:

Кроме внушительного размера самой базы на сотни тысяч документов и базы запросов, обе из них меняются практически каждый день и требуют такой же частоты перезапуска LLM. Базовая конфигурация включала в себя две модели — Saiga 7B на CPU + Mistral 7B на GPU (самые маленькие модели, которые подходили по качеству). После первых месяцев тестирования стало понятно, что возможности написанной архитектуры сильно ограничены. Полученной пропускной способности не хватало для создания стабильной и эффективной высоконагруженной системы, способной обрабатывать 100к+ LLM генераций каждый день. 

Решение:

Команда Compressa передала в Актион готовый on-prem Docker контейнер с нужной моделью Mistral 7B и лучшей доступной оптимизацией, который запустили на 1 из А100-ых карт всего за несколько часов (с установкой всех зависимостей). В сборке уже были все нужные API и UI интерфейсы, поэтому последующее тестирование и подключение к бизнес-процессу потребовало еще меньше времени. В результате пропускной способности от Compressa на 1 карте А100 хватило, чтобы оставить только ее и освободить 4 других GPU и 20 CPU. 

ДО COMPRESSA: 

• x5 GPU A100 

• x20 CPU 

ПОСЛЕ СOMPRESSA: 

• x1 GPU A100 

В 36 РАЗ выросла пропускная способность LLM 

Благодаря освобожденным A100 и новой, кратно меньшей стоимости токенов, Актион начал активные эксперименты с LLM в других продуктах для дальнейшего улучшения бизнес-метрик. Раньше такие эксперименты блокировались низкой пропускной способностью инференса. Кроме этого, Compressa поддерживает эффективное дообучение обычных и квантованных моделей через LoRa адаптеры, поэтому в скором времени команда хочет приступить к дообучению своих LLM под конкретные бизнес-задачи. 

O Compressa 

Compressa — это готовая LLM инфраструктура для вашего сервера, которая включает в себя лучшие методы оптимизации инференса, квантизацию, эффективное дообучение LoRa адаптеров, а также API & UI интерфейсы для удобной работы с моделями. Стоимость токенов с Compressa до 10 раз меньше, чем у Gigachat, YaGPT и аналогов, а модели работают до 70 раз быстрее, чем Hugging Face на PyTorch. Готовый Docker контейнер Compressa можно развернуть за день и сразу начать использовать для решения бизнес-задач, при этом вы не будете зависеть от внешних API. При необходимости, наши ML инженеры могут помочь с консультациями, настройкой или интеграционными работами. 

Наш сайт использует файлы cookie для улучшения пользовательского опыта