Federated Approach in RLHF

Оптимизация, Финтех

Лаборатория фундаментальных исследований в ИИ

Задача

Персонализированное обучение больших языковых моделей с помощью reinforcement learning

Решение

Классическим подходом к федеративному обучению является усреднение весов локальных моделей [1]. Вместо этого, мы предлагаем усреднять политики, то есть выходы policy моделей, и использовать среднюю точку в алгоритме PO в KL-дивергенции при обновлении весов локальных моделей. Это позволяет эффективно обуславливаться на приватные данные других клиентов не получая при этом прямого доступа к ним. Кроме того, с помощью обмениваемых политик наш алгоритм выявляет похожих на клиента соседей, что позволяет ускорить обучение за счет увеличения количества эффективно используемых клиентом данных

Результат

Улучшение качества дообучаемых моделей при одинаковом количестве локальных данных

Federated Approach in RLHF

Меню

Контакты