Federated Approach in RLHF
Лаборатория фундаментальных исследований в ИИ
Узнать большеЗадача
Персонализированное обучение больших языковых моделей с помощью reinforcement learning
Решение
Классическим подходом к федеративному обучению является усреднение весов локальных моделей [1]. Вместо этого, мы предлагаем усреднять политики, то есть выходы policy моделей, и использовать среднюю точку в алгоритме PO в KL-дивергенции при обновлении весов локальных моделей. Это позволяет эффективно обуславливаться на приватные данные других клиентов не получая при этом прямого доступа к ним. Кроме того, с помощью обмениваемых политик наш алгоритм выявляет похожих на клиента соседей, что позволяет ускорить обучение за счет увеличения количества эффективно используемых клиентом данных
Результат
Улучшение качества дообучаемых моделей при одинаковом количестве локальных данных