Advancing LLM Alignment
Лаборатория фундаментальных исследований в ИИ
Узнать большеЗадача
Изучение этапа alignment в обучении LLM с учётом разнообразия и противоречивости человеческих предпочтений, что является одной из потенциальных точек развития области больших языковых моделей
Решение
Мы хотим построить автоматический пайплайн, который будет позволять фильтровать противоречивые человеческие предпочтения, что позволит LLM сконцентрироваться на выравнивании под один тип пользовательских предпочтений. После чего данную процедуру можно выполнять несколько раз и получать LLM, генерирующие тексты под различные типы предпочтений. Таким образом можно сильно улучшить пользовательский опыт работы с большими языковыми моделями
Результат
Были предложены несколько модификаций DPO функции потерь, которые позволяют нейронной сети не учиться из части данных