Offline_alignment_methods_based_on_trlx

关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

PCL-张晗 9338f32d36 更新 'README.md'		3 months ago
trlx	update	3 months ago

README.md	更新 'README.md'	3 months ago

dpo_accelerate_config.yaml	update	3 months ago

dpo_bf16_accelerate_config.yaml	update	3 months ago

train_DPO.py	update	3 months ago

Implementation of the SOTA alignment methods based on trlx

Reproducing the codes of DPO[1], PRO[2], RRHF[3], SPIN (online method) [4], CPPO (online method) [5], COPF[6].

[1] DPO: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

[2] PRO: Preference Ranking Optimization for Human Alignment

[3] RRHF: Rank Responses to Align Language Models with Human Feedback without tears

[4] SPIN: Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

[5] CPPO: Continual Learning for Reinforcement Learning with Human Feedback

[6] COPF: CONTINUAL LEARNING HUMAN PREFERENCE THROUGH OPTIMAL POLICY FITTING

复现了offline对齐算法的一系列工作，欢迎大家交流。包括DPO, PRO, RRHF和SPIN。还有团队发表在ICLR2024的CPPO，以及最新的研究工作COPR。

Python

491377729@qq.com