Finetuning an LLM: RLHF and alternatives (Part VI)

Introduction

这是一系列与人类反馈强化学习替代方案相关的博客文章，由Argilla和MantisNLP团队共同合作创建。请确保您已经阅读了系列中的前几篇文章，以充分理解讨论的背景和进展，然后再继续阅读本节。滚动到页面底部以进入系列中的下一篇博客文章。

在之前的文章中，我们开始分析执行监督微调（SFT）和人类反馈强化学习（RLHF）的努力，以及拥有高质量数据的重要性（第一篇和第二篇博客文章）。然而，RLHF是复杂的，通常不稳定，因此我们研究了一种有前途的替代方案，直接偏好优化（DPO），以使LLM与人类偏好保持一致，而不需要RL（第三篇博客文章）。尽管如此，DPO并不能解决所有的缺点，例如，需要大量的偏好数据来进行微调。为了解决这个问题，研究人员提出了新的方法。其中一些是强化学习AI反馈（RLAIF）或自博弈微调（SPIN）（第四篇和第五篇博客文章）。

在这种情况下，我们将研究身份偏好优化（IPO），旨在增强数据对齐并减轻过拟合。

Identity Preference Optimization (IPO)

为了寻找更简单、更高效的算法，以更好地将大语言模型与数据对齐，DeepMind团队引入了“理解从人类偏好中学习的通用理论范式”的新通用目标和新的算法，将在本文中进行解释。

如果你想深入研究实用的方面，IPO功能已经集成到TRL库中的DPO训练器中，由Hugging Face提供。但是有一个小问题：由于存在差异，你必须使用TRL的主分支才能访问此功能。

每项研究都始于某个起点，那么是什么激发了好奇心，导致了这项研究呢？鉴于RLHF存在的问题，研究人员旨在解决与RLHF最常见方法相关联的挑战，提供新的见解。

在一组数据中，他们注意到有一种假设认为点式奖励可以取代成对偏好。在使用这些方法时，Bradley-Terry模型被应用于将成对比较转换为Elo分数（或对数偏好）。本质上，该模型通过分析成对比较来确定每个项目的相对强度。在这种情况下，A优于B，B优于C（A>B和B>C），模型将为A、B和C分配个体分数。为此，它计算每对被选择的可能性（例如，A优于B的可能性），并最大化它以调整强度值（分数），以便它们反映所有观察到的比较（A>B和B>C）。这样，我们为每个项目获得唯一的分数，例如，A=0.6，B=0.3，C=0.1。这些将是点式分数。

正如我们所看到的，这种方法基于两个关键原则：传递性，这意味着如果A比B更受欢迎，B比C更受欢迎，那么A应该比C更受欢迎；以及可加性，其中分数的差异代表偏好的强度。然而，这种最大化可能会导致非逻辑或意外的决策，这些决策并不完全符合现实世界的选择。一个人可能更喜欢A，而另一个人可能更喜欢C，这凸显了数学模型和人类行为之间的差距。

在左边，有一个点对点的例子，其中每个文档与查询配对时都被视为独立的实例。在右边，有一个成对比较的例子，其中文档成对比较以决定顺序。来源：https://towardsdatascience.com/what-is-learning-to-rank-a-beginners-guide-to-learning-to-rank-methods-23bbb99ef38c

相反，奖励模型通常是在这些点奖励上进行训练，允许进行推广。虽然DPO通过在优化过程中针对实际偏好的logit变换版本来摆脱这个奖励模型，但它仍然延续了以前的想法。因此，主要问题出现了，因为点奖励系统不成比例地奖励偏好概率的小幅增加，导致过度拟合和弱正则化问题。这使模型难以推广和准确反映真实偏好。我们将在本文后面更深入地探讨这个问题。

RLHF和DPO中偏好优化的示例。请记住，DPO不使用显式的奖励模型。来源：https://arxiv.org/pdf/2305.18290.pdf

为了更好地理解这些方法的工作原理以及如何克服它们的弱点，他们引入了两个新的想法：ΨPO和IPO。这里的主要创新是消除奖励模型，同时保留成对比较方面，旨在通过调整训练过程来解决模型的限制。

The key points: ΨPO and IPO

一方面，研究人员确定了RLHF和DPO目标可以统一为一个更一般的目标，ΨPO，这为偏好学习提供了更广泛的理论基础。通过他们对ΨPO的分析，他们指出了弱正则化和过度拟合的可能性等问题。

通常，RLHF和DPO使用KL正则化来确保LLM在每个训练步骤中逐步改进，避免与原始的非对齐模型出现重大偏差。然而，他们注意到一个问题：随着模型预测变得更加确定（即可预测），这种正则化形式变得不那么有效。理想情况下，正则化应该区分小的和大的增加，以便它鼓励模型专注于在不确定性更大的地方进行重大改进，而不是过度微调模型已经自信的地方。然而，在当前的情况下，正则化没有充分地做出这种区别，导致学习过程不够细致。

假设这就像一位导师教一个孩子阅读。在开始时，老师会进行小的修正（KL正则化），以确保学生不会养成坏习惯。然而，随着他的技能提高，如果指导保持不变，他的阅读变得更加确定，这就像在儿童混淆“cat”和“cap”或混淆“蝴蝶”和“球”时给予相同水平的修正。

另一方面，与可能使用早期停止等技巧的传统方法不同，他们引入了ΨPO的一个特殊情况：Identity-PO。IPO甚至在不需要依赖奖励模型的情况下优化了偏好，并且在偏好是确定性的情况下，确保了KL正则化的有效性。

通过用恒等函数替换逻辑函数，IPO直接优化偏好（从成对偏好中学习，而不是从逻辑偏好中学习）。它通过参考策略比较偏好的动作与非偏好的动作，并引入一个项来有效地管理正则化。这种正则化机制使IPO能够在适应训练数据和保持泛化能力之间取得平衡，这对于模型在未见过数据上的性能至关重要。

按照前面的例子，如果孩子最初更喜欢阅读简单的单词而不是复杂的单词，使用恒等函数，奖励将成比例和直接（他们将得到贴纸而不是数字得分）。指导方针（参考策略）将表明这种偏好，但正则化项将奖励他阅读简单的单词，并鼓励他偶尔处理复杂的单词。

For a more theoretical approach and mathematical proof, check the original paper.

IPO vs DPO

为了证明IPO的有效性，他们还将其与使用不同的KL正则化tau（τ）值的DPO进行了比较。τ参数有助于调整正则化项的强度：较高的τ值鼓励模型进行更多的探索，而较低的τ值则促进对学习偏好的更多利用。

比较IPO和DPO行动概率学习曲线的差异，其中D1 = (A，B)，(B，C)，(A，C)表示总顺序。来源：https://arxiv.org/pdf/2310.12036.pdf。

给定一个示例数据集，其中1比2和3更受欢迎，以上图像显示了DPO和IPO的学习曲线。在两种情况下，偏好顺序都被正确确定。然而，我们可以观察到，随着不同的正则化参数，DPO保持不变，这验证了本文的一个假设。此外，DPO显示出过拟合，因为它们的曲线始终收敛于2和3，而首选值1几乎达到了概率1。相比之下，当应用不同的τ值时，IPO的曲线存在明显的差异，并且三个样本是可区分和排序的。

Hugging Face团队还在机器翻译基准上比较了DPO、KTO和IPO。根据模型不同，结果有所不同，虽然对于Zephyr来说，IPO的结果有所改善，但对于OpenHermes来说，同样的结论并没有被复制。

For more information on the experiments performed, check the following post.

MT-Bench scores for the Zephyr model (on the left) and OpenHermes (on the right) for different β (=tau). Source: https://huggingface.co/blog/pref-tuning

实施IPO的结果并不确定，表明需要进行更多的实验。尽管IPO的有效性得到了彻底的理论分析支持，但需要更多的实证证据，特别是在复杂和现实世界的场景中，以加强IPO有效性的论据。

还应注意的是，针对支持IPO的声明，DPO论文的作者之一Eric Mitchell也发表了一份一页的文件。他在其中倡导DPO，提出了一些修改，以缓解正则化问题，并解决IPO讨论中的理论问题。

Conclusion

总之，首次公开募股论文提供了强大的理论框架，通过ΨPO解释了基于RLHF和DPO的基础，并突出了这些方法的主要缺点。此外，为了避免过拟合和弱正则化，引入了一种新的解决方案，即IPO，它添加了一个正则化项。尽管有关经验测试有限和结果混合的批评，但IPO的方法仍然值得注意。它应该被认为是在这个领域中新方法之一，为推进基于偏好的学习模型提供了有价值的视角。

Want to know more?

This is the sixth entry of a series of blog posts dedicated to alternatives to RLHF. The first, second, third, fourth and fifth posts of the series can be found on our website too.

Argilla and Mantis NLP teams are happy to help with any question you may have about preparation steps for training a LLM using Supervised fine-tuning, Reinforcement Learning, or Direct Preference Optimization.

All the data curation steps are currently supported by Argilla’s Data Platform for LLM, and from Mantis NLP we offer end-to-end support for the whole process.