学习还是自我对齐 ? 关于指令微调的内在机制的探究

论文标题:Learning or Self-aligning? Rethinking Instruction Fine-tuning.

论文链接:🔗 https://arxiv.org/abs/2402.18243

 

指令微调(Instruction Fine-tuning,IFT)已经成为大型语言模型构建的核心步骤之一,然而关于IFT对大模型的输出的影响机制的深入分析仍然非常缺乏。当前应用指令微调的工作主要有两个目的,模型行为模式的转换和注入特定领域的知识。由于缺乏对指令微调的深入分析,我们很难理解指令微调给模型带来的增益究竟是由于其成功地对齐了我们期望的输出空间,实现了更好的知识表达机制,还是由于指令微调过程中确实带来了额外的领域知识增益。

为此,中国科学院软件研究所中文信息处理实验室联合美团提出 基于知识扰动的分析框架,来解耦合模型行为模式转换与额外世界知识注入的作用。作者发现: 
(1) 对于指令微调而言,学习与模型参数知识不一致的世界知识无法带来增益,甚至会造成额外的损害。
(2) 有效指令微调的本质在于完成行为模式转换的同时,保持指令微调前后模型参数知识的一致性。
换句话说,指令微调的核心作用机制并不是让模型去“学习”额外的知识,而是将模型内部现有的知识进行一种自我的对齐因此,最终决定指令微调性能的并非领域知识的注入程度,而是是否能够通过指令微调的过程,实现更有效的自我对齐,从而促进模型内部现存的参数知识在零样本问答这一目标模式下更好的表达。这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引,还为最近兴起的包括super alignment[1]、self-play[2]等在内的一系列工作提供了坚实的依据。

基于知识扰动的分析框架

具体而言,作者分别收集了来自四个领域的的选择题数据集,并使用少样本上下文学习探测模型参数知识。作者认为,如果一个预训练完的基座模型,能够在给定少样本的条件下正确回答某个问题,则该基座模型就具备回答该问题的相关知识。基于上述的知识探测方法,作者通过知识扰动,构建了三组不同的IFT设置:
  • Harmonious 由与模型参数知识一致的指令数据组成,是基座模型可以在少样本上下文学习下正确回答的问题。在该设置下的学习过程中,模型只需要学习行为模式,而不需要学习额外的世界知识;
  • Incompatible 包含了基座模型在少样本上下文学习中无法正确回答的问题。由于与模型参数知识完全不一致,模型在训练阶段既需要学习行为模式,也需要学习世界知识;
  • Self-aligning 该设置下的指令输入与incompatible设置中的完全一致,但是作者将每个指令对应的答案 修改为 基座模型自己预测的答案,以与模型参数知识保持一致。因此,在这种设置下,所有的响应都是不正确的,模型无法学习任何额外的世界知识。

 

通过控制指令数据所蕴含的知识与模型参数知识的一致性程度,观察使用不同一致性程度的数据微调的模型的行为差异,作者希望回答以下两个研究问题:

  • RQ1  指令数据中提供的额外世界知识是如何影响大模型的?
  • RQ2 上述影响的潜在原因是什么?

为了回答上述的RQ并进行全面的评估,对于每个领域,作者构建了三种类型的测试集:

  • 同质测试集(HOMO),从该领域的训练集所在的数据集留出
  • 域内测试集(ID),包含了MMLU中所有属于该领域的subcategories
  • 域外测试集(OOD),包含了MMLU中所有不属于该领域的subcategories
通过观察不同设置下微调的模型在三种类型测试集上的性能差异,作者希望检查指令微调对各种场景的影响。

实验

Exp-I: 在IFT中学习额外的知识是否重要?

对于每个领域和基座模型的组合,作者分别构建了上述三组指令数据,并用来微调对应的基座模型,结果如下表所示,harmonious设置(HAR)与self-aligning设置(SELF)在四个基座模型、四个领域的三类评估上基本都明显强于incompatible设置(INC)。

基于此,作者发现:1)当包含正确的世界知识时,与模型参数知识一致的指令数据会带来更优的微调结果;2)相比于使用正确但与模型参数知识不一致的数据微调模型,使用与模型参数知识一致但错误的指令数据微调模型能够获得更好的性能表现

这表明,对于IFT而言,学习指令数据中包含有的额外的世界知识很可能并不能够带来增益。

Exp-II: 在IFT上下文中引入额外的世界知识的对比

为了进一步验证上述结论,作者提出Contextualized IFT来解耦IFT数据中包含的冲突知识,并对此问题进行了进一步的分析。具体而言,对于与模型参数知识不一致的指令数据,作者使用GPT-3.5生成响应该指令所需的知识,并将该知识加到指令的前面,以此构建指令数据并微调模型。
针对含有冲突指令数据的incompatible设置,作者在三个基座模型、四个领域上进行了实验,上表报告了在不同基座模型上使用Vanilla IFT与作者提出的Contextualized IFT的平均性能,可以看出Contextualized IFT能够有效缓解不一致的指令数据带来的负面影响。基于此,作者发现  让模型在指令微调过程中不学习与参数知识冲突的世界知识有助于实现更好的指令微调。
结合以上两组实验,对于RQ1,作者得出结论:

Conclusion1. 对于指令微调而言,学习与模型参数知识不一致的世界知识无法带来增益,甚至会造成额外的损害。

Exp-III: 一致性代表一切吗?

上述发现似乎可以得出一个结论:为了更好地进行行为模式转换,应该使用与模型参数知识完全一致的IFT数据,而不需要任何额外的世界知识。

为了探究这个假设,作者设计了一组新的实验。具体而言,通过调整来自incompatible和self-aligning的样本比例,作者旨在调整IFT数据中的知识与模型参数知识的一致性比率,从而观察不同一致性比率下IFT结果的变化。上图报告了基座模型Mistral-7B在不同领域上使用不同的知识一致性数据微调的结果,可以看出最优点并不总在最右侧取得,因此作者发现  使用与模型内部参数知识完全一致的指令数据并不总能取得最优性能。

Exp-IV: 对IFT而言,什么是真正重要的?

为了进一步分析指令微调的潜在机制,作者分析了IFT前后不同基座模型在三类评估上的知识差异,以观察IFT引发的内部知识改变的程度。具体来说,对于测试数据中的每个样本,作者首先计算原始模型通过上下文学习探测得到的对选项的预测排名与微调模型提供的预测排名之间的Pearson相关系数。在此基础上,作者计算每类测试集的平均Pearson相关系数,然后将其与微调模型在同一测试集上的性能进行比较。
作者在三个基座模型,共计96个微调模型上进行了Spearman偏相关性分析 (基座模型在对应测试集上的性能作控制变量),并在下表中汇报了在不同基座模型及所有模型上的偏相关系数(r)与显著性(p-value)。对于LLaMA-2-13B和Mistral-7B来说,远低于0.05的显著性表明了高置信度。作者因此得出 指令微调前后模型内部知识的一致性是影响微调后模型性能的关键因素。
作者还在下图中对Mistral-7B的结果进行了可视化,其中横轴为 指令微调前后模型预测排序的Pearson相关系数,纵轴为微调后的模型性能,作者按照领域分组绘制了回归线,可以看到从同质、领域内、领域外的三类评估上,都有一个明显的上升趋势。
为了探究上述发现是否是导致Exp-III中现象的原因,进一步地,作者对微调前后模型预测分布的KL散度进行了分析,并在下表汇报了不同基座模型在不同设置下微调前后预测分布的平均KL散度,其中“Best”表示在三类评估上平均表现最好的微调模型与其相应基座模型预测分布的平均KL散度。从表中可以看出,self-aliging设置下微调的模型与基座模型的KL散度要明显大于最优微调模型与基座模型的KL散度,由于模型内部参数知识是平滑的,完全使用自对齐设置(one-hot) 本身也是一种知识背离。 
 
由此,针对于前文提出的RQ2,作者得到如下结论:

Conclusion 2. 有效指令微调的本质在于完成行为模式转换的同时,保持指令微调前后模型参数知识的一致性。

总结与讨论

上述的实验结论表明,指令微调的核心作用并不是注入特定领域的知识。与之相反的是,强行注入与模型现有知识不一致的额外知识,反而会损害模型在领域内外的表现。同时,作者的实验还发现,模型在IFT前后的内部参数知识的一致性—— 即IFT 前基于少样本上下文学习探测表现出来的知识 与 IFT后在零样本问答模式下 表现出来的知识之间的一致性,对于微调后模型的最终性能有着决定性的影响。这两个结论揭示了IFT的一个根本的作用机制,即

指令微调不是一个监督的领域特定知识学习的过程,而是将指令与模型现有参数知识进行一种自我对齐的过程。

因此,最终决定指令微调性能的并非领域知识的注入程度,而是是否能够通过指令微调的过程,实现更有效的自对齐,从而促进模型现存参数知识在零样本问答这一目标模式下更好的知识表达。
这一发现不仅对未来指令微调数据构建、微调方法的设计以及微调效果的评估提供了指引,还为最近兴起的一系列工作提供了坚实的依据。例如,super alignment[1]旨在使用一个弱模型来指导一个更强的模型进行对齐。由于指令微调的核心在于引发行为模式的转换,而非知识的注入。因此,作者的结论证明了使用一个知识较少的弱模型来指导更大、知识更强的模型进行指令微调是完全可能的,同时也为最近兴起的包括self-play[2]、self-alignment[3][4]、self-rewarding[5]等在内的一系列工作提供了坚实的依据。

引用

[1] Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, and Jeff Wu. 2023. Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. ArXiv:2312.09390 [cs].

[2] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, and Quanquan Gu. 2024. Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models. ArXiv:2401.01335 [cs, stat].

[3] Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, and Chuang Gan. 2023. Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. ArXiv:2305.03047 [cs].

[4] Keming Lu, Bowen Yu, Chang Zhou, and Jingren Zhou. 2024. Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment. ArXiv:2401.12474 [cs].

[5] Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, and Jason Weston. 2024. Self-Rewarding Language Models. ArXiv:2401.10020 [cs].

2024-03-16T02:06:38+00:00