大模型RL微调:破解多样性危机与遗忘
深入探讨大语言模型RL微调中多样性危机与灾难性遗忘问题,揭示KL散度选择的关键作用,介绍DPH-RL如何通过f-divergence有效提升模型泛化能力与知识保留。
没有找到文章
大模型RL微调:破解多样性危机与遗忘
深入探讨大语言模型RL微调中多样性危机与灾难性遗忘问题,揭示KL散度选择的关键作用,介绍DPH-RL如何通过f-divergence有效提升模型泛化能力与知识保留。