AI生成内容检测“潜规则”？开源模型助你降低AIGC率，重塑学术写作新范式

type

status

date

slug

summary

AIGC率检测的痛点与挑战

毕业季的到来，使得“AI率”成为了许多学生和导师头疼的问题。知网、维普等主流学术查重系统纷纷引入AI检测功能，许多学校要求AI生成内容的比例压制在30%以下。然而，现有的AI检测系统往往存在“黑箱”操作：其训练数据、特征设计、阈值策略均不公开，使得研究者难以理解其工作原理，更遑论针对性地去优化或规避。传统的PPO（Proximal Policy Optimization）或GRPO（Generalized Proximal Policy Optimization）等强化学习方法，在缺乏可量化的“奖励”（reward）信号时，难以直接应用于对抗这些检测器。

从绕过到对齐：模型训练的新思路

面对严峻的检测形势，研究者并未选择直接攻击检测器，而是转换思路：能否训练一个模型，使其生成的文本在保持学术规范和信息准确性的前提下，显著降低被判定为AI生成内容的概率？这背后是一种从“绕过”到“对齐”的理念转变——让AI的输出更接近人类的自然表达方式，而非简单地生成“AI味”十足的文本。

探索与试错：两条捷径的局限性

在正式训练模型之前，研究者尝试了两种更为省力的路径：

利用现成Prompt或Skill进行改写：虽然GitHub上存在一些英文的“humanizer”项目，但中文方向的成熟工具相对匮乏。一些中文项目采用传统NLP的规则替换方式，检测和改写手段都较为粗糙，难以满足学术场景的精细化要求。

更换冷门模型：理论上，使用统计分布差异极大的冷门模型，可能天然规避主流检测器。然而，这类模型往往对中文支持不足，效果不佳，且未经针对性微调，其底层分布与主流模型差异也有限，这条路最终被证明不可行。

SFT阶段：反向构造的初步尝试

当捷径被证明不可行后，研究者回归到核心的训练环节。第一步是监督微调（Supervised Fine-Tuning, SFT）。其核心思路是“反向构造”：收集一批人类写的文本，先用AI工具将其改写成“AI味”很重的版本，然后训练模型学会将AI文本还原成人类风格。

关键在于原始文本的选择。初期尝试使用互联网网页数据，但存在数据清洗繁琐和模型过于口语化的问题，不适用于学术场景。最终，研究者选用了 CSL（Chinese Scientific Literature）数据集，该数据集包含大量中文论文摘要，其语言风格与正文段落差异不大，能提供相对高质量的学术文本基础。

通过对约18000条“AI改写摘要 -> 原始摘要”的样本进行训练，基于Qwen3.5-9B模型，得到了一个初步可用的版本。该模型能保留学术术语，但存在两个主要问题：一是改写程度不够，依然容易被检测系统识别；二是通用性差，在学术场景下过于保守，在日常场景下又显得过于文绉绉。

DPO阶段：迈向“人类分布对齐”的关键一步

为了进一步提升模型效果，研究者引入了直接偏好优化（Direct Preference Optimization, DPO）。DPO是一种无需显式奖励模型即可进行强化学习的方法，特别适合在缺乏精确奖励信号的情况下，让模型学习人类的偏好。

DPO阶段的第一个关键错误在于数据构造。初期沿用了SFT的思路，将人类原文视为“Chosen”（优选），AI改写版本视为“Rejected”（拒绝）。然而，AI改写后的文本往往更书面化、严谨，相比之下人类原文反而更显口语化。模型学到的信号变成了“越口语化越好”，而不是“越接近人类分布越好”。

修正后的DPO数据构造采用了双向策略：一方面，保留2000条“formal-rejected”样本，AI改写维持正式书面语气；另一方面，构造2000条“casual-rejected”样本，AI改写加入更多口语化、灵活的变体。这种方式使模型真正学会了“人类文本”的感觉，不再简单区分口语化或书面化，而是学习一种更自然的、更像人的表达风格。

自博弈与信号纯度的教训

在DPO基础上，研究者尝试利用自博弈（Self-play）进一步提升模型性能。自博弈是指让模型自身生成文本，然后通过某种机制（如另一个模型或某种评估标准）来评估其质量，并据此进行优化。

自博弈阶段的第二个错误是混杂了自博弈数据和部分口语化rejected数据。本意是为模型增加“围栏”，防止其跑偏。但自博弈产生的学习信号本身较弱，与口语化rejected数据的强区分信号混合后，导致训练过程剧烈抖动，梯度暴涨。

最终的成功在于信号的纯化。研究者果断放弃了混杂版本，去掉所有口语化数据，确保学习信号的单一。同时，将学习率调低一半，以更慢的速度防止模型跑偏，并将自博弈数据扩展到2000条。

此次训练完成后，模型达到了一个接近可用的状态。在实际测试中，一篇AI率50%的论文改写后降至24%，另一篇从30%降至8.9%。人工抽查也证实了语义和事实信息的保留基本完整。

DPO模型在通用性上的优势

一个有趣的现象是，SFT模型在处理日常文本时，倾向于将其改写成文言文式的表达；而DPO Stage-2版本，即便训练数据主要来自学术论文，但在日常场景下也展现出极高的可用性，表达自然。这表明DPO阶段学到的“人类分布对齐”能力，比SFT阶段更深层、更具泛化性，能够从学术文本中提炼出通用的、更像人的语言特征。

AI时代下的教育反思

此次开源模型的研究，不仅是技术上的进步，更引发了深刻的思考：

检测的本质：AI检测系统往往拦住了那些“懒得折腾”的人，而真正有决心和能力的人，往往能找到解决之道。随着类似工具的普及，反检测的产业将愈发成熟。

教育的重心：在AI工具已无处不在的今天，教育系统是否应该将精力从“检测学生是否使用AI”转移到“教学生如何用好AI”？

未来的评估体系：如何设计一套新的评估体系，能够衡量学生在AI辅助下学习到的真实知识和解决问题的能力，这才是高校在AI时代真正值得投入的方向。

正如作者所言，AI时代的到来，要求我们重新审视教育的本质和目标，拥抱技术，引导学生与AI协同发展，而非一味地将其视为洪水猛兽。

该模型及其合成数据已开源，为研究者和学习者提供了宝贵的资源，期待未来能有更多类似的研究，共同推动AI技术在教育领域的健康发展。