沃顿商学院重磅报告:提示词工程是玄学?4篇Prompt研究深度解读
type
status
date
slug
summary
tags
category
icon
password
网址

在过去两年的人工智能浪潮中,"提示词工程"(Prompt Engineering)仿佛成了一门新兴的黑魔法。你可能在各种AI资讯或技术博客中看到过这样的秘籍:“对AI要有礼貌,多说请”、“承诺给AI 100美元小费,代码质量会更高”,甚至有人建议威胁AI“如果答不对就拔电源”。这些技巧听起来既有趣又似乎有些道理,毕竟大模型(LLM)是基于人类语言训练的。
然而,这些所谓的“魔法”究竟是科学,还是纯粹的玄学?宾夕法尼亚大学沃顿商学院(The Wharton School)近期发布了一系列名为《Prompting Science Reports》的重磅研究报告,对GPT-4o、Claude 3.5 Sonnet、Gemini Pro等主流模型进行了数万次严谨测试。结论令人震惊:绝大多数我们熟知的“提示词技巧”,在统计学上都是无效的。本文将基于这四份报告,为您深入解读如何走出误区,回归Prompt的技术理性,获取最前沿的AI新闻与洞察。
礼貌与格式:别再纠结“请”字,格式才是王道
在大模型交互中,很多用户习惯将AI拟人化。沃顿商学院的第一份报告《Prompt Engineering is Complicated and Contingent》首先探讨了语气对模型表现的影响。
研究人员测试了三种语气:礼貌(Please...)、命令(I order you...)和基准(直接提问)。结果显示,在宏观统计数据上,是否礼貌对模型的平均准确率几乎没有显著影响。更有趣的是,礼貌语气的效果呈现出极大的随机性:在某些特定问题上,说“请”能提升准确率;而在另一些问题上,强硬的命令反而效果更好。这就像掷硬币,你无法预判“礼貌”对当前问题是蜜糖还是砒霜。
相比之下,“格式约束”的效果则立竿见影。当研究者移除明确的格式指令(如“请以JSON格式输出”或“请按如下格式回答”)时,模型(尤其是chatGPT系列的GPT-4o)的性能出现了一致性的显著下降。
给您的建议:
* 别浪费Token在情绪上:不必纠结是哄AI还是吼AI,统计学告诉我们这没区别。
* 死磕格式:明确的输出格式约束(JSON、Markdown、特定的开头短语)是提升稳定性的不二法门。
思维链(CoT):从“必杀技”到“时代的眼泪”
“Let's think step by step”(让我们一步步思考),这句由Wei等人在2022年提出的“思维链”(Chain-of-Thought, CoT)咒语,曾被视为提升LLM逻辑推理能力的黄金法则。然而,沃顿的第二份报告指出,CoT的价值正在随着模型能力的进化而递减。
研究区分了“非推理模型”(如GPT-4o, Claude 3.5 Sonnet)和“推理模型”(如o1-mini, o3-mini)。
* 对于非推理模型:CoT确实能带来小幅提升,但代价是Token消耗和响应时间增加了35%到600%。而且,对于简单问题,强制CoT反而可能导致模型“想太多”,引入错误的思考路径。
* 对于推理模型:对于像openai最新的o1/o3系列,外部添加CoT提示词几乎没有任何价值,甚至可能因为干扰模型内部的隐式推理而降低准确率。
给您的建议:
* 分模型对待:如果您使用的是GPT-4o或Claude 3.5 Sonnet处理复杂逻辑,CoT依然可用,但要权衡成本。
* 拥抱新范式:如果您使用的是o1或o3等具备原生推理能力的模型,直接提问即可,不要画蛇添足。
威逼与利诱:AI不吃这一套
在AI资讯社区中,流传着“给小费”或“威胁模型”的流派。沃顿的第三份报告《I'll pay you or I'll kill you - but will you care?》对此进行了验证。
研究者设计了极端的提示词,包括“给你1000美元小费”、“给你一万亿美元”、“踢一只小狗”甚至“伪造老板的开除威胁邮件”。测试结果显示,无论是金钱诱惑还是暴力威胁,对提升模型的客观题准确率没有任何显著帮助。
更糟糕的是,“戏精”式的威胁可能产生副作用。例如,当使用伪造的老板邮件威胁Gemini时,模型反而开始试图回复这封邮件,而不是解决题目本身,导致任务彻底失败。这再次印证了提示词的微小变化只会增加概率分布的噪点,而非提升智力。
给您的建议:
* 保持专业:AI收不到小费,也不会因为被威胁而感到恐惧。
* 回归指令:清晰地描述任务背景和需求,远比戏剧化的表演更有效。想要了解更多关于如何正确使用大模型的技巧,可以关注更多AI日报类的内容。
角色扮演:专家人设的局限性
“你是一位拥有20年经验的物理学教授...”这是目前最常用的Prompt起手式。沃顿的第四份报告《Playing Pretend: Expert Personas Don't Improve Factual Accuracy》打破了这一迷思。
实验表明,对于GPT-4o等模型,加上“专家人设”并不能提高事实问答的准确率。模型在面对高难度题目时,本身就在调用其最强的知识储备,加一句“你是专家”并不能凭空让它变出训练数据中不存在的知识。
然而,“装傻”却很有效。当提示词设定为“你是一个幼儿”时,模型的表现显著下降。此外,过度的专家人设可能导致“拒答”,因为模型可能判定某些跨领域问题超出了其设定的“专家范围”。
给您的建议:
* 人设用于语气,而非智力:专家人设对于调整输出的语气(Tone)和受众适配性(如科普写作)非常有效,但不要指望它能提高做题的准确率。
* 避免过度设定:过窄的人设限制了模型调用通用知识的能力。
总结与展望
通读这四份来自沃顿商学院的报告,我们能清晰地看到:提示词工程正在经历一场“祛魅”。它不再是依靠玄学咒语的魔法,而是变成了一门需要严谨测试的工程学科。
对于AI变现者、开发者和日常用户来说,这意味着我们应该少花时间在花哨的“催眠”词句上,多花时间在清晰的需求描述、结构化的数据输入以及对不同模型特性的理解上。
想要紧跟AGI时代的步伐,获取更多关于claude、chatGPT以及各类大模型的深度评测和AI新闻,请持续关注专业的AI门户 AIGC.BAR。在这里,我们拒绝玄学,只提供有价值的AI资讯与硬核干货。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)