AI评估 | 标签

资讯

往期整理

AI心智探秘：北大首篇LLM心理测量综述的深度解读与未来展望

深入剖析北大团队LLM心理测量学综述，探讨大模型评估、验证与增强新范式，洞见AI心智研究前沿与未来趋势，涵盖LLM,AI评估,心理测量,人工智能发展。

xbench首发：AI智能体评估新标准，揭秘AGI真实战力

红杉中国xbench全球首发，全新AI基准测试工具，通过双轨评估体系与长青评估机制，深度量化AI智能体在真实场景的效用价值与能力上限，引领AGI发展，关注AI新闻、大模型与AI变现。

多模态AI新突破：让智能助手主动“开口”说话，实现更自然人机交互

深入解读多模态AI主动交互技术，从ProactiveVideoQA评估基准到MMDuet2强化学习训练方案，探索AI如何更智能、主动地与用户沟通，实现人机交互新范式。

AI裁判的皇帝新衣：论文炮轰LLM Judge无效且不可靠

最新论文深入剖析LLM作为AI裁判的四大核心缺陷，揭示其在信度与效度上的严重不足，指出当前AI评估方法存在偏见与数据污染风险，引发对人工智能发展方向的深刻反思。