DeepSeek-R1 的幻觉率比 V3 高出 4 倍,为加密 AI 代理代币敲响警钟
内容摘要
Vectara 使用 HHEM 2.1 基准测试进行的研究表明,DeepSeek 的推理模型 DeepSeek-R1 的幻觉率为 14.3%,几乎是其前身 DeepSeek-V3(3.9%)的四倍。这种“过度帮助”并编造信息的倾向,为依赖大语言模型进行自动交易和链上执行的加密 AI 代理带来了巨大的操作风险。尽管开发者正在探索缓解策略,但这些发现表明,复杂推理与事实准确性之间的权衡可能会影响 AI 驱动的金融项目的可靠性。
(来源:BeInCrypto)