todayonchain.com

DeepSeek-R1 的幻觉率比 V3 高出 4 倍,为加密 AI 代理代币敲响警钟

BeInCrypto
Vectara 的基准测试显示 DeepSeek-R1 的幻觉率远高于其前身,这给自主加密 AI 代理带来了潜在风险。

内容摘要

Vectara 使用 HHEM 2.1 基准测试进行的研究表明,DeepSeek 的推理模型 DeepSeek-R1 的幻觉率为 14.3%,几乎是其前身 DeepSeek-V3(3.9%)的四倍。这种“过度帮助”并编造信息的倾向,为依赖大语言模型进行自动交易和链上执行的加密 AI 代理带来了巨大的操作风险。尽管开发者正在探索缓解策略,但这些发现表明,复杂推理与事实准确性之间的权衡可能会影响 AI 驱动的金融项目的可靠性。

(来源:BeInCrypto)