todayonchain.com

DeepSeek-R1 alucina 4 veces más que la V3, lo que enciende las alarmas para los tokens de agentes de IA cripto

BeInCrypto
Las pruebas de Vectara revelan que DeepSeek-R1 alucina significativamente más que su predecesor, planteando riesgos para los agentes de IA autónomos en cripto.

Resumen

Un estudio realizado por Vectara utilizando el marco de evaluación HHEM 2.1 indica que el modelo de razonamiento DeepSeek-R1 tiene una tasa de alucinación del 14.3%, casi cuatro veces mayor que la del 3.9% de DeepSeek-V3. Esta tendencia a proporcionar información falsa o no verificada plantea riesgos operativos significativos para los agentes de IA en el sector cripto, los cuales dependen de modelos de lenguaje para realizar operaciones comerciales y ejecución en la cadena. Aunque se buscan soluciones, la brecha en la precisión pone en duda la fiabilidad de los proyectos financieros basados en inteligencia artificial.

(Fuente:BeInCrypto)