DeepSeek-R1 alucina 4 veces más que la V3, lo que enciende las alarmas para los tokens de agentes de IA cripto
Resumen
Un estudio realizado por Vectara utilizando el marco de evaluación HHEM 2.1 indica que el modelo de razonamiento DeepSeek-R1 tiene una tasa de alucinación del 14.3%, casi cuatro veces mayor que la del 3.9% de DeepSeek-V3. Esta tendencia a proporcionar información falsa o no verificada plantea riesgos operativos significativos para los agentes de IA en el sector cripto, los cuales dependen de modelos de lenguaje para realizar operaciones comerciales y ejecución en la cadena. Aunque se buscan soluciones, la brecha en la precisión pone en duda la fiabilidad de los proyectos financieros basados en inteligencia artificial.
(Fuente:BeInCrypto)