Subscribe to Bankless or sign in
OpenAI y
Paradigm han presentado hoy EVMbench, una evaluación comparativa que mide cómo los agentes de IA detectan, corrigen y explotan vulnerabilidades de alta gravedad en los contratos inteligentes.
¿Qué hay de nuevo?
- Nuevo punto de referencia: EVMbench se basa en 120 vulnerabilidades seleccionadas de 40 auditorías (la mayoría procedentes de concursos de auditoría de código abierto) e incluye varios escenarios de vulnerabilidad inspirados en el proceso de auditoría de seguridad de la cadena de bloques Tempo, respaldada por Paradigm.
- Puntuación numérica: EVMbench asigna a los agentes una puntuación de rendimiento basada en porcentajes que pretende resumir su capacidad para auditar contratos inteligentes, corregir vulnerabilidades sin afectar a la funcionalidad y explotar contratos vulnerables.
- Limitaciones: Aunque las vulnerabilidades probadas por EVMbench son realistas y de alta gravedad, el desarrollador del punto de referencia advierte que el texto «no representa toda la dificultad de la seguridad de los contratos inteligentes en el mundo real».
Presentamos EVMbench, un nuevo benchmark que mide la capacidad de los agentes de IA para detectar, explotar y corregir vulnerabilidades de alta gravedad en los contratos inteligentes. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 18 de febrero de 2026