Herramientas de programación con IA muestran fallos en tareas clave
Un estudio reciente de la Universidad de Waterloo concluye que las herramientas de programación basadas en inteligencia artificial fallan en aproximadamente uno de cada cuatro casos al generar salidas estructuradas, lo que plantea dudas sobre su fiabilidad en entornos reales de desarrollo de software.
La investigación, publicada el 16 de marzo y presentada en la International Conference on Learning Representations 2026, evaluó 11 modelos de lenguaje en 18 formatos estructurados y 44 tareas. Los modelos propietarios más avanzados alcanzaron cerca del 75 por ciento de precisión, mientras que las mejores alternativas de código abierto se situaron en torno al 67 por ciento.
Limitaciones en formatos estructurados
El estudio, titulado “StructEval: Benchmarking LLMs’ Capabilities to Generate Structural Outputs”, analizó la capacidad de los modelos para generar formatos clave como JSON, YAML, CSV, HTML, React y SVG, fundamentales para integrarse en sistemas de desarrollo.
Los investigadores aplicaron pruebas de validación sintáctica, coincidencia de palabras clave y evaluación visual. Los resultados muestran que los modelos responden mejor en tareas basadas en texto, como documentación o estructuras simples, pero presentan dificultades en tareas más complejas.
Los mayores errores se registraron en la generación de contenido visual, diseño web dinámico y código de diagramas. Además, las tareas que implican generar estructuras a partir de lenguaje natural resultaron más complejas que las de conversión entre formatos.
Supervisión humana sigue siendo clave
El equipo estuvo formado por Dongfu Jiang, Jialin Yang y Wenhu Chen, junto con otros colaboradores. Jiang explicó que el análisis se centró en la corrección sintáctica y en la relevancia de la respuesta.
Subrayó que los desarrolladores aún necesitan supervisar de cerca las salidas generadas por IA, especialmente en proyectos donde la precisión es crítica.
Chen destacó el enfoque colaborativo de investigación en Waterloo, donde los estudiantes participan activamente en la creación y evaluación de modelos.
Uso generalizado frente a riesgos ocultos
El informe llega en un contexto de adopción masiva de herramientas de programación con IA. Según The Pragmatic Engineer, el 95 por ciento de los desarrolladores utiliza estas herramientas al menos una vez por semana, y el 75 por ciento depende de ellas para gran parte de su trabajo.
Herramientas como GitHub Copilot, Claude Code y Cursor se han vuelto habituales. Sin embargo, el estudio advierte que los errores en salidas estructuradas pueden pasar desapercibidos y provocar fallos en sistemas complejos.
Estos problemas pueden amplificarse dentro de infraestructuras críticas, lo que refuerza la necesidad de controles humanos y procesos de validación.
El estudio ha sido publicado en Transactions on Machine Learning Research.
-
19:04
-
16:15
-
16:00
-
16:00
-
15:45
-
15:30
-
15:20
-
15:15
-
15:00
-
14:50
-
14:45
-
14:30
-
14:20
-
14:17
-
14:16
-
14:00
-
13:56
-
13:50
-
13:45
-
13:41
-
13:34
-
13:30
-
13:20
-
13:15
-
13:00
-
12:54
-
12:50
-
12:45
-
12:39
-
12:39
-
12:20
-
12:15
-
12:00
-
11:50
-
11:20
-
11:15
-
11:06
-
10:50
-
10:20
-
09:50
-
09:20
-
08:50
-
08:20
-
07:50
-
07:20
-
07:00