Investigadores logran comprometer agentes de ia mediante ataques en github

Jueves 16 Abril 2026 - 09:20

Investigadores de seguridad demostraron que es posible manipular agentes de inteligencia artificial de Anthropic, Google y Microsoft utilizando inyecciones de prompt ocultas en plataformas de desarrollo. El ataque permitió obtener claves API, tokens y otros datos sensibles sin acceso directo a los sistemas.

El estudio fue realizado en Johns Hopkins University. El investigador Aonan Guan identificó que los agentes que revisan código en GitHub procesan información como títulos de pull requests y comentarios como si fueran entradas fiables. Esta confianza puede ser explotada para introducir instrucciones maliciosas que alteran el comportamiento del sistema.

En sus pruebas, Guan logró manipular herramientas automatizadas para que revelaran credenciales en sus respuestas. El método, denominado “comment and control”, permite ejecutar todo el ataque dentro de la propia plataforma sin necesidad de infraestructura externa.

La técnica también funcionó contra otros sistemas. El agente Gemini de Google fue engañado para filtrar su clave API mediante contenido falso. El agente Copilot de Microsoft fue vulnerado usando comentarios HTML ocultos en Markdown, invisibles para los usuarios pero interpretados por la inteligencia artificial.

Las empresas afectadas respondieron con recompensas económicas, pero sin publicar avisos de seguridad formales ni asignar identificadores CVE. Esta falta de transparencia implica que muchos usuarios pueden seguir expuestos sin saberlo.

El problema se extiende a la arquitectura de los sistemas. Un análisis independiente de OX Security detectó una vulnerabilidad crítica en el protocolo MCP de Anthropic, capaz de permitir ejecución remota de comandos. Estudios previos de Aikido Security ya habían advertido que los agentes de IA en entornos de integración continua pueden ser comprometidos mediante este tipo de ataques.