Qwen3.6 Plus lidera benchmark de IA pero surgen dudas sobre clasificación

Martes 14 Abril 2026 - 16:40

Los modelos de Alibaba han logrado resultados destacados en el benchmark MMLU-Pro, con Qwen3.6 Plus situándose en la primera posición en al menos una clasificación importante. Sin embargo, evaluaciones independientes muestran un panorama más disputado sobre cuál sistema domina realmente la comprensión del lenguaje.

Según LLM Stats, Qwen3.6 Plus obtuvo un resultado auto reportado del 88,5 por ciento, superando a modelos como MiniMax M2.1 y versiones anteriores de Qwen. El modelo Qwen3.5, publicado este año, alcanzó un 87,8 por ciento según su ficha en Hugging Face. Estos resultados colocan a la familia Qwen entre los sistemas más avanzados disponibles.

No obstante, rankings independientes sitúan a otros modelos por delante. Google registró cerca de 89,8 por ciento con Gemini 3 Pro Preview, mientras que Anthropic alcanzó 89,5 por ciento con Claude Opus 4.5. Algunas evaluaciones elevan a Gemini 3.1 Pro Preview hasta aproximadamente el 91 por ciento. Las diferencias responden a variaciones en los métodos de prueba y en la forma de diseñar los prompts.

El benchmark MMLU-Pro fue creado para exigir más a los modelos, ampliando el número de respuestas posibles y aumentando la complejidad de las preguntas. Aun así, los resultados muestran que los sistemas líderes están separados por márgenes muy reducidos, lo que limita la capacidad del test para establecer diferencias claras.

El desempeño de Qwen refleja el avance de los modelos chinos de código abierto, que han reducido la distancia con los sistemas propietarios occidentales. Arquitecturas como mixture-of-experts han permitido competir en pruebas exigentes como GPQA Diamond y AIME 2025. Qwen3.6 Plus amplía estas capacidades con contextos más largos y funciones multimodales.

El debate sobre los rankings revela un problema estructural en el sector. Los benchmarks siguen siendo una herramienta central de promoción, pese a las dudas sobre su utilidad práctica. Con muchos modelos alcanzando puntuaciones similares, la industria podría necesitar nuevos estándares para medir el progreso real de la inteligencia artificial.