Qwen-3-Max tiene 1 billón parámetros
Alibaba ha presentado Qwen-3-Max, su modelo de lenguaje más grande hasta la fecha, con más de 1 billón de parámetros. Este modelo forma parte de la serie Qwen3, lanzada en mayo de este año. Los parámetros son variables internas que un modelo aprende durante su entrenamiento, permitiéndole interpretar peticiones y generar respuestas. En teoría, más parámetros significan mejores capacidades, pero también requieren más potencia computacional. Qwen-3-Max destaca en comprensión del lenguaje, razonamiento y generación de texto, superando a competidores como Claude Opus4, DeepSeek V3.1 y Kimi K2 en benchmarks. Sin embargo, modelos de razonamiento como Gemini2.5 Pro y GPT-5 obtienen mejores puntuaciones en matemáticas y código. Qwen3-Max-preview ya está disponible de forma gratuita. La calidad de los datos de entrenamiento es crucial; un modelo con datos redundantes o sesgados aprenderá y reproducirá esos errores. En 2022, DeepMind de Google creó Chinchilla con 70.000 millones de parámetros, pero cuatro veces más datos, superando a Gopher con cuatro veces más parámetros. La arquitectura del modelo también es decisiva; una arquitectura como Mixture of Experts permite al modelo elegir un experto para cada consulta, siendo más rápido y barato.
Comentarios