ByteDance Lanza Seed-OSS-36B: Un Modelo de Lenguaje Abierto Revolucionario con Contexto de 512K Tokens

Editado por: Veronika Radoslavskaya

ByteDance ha presentado Seed-OSS-36B, una familia de modelos de lenguaje grande (LLM) de código abierto que promete avances significativos en inteligencia artificial. Lanzado el 20 de agosto de 2025, este modelo destaca por su ventana de contexto nativa de 512,000 tokens y un innovador mecanismo de "presupuesto de pensamiento", posicionando a ByteDance como un actor clave en el campo de la IA.

Desarrollado por el equipo Seed de ByteDance, Seed-OSS-36B es capaz de procesar cantidades masivas de información en una sola interacción. Su ventana de contexto, que cuadruplica la de muchos modelos de código abierto contemporáneos como DeepSeek V3.1 (128K tokens), abre nuevas posibilidades para aplicaciones complejas como el análisis exhaustivo de documentos legales, la revisión de informes extensos y la comprensión profunda de bases de código intrincadas. La arquitectura del modelo se basa en un transformador causal de decodificador único e incorpora técnicas como la codificación posicional RoPE, atención GQA, normalización RMSNorm y activación SwiGLU, con 64 capas y 36 mil millones de parámetros.

ByteDance ha liberado tres variantes del modelo en Hugging Face y GitHub bajo la licencia Apache-2.0, permitiendo su uso, modificación y redistribución gratuita tanto para fines de investigación como comerciales. Las variantes disponibles son Seed-OSS-36B-Base (con datos sintéticos de instrucción para un rendimiento superior en benchmarks), Seed-OSS-36B-Base (sin datos sintéticos para una mayor pureza en la investigación) y Seed-OSS-36B-Instruct.

En términos de rendimiento, Seed-OSS-36B ha demostrado superar a modelos de escala similar de competidores como Alibaba Cloud, Google y OpenAI en varios benchmarks. Destaca su puntuación de 65.1 en MMLU-Pro (superando a Qwen2.5-32B-Base de Alibaba con 58.5), 82.1 en TriviaQA y un récord de 87.7 en el benchmark BBH para razonamiento, un área donde los LLMs con ventanas de contexto más amplias muestran mayor coherencia y relevancia.

La característica del "presupuesto de pensamiento" permite a los desarrolladores controlar la profundidad del razonamiento del modelo, ajustando el número de tokens asignados para una tarea específica. Esto ofrece una flexibilidad sin precedentes para optimizar el rendimiento y la eficiencia, permitiendo respuestas rápidas para tareas sencillas o un análisis más profundo para problemas complejos. Este enfoque en la eficiencia y el rendimiento, incluso con un tamaño de modelo de 36 mil millones de parámetros, señala un cambio en la industria de la IA hacia la innovación arquitectónica y las técnicas de entrenamiento.

El lanzamiento de Seed-OSS-36B se alinea con la estrategia de ByteDance de fomentar la innovación en IA a través de la apertura y la colaboración. Al proporcionar herramientas potentes y accesibles, la compañía busca democratizar el acceso a la tecnología avanzada de IA, impulsando la competencia y acelerando los avances en el campo. La adopción de modelos de código abierto, como lo demuestra el 51% de las empresas que reportan un ROI positivo con herramientas de IA de código abierto frente al 41% con alternativas propietarias, subraya el valor comercial de este enfoque.

Fuentes

  • News Directory 3

  • VentureBeat

  • AInvest

  • 36Kr

  • Communeify

  • Hugging Face

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.