Selección de voz 📢


Deepseek v3: modelo AI mejorado con un rendimiento impresionante de IA excede los mejores modelos en puntos de referencia

Publicado el 26 de marzo de 2025 / Actualización de: 26 de marzo de 2025 - Autor: Konrad Wolfenstein

Deepseek v3: modelo AI mejorado con un rendimiento impresionante de IA excede los mejores modelos en puntos de referencia

Deepseek v3: modelo AI mejorado con un rendimiento impresionante de IA excede los mejores modelos en puntos de referencia

Deepseek v3 mejora el razonamiento y la programación

El futuro del código abierto KI: Deepseek publica la actualización de V3

El 25 de marzo de 2025, Deepseek publicó una actualización importante de su modelo de idioma V3 llamado Deepseek-V3-0324. Esta nueva versión muestra mejoras significativas en áreas como el razonamiento, la programación y el desarrollo frontend. Con impresionantes resultados de referencia y la posibilidad de ejecutar un potente hardware del consumidor, Deepseek-V3-0324 se posiciona como un modelo de IA de código abierto líder que desafía las soluciones propietarias.

Adecuado para:

Fundamentos tecnológicos y arquitectura

Mezcla de expertos como tecnología clave

Deepseek V3-0324 se basa en una innovadora arquitectura de la mezcla de expertos (MOE) que la distingue de muchos otros modelos de IA. Esta arquitectura permite que el sistema no active todas las partes del modelo para cada tarea, sino solo los componentes específicos que se requieren para la solicitud respectiva. Funciona como un equipo de especialistas, en el que solo el experto adecuado se usa para resolver un problema.

El modelo actual tiene un total de 685 mil millones de parámetros, de los cuales solo alrededor de 37 mil millones se activan para cada tarea. Esta activación selectiva permite un procesamiento significativamente más eficiente y reduce significativamente los requisitos de recursos.

Técnicas innovadoras para un mejor rendimiento

Deepseek-v3-0324 presenta dos innovaciones técnicas centrales que aumentan su rendimiento:

  • Atención latente de múltiples cabeza (MLA): esta tecnología comprime el caché del valor clave en un vector latente, que optimiza el procesamiento de textos más largos y reduce significativamente el requisito de memoria.
  • Predicción de múltiples token (MTP): habilita la generación simultánea de varios tokens, lo que aumenta la velocidad de salida hasta en un 80 por ciento.
  • Además, Deepseek utiliza aritmética de precisión mixta V3, en la que se llevan a cabo lubricantes combaritméticos con números de diferentes longitudes y precisión en la misma operación. La precisión reducida gana tiempo sin afectar significativamente la calidad de los resultados.

Mejoras de rendimiento y resultados de referencia

Progreso significativo en diferentes áreas

Deepseek-v3-0324 muestra mejoras notables en comparación con su predecesor en varias áreas clave:

  • Capacidades de razonamiento: los resultados de referencia muestran aumentos significativos, especialmente para tareas complejas:
    • MMLU-Pro: de 75.9 a 81.2 (+5.3 puntos)
    • GPQA: de 59.1 a 68.4 (+9.3 puntos)
    • AIME (Examen de matemáticas de American Invitational): de 39.6 a 59.4 (+19.8 puntos)
    • LivecodeBech: de 39.2 a 49.2 (+10.0 puntos)
  • Desarrollo de frontend: habilidades mejoradas para crear códigos ejecutables y sitios web y frontends de juegos estéticamente atractivos.
  • Habilidades del idioma chino: habilidades de escritura mejoradas con un mejor estilo y calidad en textos de formato medio a largo, calidad de traducción optimizada y letra.

Posicionamiento en la competencia de IA

Deepseek-V3-0324 es ahora el modelo de no lectura mejor calificado en el índice de inteligencia del análisis artificial. Supera todos los modelos no lectores patentados, incluidos Gemini 2.0 Pro, Claude 3.7 Sonnet y Llama 3.3 70b. En el índice de inteligencia, se ubica directamente detrás del propio modelo R1 de Deepseek y otros modelos de razonamiento de OpenAai, Anthropic y Alibaba.

En pruebas como Drop, Deepseek logró un impresionante 91.6%, mientras que GPT-4O alcanzó el 83.7%y Claude 3.5 88.3%. Estos resultados subrayan la competitividad del modelo en comparación con las principales soluciones patentadas.

Eficiencia y accesibilidad

Optimización de recursos y requisitos de hardware

Una de las propiedades más notables de Deepseek-V3-0324 es su eficiencia. A través de la arquitectura MOE y otras optimizaciones, el modelo se puede operar en poderosos dispositivos de consumo como el Mac Studio con M3 Ultra Chip, donde se logran velocidades de más de 20 tokens por segundo.

La versión de 4 bits del modelo solo necesita aproximadamente 352 GB de espacio de almacenamiento y consume menos de 200 vatios durante la inferencia significativamente menos que los sistemas de IA convencionales, que a menudo necesitan varios kilovatios. Esta eficiencia podría redefinir los requisitos para la infraestructura de IA.

Licencias y disponibilidad abierta

A diferencia de los competidores occidentales como OpenAai o Anthrope, que solo ofrecen sus modelos a través de API pagas, Deepseek-V3-0324 se publicó bajo la co-licencia. Esto permite un uso gratuito e insertos comerciales sin restricciones.

El modelo está disponible en varias plataformas:

  • A través de la aplicación Deepseek
  • En el sitio web oficial
  • A través de la interfaz de programación (API)
  • Como instalación en sus propias computadoras
  • Sobre la nube de Microsoft Azure

Adecuado para:

Historia y visión corporativa

Del mundo financiero a la investigación de IA

Deepseek fue fundada en abril de 2023 por Liang Wenfeng, quien anteriormente fundó Heggink Heg-Flyer en 2015. El fondo de cobertura se había especializado en estrategias comerciales matemáticas y respaldadas por IA, que puso la piedra de la Fundación para el desarrollo de IA más tarde.

La compañía fue fundada en el contexto de la prohibición de exportación impuesta por los Estados Unidos de chips de alta tecnología a China. Deepseek persigue el objetivo estratégico de proporcionar una alternativa poderosa y competitiva a las soluciones de IA occidentales y al mismo tiempo fortalecer la soberanía tecnológica de China.

Filosofía de apertura

Según Liang Wenfeng, los resultados y los modelos de investigación de la compañía siempre se publican bajo licencias de código abierto, que forma parte de la cultura corporativa. Esta apertura contrasta con numerosos sistemas de IA patentados que se caracterizan por licencias restrictivas.

"Creemos firmemente que el 99 por ciento del éxito del trabajo duro y solo el uno por ciento es el resultado del talento", la compañía describe su filosofía en su sitio web.

Perspectiva y desarrollos futuros

Bases para nuevos modelos

Deepseek-V3-0324 podría servir como base para un nuevo modelo de razonamiento llamado R2, cuya publicación se espera en las próximas semanas. El modelo R1 actual ya había atraído la atención a través de sus habilidades de resolución de problemas.

El desarrollo continuo continuo de los modelos Deepseek indica una hoja de ruta dinámica, que también puede incluir soporte multimodal y otras funciones orientadas al futuro en el ecosistema de Deepseek.

Democratización de la IA: cómo Deepseek-V3-0324 establece nuevos estándares

Deepseek-V3-0324 representa un progreso significativo en el desarrollo de grandes modelos de voz. A través de su arquitectura innovadora, rendimiento impresionante y licencias abiertas, desafía los modelos patentados establecidos y podrían impulsar la democratización de las tecnologías de IA.

La combinación de innovación tecnológica, eficiencia y accesibilidad hace que Deepseek-V3-0324 sea un hito importante en el panorama de IA. Con su capacidad para ejecutar el hardware del consumidor y sus habilidades mejoradas en áreas como razonamiento, programación y desarrollo frontend, Deepseek se posiciona como un competidor serio para las principales compañías de inteligencia artificial como OpenAai, Google y Anthrope.

Adecuado para:

 

Su socio global de marketing y desarrollo empresarial

☑️ Nuestro idioma comercial es inglés o alemán.

☑️ NUEVO: ¡Correspondencia en tu idioma nacional!

 

Pionero digital - Konrad Wolfenstein

Konrad Wolfenstein

Estaré encantado de servirle a usted y a mi equipo como asesor personal.

Puedes ponerte en contacto conmigo rellenando el formulario de contacto o simplemente llámame al +49 89 89 674 804 (Múnich) . Mi dirección de correo electrónico es: wolfenstein xpert.digital

Estoy deseando que llegue nuestro proyecto conjunto.

 

 

☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación.

☑️ Creación o realineamiento de la estrategia digital y digitalización

☑️ Ampliación y optimización de procesos de ventas internacionales

☑️ Plataformas comerciales B2B globales y digitales

☑️ Pionero en desarrollo empresarial / marketing / relaciones públicas / ferias comerciales


⭐️ Blog de inteligencia artificial (AI) -ai, punto de acceso y centro de contenido ⭐️ Inteligencia digital ⭐️ xpaper