DeepSeek V3.1 – Alarma para OpenAI y compañía: la IA de código abierto china plantea nuevos desafíos para los proveedores establecidos

Konrad Wolfenstein

Hace 10 meses

DeepSeek V3.1 – Alarma para OpenAI y compañía: la IA de código abierto china plantea nuevos desafíos para los proveedores establecidos – Imagen: Xpert.Digital

Nuevo modelo de IA de China: este modelo gratuito es 27 veces más barato y desafía directamente a ChatGPT

### Alarma para OpenAI y compañía: La nueva IA de China es igual de potente, pero baratísima. ¿Qué hay detrás? ### DeepSeek V3.1: El ataque silencioso de IA que está revolucionando el mundo tecnológico ### Olvídense de la IA cara: Por qué este modelo chino de código abierto lo está cambiando todo ### La nueva superIA de China: Cómo Pekín presiona a Occidente con una estrategia radicalmente libre ### ¿Mejor y más barata que la competencia? Lo que realmente puede hacer la nueva maravilla de IA de China ###

DeepSeek V3.1 revoluciona (una vez más) el panorama de la IA

La inteligencia artificial china se está convirtiendo en un serio desafío para los gigantes tecnológicos estadounidenses. La startup DeepSeek, con sede en Hangzhou, ha logrado un avance significativo con su último modelo, V3.1, que desafía radicalmente las suposiciones tradicionales sobre el desarrollo y la financiación de la IA. Este modelo de código abierto logra el rendimiento de los principales sistemas propietarios a una fracción de los costos de desarrollo y marca el camino hacia un nuevo futuro para la inteligencia artificial.

Relacionado con esto:

DeepSeek: La revolución de la IA de China bajo la sombra de la vigilancia – Graves acusaciones desde Washington

Innovación técnica con arquitectura híbrida

DeepSeek V3.1 se basa en una arquitectura avanzada de Mezcla de Expertos con un total de 685 mil millones de parámetros, de los cuales 37 mil millones se activan por token. Esta tecnología permite un uso de recursos significativamente más eficiente que los modelos tradicionales sin comprometer el rendimiento.

La característica destacada del nuevo modelo es su arquitectura de inferencia híbrida, que puede alternar entre un modo de pensamiento y un modo de no pensamiento. En el modo de pensamiento, el sistema desarrolla procesos de razonamiento interno más profundos y es ideal para la resolución de problemas complejos que requieren pensamiento lógico en varias etapas. Por el contrario, el modo de no pensamiento ofrece respuestas directas y concisas para tareas donde la velocidad es crucial.

Otro avance técnico es la ventana de contexto ampliada de 128 000 tokens, equivalente a aproximadamente 96 000 palabras o dos novelas de 200 páginas. Esta capacidad permite procesar documentos extremadamente largos, comprender repositorios de código completos y escenarios de diálogo de varias etapas.

El desarrollo posterior se logró mediante un enfoque de dos fases para la expansión del contexto. La fase de 32 000 tokens se multiplicó por diez, alcanzando los 630 000 millones, mientras que la fase de 128 000 tokens se multiplicó por 3,3, alcanzando los 209 000 millones. Además, el modelo utiliza el formato de datos UE8M0 FP8 para una compatibilidad óptima con las arquitecturas de hardware modernas.

Impresionantes parámetros de rendimiento y puntos de referencia

DeepSeek V3.1 logra resultados notables en pruebas estandarizadas. En el prestigioso Aider Coding Benchmark, el modelo obtuvo un 71,6 %, una puntuación que rivaliza con la de los modelos líderes de OpenAI y Anthropic. Este rendimiento es particularmente impresionante dado su coste significativamente menor.

En tareas matemáticas, DeepSeek V3.1 incluso supera a competidores consolidados. En la prueba Math-500, el modelo alcanza el 90,2 %, mientras que GPT-4o solo alcanza el 74,6 %. En la prueba MMLU-Pro, el sistema mejoró 5,3 puntos, alcanzando 81,2, y en el benchmark GPQA, la notable mejora fue de 9,3 puntos, alcanzando 68,4.

Cabe destacar la mejora en las tareas de razonamiento multietapa, donde la versión 3.1 ofrece un rendimiento un 43 % superior al de su predecesora. Las capacidades de programación del modelo le permiten generar código sin errores de hasta 700 líneas, un rendimiento que rivaliza con las costosas soluciones propietarias.

Eficiencia de costos revolucionaria

La estructura de costos de DeepSeek V3.1 revoluciona por completo las suposiciones previas sobre el desarrollo de IA. Mientras que una tarea de programación con V3.1 cuesta aproximadamente un dólar, sistemas comparables cuestan casi 70 dólares por tareas similares. Esta drástica reducción de costos hace que la tecnología avanzada de IA sea accesible para pequeñas empresas y desarrolladores.

Según la empresa, los costos de desarrollo del modelo V3 subyacente ascendieron a tan solo unos 5,6 millones de dólares, una fracción de los cientos de millones de dólares que las empresas estadounidenses invierten en proyectos comparables. Esta eficiencia se logró mediante métodos de capacitación innovadores y el uso de hardware menos potente, pero más económico.

El precio de la API de DeepSeek es significativamente inferior al de la competencia. El modelo de chat cuesta $0.07 por millón de tokens de entrada para las visitas de caché y $1.10 por millón de tokens de salida. El modelo de razonamiento cuesta $0.14 por tokens de entrada y $2.19 por tokens de salida. En comparación, OpenAI cobra entre $2 y $2.50 por millón de tokens de salida, mientras que DeepSeek cobra solo $0.014.

Importancia estratégica para la competencia global de la IA

Los éxitos de DeepSeek tienen implicaciones de gran alcance para el panorama global de la IA. La compañía demuestra que el rendimiento avanzado de la IA ya no requiere los enormes recursos y los enfoques exclusivos que han caracterizado el desarrollo de la IA en Estados Unidos hasta la fecha. Este desarrollo desafía los fundamentos de los modelos de negocio actuales.

Los líderes chinos otorgan una gran importancia estratégica a DeepSeek, como lo demuestra la reunión entre su fundador, Liang Wenfeng, y el primer ministro, Li Qiang. La compañía se considera un componente clave en la ambición de China de convertirse en líder mundial en inteligencia artificial para 2030.

La estrategia de código abierto de DeepSeek permite a otras empresas e investigadores de todo el mundo aprovechar sus avances y desarrollar sus propias innovaciones. Esto promueve el desarrollo descentralizado de la tecnología de IA y reduce la dependencia de gigantes tecnológicos individuales.

Antecedentes y estructura de la empresa

DeepSeek fue fundada en Hangzhou en 2023 por Liang Wenfeng y está financiada íntegramente por el fondo de cobertura chino High-Flyer. Wenfeng, nacido en 1985, hijo de un maestro de primaria, desarrolló un interés por la aplicación de la IA en el sector financiero mientras estudiaba en la Universidad de Zhejiang.

En 2016, Wenfeng fundó High-Flyer, un fondo de cobertura que utiliza aprendizaje automático para estrategias de trading cuantitativo. Para 2021, la compañía había realizado la transición completa a enfoques de trading basados en IA y se había convertido en uno de los principales fondos cuantitativos de China, con más de 100 000 millones de RMB en activos bajo gestión.

Incluso antes de fundar DeepSeek, Wenfeng comenzó a comprar miles de GPU de Nvidia, lo que inicialmente se ridiculizó como el pasatiempo excéntrico de un multimillonario. Esta inversión visionaria en hardware permitió posteriormente a la empresa desarrollar modelos de IA competitivos a pesar de las restricciones a la exportación de Estados Unidos.

Seguridad de datos UE/DE | Integración de una plataforma de IA independiente y de múltiples fuentes de datos para todas las necesidades empresariales

Plataformas de IA independientes como alternativa estratégica para las empresas europeas - Imagen: Xpert.Digital

AI Game Changer: La plataforma de IA más flexible: soluciones a medida que reducen costes, mejoran sus decisiones y aumentan la eficiencia

Plataforma de IA independiente: integra todas las fuentes de datos relevantes de la empresa

Integración rápida de IA: soluciones de IA personalizadas para empresas en horas o días, en lugar de meses
Infraestructura flexible: basada en la nube o alojada en su propio centro de datos (Alemania, Europa, libre elección de ubicación)

Máxima seguridad de los datos: su uso en despachos de abogados es una prueba irrefutable
Implementación en una amplia variedad de fuentes de datos empresariales
Elección de modelos de IA propios o diferentes (DE, UE, EE. UU., CN)

Más información aquí:

Plataformas de IA independientes vs. hiperescaladores: ¿cuál es la solución más adecuada?

Chips, algoritmos, innovación: el camino de DeepSeek hacia la cima del mundo

El impacto de los controles de exportación de EE. UU

El éxito de DeepSeek es particularmente notable dadas las restricciones impuestas por Estados Unidos a la exportación de chips de IA de alto rendimiento a China. Las sanciones pretendían limitar la capacidad de China para desarrollar sistemas avanzados de IA, pero DeepSeek demuestra que los enfoques de software innovadores y el uso eficiente de los recursos pueden superar estas limitaciones.

La empresa utilizó chips H800 menos potentes, aprobados para su exportación a China, pero aun así logró un rendimiento óptimo gracias a algoritmos optimizados y métodos de entrenamiento eficientes. Este enfoque cuestiona la eficacia de las sanciones tecnológicas y muestra alternativas para el desarrollo de la IA.

Los expertos consideran el avance de DeepSeek como un punto de inflexión que podría cambiar radicalmente las estimaciones actuales sobre las capacidades y el potencial de la IA de China. Este desarrollo sugiere que las innovaciones en la optimización del software podrían ser más importantes que la mera superioridad del hardware.

Relacionado con esto:

El avance de China en inteligencia artificial: el caso DeepSeek y el uso estratégico de los datos

El código abierto como ventaja competitiva

La estrategia de código abierto de DeepSeek ofrece varias ventajas estratégicas. Desarrolladores y empresas de todo el mundo pueden ejecutar, personalizar e integrar el modelo localmente en sus propios proyectos sin depender de servicios en la nube. Esto es especialmente importante para aplicaciones sensibles a los datos y empresas que desean mantener el control sobre su información.

El desarrollo comunitario permite una corrección de errores más rápida, mejoras continuas y una amplia base de colaboradores. Al mismo tiempo, el enfoque de código abierto democratiza el acceso a tecnología avanzada de IA y fomenta la innovación, incluso en empresas más pequeñas y países en desarrollo.

A diferencia de los modelos propietarios, accesibles únicamente mediante API o plataformas en la nube, la IA de código abierto ofrece disponibilidad a largo plazo e independencia de proveedores individuales. Los usuarios no tienen que preocuparse por aumentos de precios, restricciones de acceso ni interrupciones del servicio.

Avances e innovaciones tecnológicas

DeepSeek V3.1 integra diversas tecnologías innovadoras que garantizan una eficiencia excepcional. La arquitectura de Atención Latente multicabezal comprime las cachés clave-valor mediante vectores latentes, lo que reduce el consumo de memoria y la sobrecarga computacional durante la inferencia.

El método de predicción multitoken permite que cada token prediga múltiples tokens futuros simultáneamente. Esto supera un importante obstáculo de los modelos autorregresivos tradicionales y mejora tanto la precisión como la velocidad de inferencia.

El entrenamiento de 8 bits reduce significativamente los requisitos de memoria y los costos sin comprometer la precisión. Esta técnica se consideró problemática durante mucho tiempo, pero DeepSeek demuestra que, cuando se implementa correctamente, produce resultados comparables a los de los métodos tradicionales.

Reacciones e impactos del mercado

El anuncio de DeepSeek V3.1 desencadenó una fuerte reacción en los mercados financieros. Nvidia perdió más de 600 000 millones de dólares en capitalización bursátil, la mayor pérdida individual en la historia del mercado bursátil estadounidense. Otras empresas de hardware de IA también experimentaron importantes caídas en el precio de sus acciones.

Inversores y analistas están reconsiderando sus evaluaciones de la industria de la IA. La suposición de que las inversiones masivas en hardware y el desarrollo propio son requisitos necesarios para una IA de vanguardia se ve cuestionada por el éxito de DeepSeek.

Las empresas occidentales ya están probando los modelos DeepSeek en sus flujos de trabajo. Un ejemplo destacado es Merck, cuyo director de datos demostró públicamente la integración de DeepSeek como una de las diversas opciones de IA en los procesos internos.

Desarrollos futuros y perspectivas

DeepSeek posiciona la versión 3.1 como el primer paso hacia la era de los agentes en la IA. El modelo se ha optimizado específicamente para un mejor uso de herramientas y tareas de agente de varios pasos. Las optimizaciones posteriores al entrenamiento han resultado en mejoras significativas en el uso de herramientas externas y tareas de búsqueda complejas.

La velocidad de desarrollo de DeepSeek sugiere que un modelo V4 podría lanzarse antes de la próxima versión R2 de OpenAI. Esta dinámica podría acelerar los ciclos de desarrollo tradicionales de la industria de la IA y establecer nuevos estándares para la frecuencia de actualización.

Los éxitos de DeepSeek ya inspiran a otras empresas chinas de IA e investigadores de todo el mundo. Los modelos de código abierto se consideran cada vez más una alternativa válida a las soluciones propietarias, lo que podría conducir a un panorama de IA más diversificado y competitivo.

Desafíos y críticas

A pesar de sus impresionantes logros, DeepSeek también ha recibido críticas. Al igual que otros modelos de IA chinos, DeepSeek está sujeto a ciertas medidas de censura, que pueden aplicarse a temas políticamente sensibles. Sin embargo, estas restricciones a menudo pueden sortearse mediante ajustes técnicos.

La transparencia respecto a los datos y métodos de entrenamiento es limitada. Se especula que el entrenamiento se basa parcialmente en las respuestas de ChatGPT, ya que DeepSeek en ocasiones afirma ser ChatGPT. Estas ambigüedades plantean dudas sobre la originalidad y posibles problemas de derechos de autor.

El rápido desarrollo y el bajo precio de los modelos de búsqueda profunda también plantean dudas sobre la sostenibilidad del modelo de negocio. Los críticos cuestionan si los precios extremadamente bajos pueden mantenerse a largo plazo o si forman parte de una estrategia de penetración en el mercado.

Implicaciones globales para la industria de la IA

DeepSeek V3.1 marca un punto de inflexión en el desarrollo global de la IA. El modelo demuestra que los enfoques de software innovadores y el uso eficiente de los recursos pueden ser más importantes que las grandes inversiones de capital y el acceso al hardware más avanzado. Este hallazgo influirá en las estrategias de las principales empresas de IA.

La democratización de la tecnología avanzada de IA mediante modelos de código abierto podría conducir a una distribución más equitativa de las capacidades de IA a nivel mundial. Países y empresas anteriormente excluidos por altos costos o barreras técnicas obtendrían acceso a tecnología de vanguardia.

Al mismo tiempo, el éxito de DeepSeek pone en tela de juicio la eficacia de las sanciones tecnológicas y los controles de exportación. Su capacidad para lograr un rendimiento de primera clase con recursos limitados podría animar a otros países a adoptar enfoques similares y desarrollar sus propios ecosistemas de IA.

DeepSeek V3.1 representa más que un simple modelo de IA: simboliza un cambio fundamental en la forma en que se desarrolla, financia e implementa la IA. La combinación de innovación tecnológica, desarrollo rentable y disponibilidad de código abierto crea nuevas oportunidades y plantea importantes desafíos a los líderes consolidados del mercado. Los desarrollos futuros mostrarán si este enfoque definirá el futuro de la industria de la IA.

Estamos aquí para usted - Consultoría - Planificación - Implementación - Gestión de proyectos

☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación

☑️ Creación o realineamiento de la estrategia de IA

☑️ Desarrollo de negocios pioneros

Konrad Wolfenstein

Estaré encantado de servir como su asesor personal.

Puedes contactarme rellenando el formulario de contacto que aparece a continuación o simplemente llamándome al +49 7348 4088 965 .

Espero con ilusión nuestro proyecto conjunto.

Escríbeme

➡️ Solicitud de videollamada 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital es un centro industrial centrado en la digitalización, la ingeniería mecánica, la logística/intralogística y la energía fotovoltaica.

Con nuestra solución de Desarrollo de Negocio 360° apoyamos a empresas de renombre desde el nuevo negocio hasta la posventa.

Inteligencia de mercado, smarketing, automatización de marketing, desarrollo de contenidos, PR, campañas de mailing, redes sociales personalizadas y lead nurturing son parte de nuestras herramientas digitales.

Puede encontrar más información en: www.xpert.digital - www.xpert.solar - www.xpert.plus

Mantenerse en contacto