Diffusion de Google Gemini: la révolution inaperçue dans la génération de texte
Version préliminaire d'Xpert
Sélection de voix 📢
Publié le: 30 mai 2025 / mise à jour de: 30 mai 2025 - Auteur: Konrad Wolfenstein
La prochaine étape de l'IA: ce qui rend la diffusion de Google Gemini unique
Diffusion de Google Gemini: la révolution inaperçue dans la génération de texte
Le monde de l'intelligence artificielle est en mouvement constant. De nouvelles percées et modèles sont présentés presque tous les jours qui remettent en question notre imagination. Mais au milieu du battage médiatique sur des modèles vocaux impressionnants tels que GPT-4O, Claude 3 ou Gemini 2.5 Pro de Google, il y avait récemment une annonce qui était étonnamment peu d'attention, bien qu'elle ait le potentiel de changer notre façon de penser la génération de texte de l'IA: la diffusion de Google Gemini. Ce modèle innovant applique une méthode à la génération de texte, que nous avons jusqu'à présent principalement connue de l'acquisition de l'image - la diffusion. Et c'est exactement ce qui le rend si fascinant et potentiellement révolutionnaire.
L'origine de la diffusion: du bruit numérique à l'éclat visuel
Afin de vraiment comprendre la diffusion des Gémeaux, nous devons d'abord jeter un œil à la technologie à partir de laquelle il tire son nom et sa fonctionnalité: les modèles de diffusion dans la génération d'images. Des modèles tels que la diffusion stable, le milieu ou le flux ont étonné l'industrie créative et le grand public ces dernières années. Vous pouvez créer des images à couper le souffle et détaillées à partir de descriptions de texte simples (si appelés «invite»).
La «diffusion» en son nom fait référence à un très complexe, mais métaphoriquement facile à saisir. Vous pouvez l'imaginer comme un sculpteur qui, dans ce cas, constitue une sculpture détaillée d'un bloc brut et informel - dans ce cas un bruit numérique. Le processus commence par un bruit complètement aléatoire, une sorte de «brouillard visuel» ou de «neige numérique» qui ne contient aucune structure reconnaissable. Ce bruit est généré à partir d'une «graine» si appelée (un nombre aléatoire qui détermine la distribution de ruée de sortie).
Dans d'innombrables petites étapes, ce que l'on appelle les «itérations», le modèle d'IA commence alors à «bruit» ce bruit. Il identifie les modèles qui pourraient cristalliser hors du bruit et les convertir progressivement en structures toujours plus claires. Premièrement, seuls les contours flous et les formes rugueux apparaissent qui se distinguent à peine de l'arrière-plan de l'arrière-plan. Mais à toutes les étapes supplémentaires, les détails deviennent plus précis, les couleurs plus claires et les lignes sont plus nettes jusqu'à ce qu'une image cohérente et souvent étonnamment réaliste soit créée qui correspond exactement à la description du texte d'origine. Ce processus incomplet itératif est le cœur des modèles de diffusion et la clé de leur capacité à créer des mondes visuels complexes à partir de rien.
Diffusion des Gémeaux: la révolution de la génération de texte par non
La sensation réelle de la diffusion des Gémeaux est qu'elle n'utilise pas ce principe de diffusion - le bruit du bruit pour générer du contenu - pas pour les images, mais sur le texte. Au lieu de pixels ou de valeurs de couleur, Gemini travaille à la diffusion avec des jetons. Les jeton sont les éléments de base des modèles vocaux: ils peuvent être des mots individuels, des pièces de phrase, des fragments de code de programmation ou même des marques de ponctuation.
Le processus commence également ici par un «wust» chaotique de jetons distribués au hasard, un «son de texte» qui est complètement incompréhensible. C'est comme une radio qui ne reflète que le bruit statique ou une salade de lettres illisible. Étape par étape, la diffusion des Gémeaux commence alors à "bruit" cette confusion de jeton. Sur la base des modèles et des relations que le modèle a appris au cours de sa formation sur la quantité gigantesque de données de texte, il reconnaît les relations statistiques et forme les jetons aléatoires en mots, des phrases lisibles et enfin un texte cohérent ou un code de programmation fonctionnel.
Cette approche est fondamentalement différente de la fonctionnalité des modèles vocaux les plus établis que nous connaissons aujourd'hui des modèles tels que GPT-4, la série Gemini (à l'exception de la diffusion des Gémeaux elle-même), Llama ou Deepseek. Ceux-ci fonctionnent auto-compressifs. Cela signifie que vous générez strictement le texte l'une après l'autre, mot pour mot, jeton pour les jetons. Sur la base des mots déjà générés, chaque nouveau mot est sélectionné comme continuation la plus statistiquement la plus probable. Vous pouvez imaginer cela comme écrire une phrase de gauche à droite, par lequel vous vous référez toujours au dernier mot écrit.
Les limites des modèles autorgressifs: un regard en arrière
La méthode auto-compressive a sans aucun doute donné des résultats impressionnants et a conduit considérablement le battage médiatique actuel de l'IA. Mais elle apporte également des inconvénients inhérents:
1. Intensité de calcul et lenteur
Étant donné que chaque jeton doit être calculé séquentiellement et que les modèles deviennent plus gros, les générations auto-compressives sont souvent très à forte compensation et, en particulier pour les textes longs, sont relativement lents. L'ensemble du contexte doit être réévalué à chaque étape.
2.
Les pièces de texte générées une fois ne peuvent pas être corrigées rétrospectivement par un modèle compressé par l'auteur. Si le modèle détermine au cours de la génération qu'une partie antérieure du texte était défavorable ou erronée, elle ne peut plus la modifier directement. Il est, pour ainsi dire, «aveugle» pour l'avenir de son propre texte. Cela conduit souvent à des incohérences logiques ou à des pauses stylistiques, en particulier pour des textes plus longs et plus complexes. Certains modèles plus récents essaient de résoudre ce problème avec une méthode dite de «raisonnement», telles que celle-ci se trouve dans Deepseek R1 ou GPT-4O. Le modèle «pense» en plusieurs étapes sur un seul et recueille des conclusions avant de générer la réponse finale. Cependant, cela nécessite encore plus de puissance et de temps de calcul, car le modèle génère et rejette à plusieurs reprises le contenu.
3. Défis de traitement
Si un modèle compressif de l'auteur doit modifier un texte déjà généré, il doit souvent générer l'intégralité du texte à partir de zéro, même si seul un petit changement est à effectuer. Ceci est inefficace et qui prend du temps.
Les forces de la diffusion des Gémeaux: vitesse, flexibilité et précision
La méthode de diffusion telle qu'elle utilise la diffusion des Gémeaux est une réponse à ces défis à bien des égards. Il est holistique et itératif, ce qui signifie que le modèle est en même temps dans tout le contenu de sa sortie à chaque étape individuelle.
1. Vitesse impressionnante
C'est l'un des avantages les plus frappants. Alors que GPT-4O génère environ 50 à 100 jetons par seconde, Claude 3 Sonnet autour de 77 et Gemini 2.0 Flash jusqu'à 245 jetons, la diffusion Gemini atteint des vitesses de 500 à 1 000 jetons par seconde. Selon des rapports d'utilisateurs sur des plates-formes telles que X (anciennement Twitter) et Reddit, le modèle peut même générer jusqu'à 3 000 jetons par seconde dans des conditions optimales. À titre de comparaison: 1 000 jetons correspondent à environ 650 à 750 mots, ce qui signifie que la diffusion des Gémeaux en une seule seconde peut créer un demi à trois quarts d'un texte DIN A4. Cette vitesse est particulièrement impressionnante lors de la génération de code de programmation, où le modèle peut entièrement jouer son efficacité.
2. Correction holistique et flexible
Étant donné que le modèle est incroyable en même temps, il réagit à chaque jeton qui se forme du bruit latent quelque part dans sa fenêtre de sortie. Un mot formant à la fin du texte peut influencer ce qui est spécifié à l'étape suivante au début ou au milieu. Si le modèle découvre une erreur, une inexactitude ou un flou pendant le processus de génération, il peut être corrigé et optimisé, peu importe où ils apparaissent dans le texte. Il s'agit d'un avantage décisif par rapport aux modèles compressés par l'auteur qui ont un «angle mort» pour les erreurs futures.
3. Traitement ciblé (texting de texte)
Semblable aux modèles de diffusion d'images, le soi-disant «entrée» fonctionne (marquez une zone dans l'image et laissez-la se régénérer pour ajouter ou supprimer des objets), la diffusion des Gémeaux peut également fonctionner très spécifiquement. Il n'a pas à reconstruire l'intégralité du texte du début à la fin. Au lieu de cela, il peut facilement «être désolé» puis «bruit» à nouveau, puis «bruit». Cela permet d'adapter, de traduire ou d'optimiser des passages ou des paragraphes sélectionnés dans votre tonalité ou votre style sans affecter le reste du texte. Dans d'autres modèles de voix, il s'agit souvent d'un défi ou prend un temps disproportionné. Cela ouvre de nouvelles opportunités pour un traitement et une optimisation efficaces de texte.
4. Sortie de la parole naturelle
Bien que la génération de texte classique puisse être un peu plus lente qu'avec le code, certains utilisateurs rapportent que la diffusion des Gémeaux crée des textes qui semblent plus naturels et humains que ceux d'autres modèles de langage majeurs. Cela pourrait être dû à la manière holistique de travail, ce qui permet au modèle de mieux maintenir la cohérence globale et la cohérence stylistique.
🎯🎯🎯 Bénéficiez de la quintuple expertise étendue de Xpert.Digital dans une offre de services complète | R&D, XR, RP et SEM
Machine de rendu 3D AI & XR : une expertise quintuplée de Xpert.Digital dans un ensemble complet de services, R&D XR, PR & SEM - Image : Xpert.Digital
Xpert.Digital possède une connaissance approfondie de diverses industries. Cela nous permet de développer des stratégies sur mesure, adaptées précisément aux exigences et aux défis de votre segment de marché spécifique. En analysant continuellement les tendances du marché et en suivant les évolutions du secteur, nous pouvons agir avec clairvoyance et proposer des solutions innovantes. En combinant expérience et connaissances, nous générons de la valeur ajoutée et donnons à nos clients un avantage concurrentiel décisif.
En savoir plus ici :
De Gémeaux à Dream 7b: Future of IA Text Technology
Défis et questions ouvertes de diffusion de texte
Malgré son potentiel prometteur, la méthode de diffusion pour la génération de texte est encore jeune et non sans ses propres défis:
1. Dépendance du nombre d'étapes
La qualité de la sortie dépend en grande partie du nombre d'étapes de bruit que le modèle réalise. Avec les modèles d'image, les utilisateurs peuvent souvent définir ces étapes manuellement. Cela est également possible pour les modèles vocaux basés sur des modèles vocaux, idéalement, les systèmes d'IA devraient les adapter dynamiquement à la complexité de l'invite et de la longueur de texte souhaitée.
- Trop peu d'étapes: conduire à des résultats qualitativement inférieurs, inachevés ou "bruyants". Le texte semble incohérent ou fragmenté.
- Trop d'étapes: peut conduire à un texte confus, contradictoire ou même s'effondrer. Le modèle «oblige» le contenu en pratique. Un effondrement du débroussage si appelé peut se produire, dans lequel le contenu généré retombe dans un état bruyant parce que le modèle est terminé-optimisé et perd la cohérence. Ceci est comparable à une image qui devient soudainement abstraite et méconnaissable en raison d'un filtrage trop agressif.
2. Équivalent des hallucinations dans le texte:
Les générateurs d'images d'IA les plus grands et les plus avancés tels que Flux ou MinimAx Image-01 ont encore des problèmes avec des erreurs qui ne peuvent pas résulter de faiblesses du modèle, mais peuvent résulter de la technologie de diffusion. Cela comprend des anomalies physiques comme trop ou trop de doigts, l'insertion arbitraire d'éléments ou des représentations corporelles et architecturales déformées. La question est de savoir dans quelle mesure les modèles de diffusion de texte pourraient souffrir de «hallucinations» équivalentes:
- Incohérences logiques: le texte commence de manière plausible, mais les sections ultérieures contredisent les déclarations précédentes.
- Breaks stylistiques et tonaux: le style ou le ton du texte soudainement et non fondé au milieu de la phrase ou du paragraphe.
- Structure du texte chaotique: Les paragraphes ou les phrases sont organisés de manière incohérente, sauter entre des sujets ou se répéter inutilement.
- Sujet complètement manqué: Bien que le texte soit grammaticalement correct, il manque le sujet d'origine ou rapidement.
- Inactitudes factuelles: Bien que la prostituée soit l'objectif principal, le modèle pourrait interpréter les modèles statistiques afin qu'ils collectent des informations incorrectes dans le texte.
Ces phénomènes font l'objet de recherches intensives car elles pourraient affecter la confiance dans le contenu généré.
Le contexte de la présentation: une tempête de nouvelles annonces d'IA
Le fait que la diffusion des Gémeaux ait reçu relativement peu d'attention peut sembler paradoxale, mais peut être expliquée du contexte de sa présentation. Google l'a présenté à ses E / S de la conférence des développeurs annuels, qui est traditionnellement un feu d'artifice de nouvelles. En mai 2024, l'abondance des annonces de Google était en effet écrasante. En plus de la diffusion des Gémeaux, le groupe technologique a présenté un certain nombre d'autres projets et outils de classe supérieure:
Gemini 2.5 Pro
La version la plus intelligente du modèle Gémeaux de Google à l'époque, qui impressionne déjà par son multimodalité et ses performances.
Astra
La vision de Google d'un assistant d'IA qui ne comprend pas seulement les commandes vocales, mais peut également traiter et interagir des informations visuelles en temps réel - un pas vers de vrais «agents d'IA».
Veo (version 3)
La troisième itération du Text-to-video KI, qui est désormais également capable de créer un langage et un son, qui élargissent considérablement les compétences immersives des vidéos de l'IA génératrices.
Aura de lunettes intelligentes
Un prototype de lunettes intelligentes qui devraient masquer les informations numériques de manière transparente dans le monde réel.
Poutre du système intelligent 3D
Un système innovant pour les appels vidéo immersifs qui devraient brouiller les frontières entre la présence physique et numérique.
Compte tenu de ce flot d'innovations révolutionnaires, il a été difficile pour une «expérience», aussi prometteuse que possible, d'attirer l'attention nécessaire. D'une certaine manière, l'agitation des annonces plus grandes et immédiatement applicables a été soumise, bien qu'elle ait le potentiel de lancer les paradigmes des modèles vocaux qui ne sont pas inquiets sur la pile.
Une direction de recherche en plein essor: les prédécesseurs de la diffusion des Gémeaux
La diffusion de Google peut être la plus grande expérience dans le domaine de la diffusion du texte jusqu'à présent, mais elle est loin d'être la première. L'idée d'utiliser des modèles de diffusion pour le texte est une direction relativement nouvelle mais intensément étudiée.
Dès 2023, une équipe de l'Université de Soochow en Chine a publié une étude révolutionnaire. Dans ce document, ils représentaient la thèse selon laquelle les modèles de diffusion pouvaient dépasser les architectures des modèles vocaux précédents, en particulier en ce qui concerne la robustesse et la correction d'erreurs. La même année, les premiers modèles rudimentaires ont suivi qui mettent le concept de diffusion de texte en pratique: diffusion-LM et diffusion minimale de texte. Ces pionniers ont montré que la déformation des jetons fonctionne généralement également pour la génération de texte, bien qu'à un stade très précoce.
Un autre modèle intéressant a suivi en février de cette année (2024): Mercury Coder de Inception Labs. Ce modèle s'est principalement concentré sur la génération de code de programmation et a prouvé que les modèles de diffusion dans ce domaine d'application spécial peuvent atteindre une vitesse remarquable qui dépasse les modèles de langage conventionnels.
Peu avant les E / S de Google, en avril 2024, l'Université de Hong Kong et Huawei-Belonging à Huawei ont présenté le modèle de diffusion en grande langue Dream 7b. Jusqu'à la présentation de la diffusion des Gémeaux, Dream 7b était le plus grand modèle de diffusion disponible pour le texte. Ses compétences et l'architecture sous-jacente ont attiré l'attention des principaux chercheurs de l'IA. Andrej Karpathy, un ancien chercheur d'Openai qui est connu pour ses informations profondes sur les réseaux de neurones, a commenté Dream 7b. Il a souligné que ce modèle avait le potentiel de montrer une «psychologie» ou des forces et des faiblesses uniques complètement différentes par rapport aux modèles autorégressifs.
Tous ces projets ont ouvert la voie à la diffusion des Gémeaux et montrent que la communauté de recherche est reconnue depuis un certain temps maintenant les limites des modèles compressés par l'auteur et recherchait des approches alternatives. Après l'idée de la diffusion des Gémeaux, un chercheur d'IA qui ne voulait pas commenter par leur nom a confirmé que ce modèle "la pertinence de l'approche" et "devraient être recherchés dans cette direction". En particulier, il a souligné le potentiel de modèles vocaux sur les appareils mobiles et les serveurs moins puissants, où la diffusion-LEMS pourrait être «un changeur de jeu total». La raison en est la parallélitude inhérente du processus incriminant, qui peut être mieux distribué sur certaines architectures matérielles que la nature séquentielle des modèles gris auto-gris.
Les implications révolutionnaires et un aperçu de l'avenir
L'introduction de la diffusion des Gémeaux, même si elle était à l'ombre d'autres géants, est une étape importante dans le développement de l'intelligence artificielle. Il représente non seulement une innovation technologique, mais signale également un changement de paradigme potentiel dans l'architecture des modèles vocaux.
Qu'est-ce que cela pourrait signifier pour l'avenir?
1. Applications d'IA plus efficaces
L'énorme vitesse et la capacité de traiter précisément pourraient révolutionner les applications génératrices de l'IA dans de nombreux domaines. Pensez à la production de texte en temps réel dans les appels vidéo, à la génération de code rapide dans des environnements de développement ou à des résumés immédiats de documents complexes.
2. AI sur les appareils mobiles
L'avantage déjà mentionné pour le matériel à faible performance est crucial. Si les modèles de diffusion peuvent fonctionner efficacement sur les smartphones ou les appareils de bord, cela augmenterait considérablement l'accessibilité et les avantages de l'IA, car moins dépendrait des serveurs cloud.
3. Édition de texte créatif
Les auteurs, les journalistes ou les experts en marketing pourraient bénéficier de la fonction de peinture pour adapter spécifiquement le style, le son ou le contenu dans des sections de texte spécifiques sans détruire le flux de l'ensemble du document. Cela permet une précision et un contrôle inégalés précédemment dans la révision.
4. Contenu robuste et cohérent
Si les défis des «hallucinations» et de «l'effondrement du débroussage» sont maîtrisés, les modèles de diffusion pourraient générer des textes plus logiquement cohérents et stylistiquement cohérents que ceux des modèles actuels. Ce serait un grand pas vers une génération d'IA plus fiable.
5. Nouvelles compétences en IA
La manière holistique de travail pourrait permettre aux modèles de diffusion de mieux résoudre d'autres types de tâches ou d'éviter de nouveaux types d'erreurs. Vous êtes peut-être prédestiné pour les tâches dans lesquelles la cohérence globale est placée sur la perfection séquentielle, par exemple lors de la création de structures narratives complexes ou de scripts d'écriture.
Diffusion des Gémeaux: le bouleversement silencieux dans la génération de texte IA
Le fait qu'un modèle aussi potentiellement pionnier que la diffusion des Gémeaux - qui peut déjà être vu via une liste d'attente lui-même - est à peine remarqué dans le grand public est le reflet du développement rapide dans le domaine de l'IA. La vitesse à laquelle les nouveaux modèles et paradigmes apparaissent est vertigineux. Mais surtout dans ces expériences volant sous le radar, le véritable potentiel de la prochaine grande révolution est souvent caché.
Il reste excitant d'observer comment les modèles de diffusion dans la zone de texte se développent et s'ils peuvent réellement contester ou même remplacer les architectures compressées par l'auteur établi. Ce que Google a initié avec la diffusion des Gémeaux est plus qu'une simple expérience; C'est un guide d'un avenir possible de génération de texte qui est plus rapide, plus flexible et peut-être encore plus intuitif. C'est un appel à la recherche pour poursuivre cette direction prometteuse avec l'accent, car le monde de l'IA a peut-être juste pris l'une de ses étapes d'allaitement mais les plus importantes.
Nous sommes là pour vous - conseil - planification - mise en œuvre - gestion de projet
☑️ Accompagnement des PME en stratégie, conseil, planification et mise en œuvre
Création ou réalignement de la stratégie de l'IA
☑️ Développement commercial pionnier
Je serais heureux de vous servir de conseiller personnel.
Vous pouvez me contacter en remplissant le formulaire de contact ci-dessous ou simplement m'appeler au +49 89 89 674 804 (Munich) .
J'attends avec impatience notre projet commun.
Xpert.Digital - Konrad Wolfenstein
Xpert.Digital est une plateforme industrielle axée sur la numérisation, la construction mécanique, la logistique/intralogistique et le photovoltaïque.
Avec notre solution de développement commercial à 360°, nous accompagnons des entreprises de renom depuis les nouvelles affaires jusqu'à l'après-vente.
L'intelligence de marché, le smarketing, l'automatisation du marketing, le développement de contenu, les relations publiques, les campagnes de courrier électronique, les médias sociaux personnalisés et le lead nurturing font partie de nos outils numériques.
Vous pouvez en savoir plus sur : www.xpert.digital - www.xpert.solar - www.xpert.plus