Percée dans la technologie de génération vidéo multimodale, quelles opportunités l'IA Web3 a-t-elle ?

Intermédiaire7/9/2025, 10:18:15 AM
Cet article analyse les percées dans la technologie de génération vidéo multimodale (telles que l'EX-4D de Byte, Google Veo, etc.) et discute de leur impact profond sur l'économie des créateurs et Web3 AI.

En dehors de la "submersion" de la localisations IA, le plus grand changement dans le secteur de l'IA récemment est la percée technologique dans la génération de vidéos multimodales, qui a évolué pour passer de la prise en charge de la génération de vidéos purement basées sur du texte à une technologie de génération entièrement intégrée combinant texte, images et audio.

Voici quelques exemples de percées technologiques que tout le monde peut expérimenter :

1) ByteDance rend open-source le cadre EX-4D : une vidéo monoculaire se transforme instantanément en contenu 4D à vue libre, avec un taux d'acceptation utilisateur de 70,7 %. Cela signifie que pour une vidéo ordinaire, l'IA peut générer automatiquement des effets de vision sous n'importe quel angle, ce qui nécessitait auparavant une équipe de modélisation 3D professionnelle pour y parvenir.

2) Plateforme Baidu "Hui Xiang" : génère une vidéo de 10 secondes à partir d'une image, prétendant atteindre une qualité "de niveau cinéma". Cependant, il reste à voir si cela est exagéré par le marketing jusqu'à la mise à jour de la version Pro en août.

3) Google DeepMind Veo : Peut réaliser une génération de vidéo 4K + synchronisation des sons d'environnement. Le point technologique clé est l'acquisition de la capacité de « synchronisation », car auparavant, il s'agissait d'une combinaison de deux systèmes pour la vidéo et l'audio. Pour atteindre un véritable niveau de correspondance sémantique, des défis significatifs doivent être surmontés, notamment dans des scènes complexes, où la synchronisation des actions de marche dans la vidéo et des sons de pas correspondants doit être abordée.

4) Contenu DouyinV : 8 milliards de paramètres, 2,3 secondes pour générer une vidéo 1080p, coût de 3,67 yuan/5 secondes. Pour être honnête, ce contrôle des coûts est plutôt bon, mais actuellement, compte tenu de la qualité de génération, il reste en deçà face à des scènes complexes.

Pourquoi dit-on que ces cas ont une valeur et une signification significatives en termes de percées dans la qualité vidéo, les coûts de production et les scénarios d'application ?

1. En termes de percées dans la valeur technologique, la complexité de la génération d'une vidéo multimodale est souvent exponentielle. Une image à un seul cadre se compose d'environ 10^6 pixels, et une vidéo doit garantir la cohérence temporelle (au moins 100 images), ainsi que la synchronisation audio (10^4 points d'échantillonnage par seconde), tout en tenant compte de la cohérence spatiale en 3D.

En résumé, la complexité technique n'est pas faible. À l'origine, c'était un super grand modèle s'attaquant à toutes les tâches de front. On dit que Sora a brûlé des dizaines de milliers de H100 pour atteindre des capacités de génération vidéo. Maintenant, cela peut être réalisé par décomposition modulaire et travail collaboratif de grands modèles. Par exemple, l'EX-4D de Byte décompose en réalité des tâches complexes en : module d'estimation de profondeur, module de transformation de point de vue, module d'interpolation temporelle, module d'optimisation de rendu, et ainsi de suite. Chaque module se spécialise dans une tâche puis coordonne à travers un mécanisme.

2. En termes de réduction des coûts : cela implique en fait d'optimiser l'architecture de raisonnement elle-même, y compris une stratégie de génération en couches, où un squelette basse résolution est généré en premier et ensuite le contenu d'imagerie haute résolution est amélioré ; un mécanisme de réutilisation de cache, qui est la réutilisation de scènes similaires ; et une allocation dynamique des ressources, qui ajuste en réalité la profondeur du modèle en fonction de la complexité du contenu spécifique.

Avec cet ensemble d'optimisations, nous obtiendrons un résultat de 3,67 yuan par 5 secondes pour Douyin ContentV.

3. En termes d'impact sur l'application, la production vidéo traditionnelle est un jeu intensif en capital : équipements, lieux, acteurs, post-production ; il est normal qu'une publicité de 30 secondes coûte des centaines de milliers. Maintenant, l'IA compresse tout ce processus en une invite plus quelques minutes d'attente, et peut réaliser des perspectives et des effets spéciaux difficiles à atteindre dans le tournage traditionnel.

Cela transforme les barrières techniques et financières d'origine de la production vidéo en créativité et en esthétique, ce qui pourrait promouvoir un remaniement de l'ensemble de l'économie créatrice.

La question se pose, quelle est la relation entre les changements du côté de la demande de la technologie AI web2 et l'AI web3 ?

1. Tout d'abord, le changement dans la structure de la demande de puissance de calcul. Auparavant, dans l'IA, la compétition était basée sur l'échelle ; celui qui avait plus de clusters de GPU homogènes gagnerait. Cependant, la demande pour la génération de vidéos multimodales nécessite une combinaison diversifiée de puissance de calcul, ce qui pourrait créer un besoin pour de la puissance de calcul distribuée inutilisée, ainsi que pour divers modèles de fine-tuning distribués, algorithmes et plateformes d'inférence.

2. Deuxièmement, la demande pour l'étiquetage des données va également se renforcer. Générer une vidéo de qualité professionnelle nécessite : des descriptions de scène précises, des images de référence, des styles audio, des trajectoires de mouvement de caméra, des conditions d'éclairage, etc., qui deviendront de nouvelles exigences professionnelles en matière d'étiquetage des données. L'utilisation de méthodes d'incitation Web3 peut encourager les photographes, les ingénieurs du son, les artistes 3D et d'autres à fournir des éléments de données professionnels, améliorant ainsi la capacité de génération de vidéos AI avec un étiquetage de données vertical spécialisé.

3. Enfin, il convient de mentionner que lorsque l'IA passe progressivement d'une allocation de ressources centralisée à grande échelle à une collaboration modulaire, cela représente en soi une nouvelle demande pour des plateformes décentralisées. À ce moment-là, la puissance de calcul, les données, les modèles, les incitations, etc. formeront ensemble un volant auto-renforçant, qui à son tour alimentera l'intégration des scénarios web3AI et web2AI.

Déclaration :

  1. Cet article est reproduit de [tmel0211tmel0211],Le copyright appartient à l'auteur original [tmel0211] Si vous avez des objections à la réimpression, veuillez contacter Équipe Gate LearnL'équipe le traitera aussi rapidement que possible selon les procédures pertinentes.
  2. Avertissement : Les opinions et les points de vue exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas un conseil en investissement.
  3. Les autres versions linguistiques de l'article sont traduites par l'équipe Gate Learn, sauf mention contraire.GateEn aucune circonstance les articles traduits ne doivent être copiés, diffusés ou plagiés.

Partager

Lancez-vous
Inscrivez-vous et obtenez un bon de
100$
!