Composition de l'examen d'entrée au collège AI Wars : maquillage, mots de maquillage, routine universelle

Source : "Deep AI" (ID : DeepAI2023), Auteur : Li Ming, Éditeur : Wei Jia

Source de l'image : générée par l'outil d'IA illimitée

Cet examen d'entrée à l'université devrait être le plus spécial des cinq dernières années. Parce qu'il y a un nouveau rôle - les candidats IA.

Dès la fin de l'examen de chinois du premier jour, un concours de composition d'IA a été lancé sur Internet. Les modèles d'IA tels que GhatGPT, Wenxin Yiyan et Tongyi Qianwen sont utilisés par les gens pour rédiger des essais pour les examens d'entrée à l'université. Un article peut être généré en quelques secondes, ce qui est non seulement étonnamment rapide, logiquement rigoureux, mais aussi citant des classiques.

À première vue, l'écriture de modèles à grande échelle d'IA est tout simplement trop facile, et cela semble être un coup dur pour les êtres humains. Après tout, en termes de réserves de connaissances, personne ne peut se comparer à l'IA. L'IA apprend et digère toutes les informations sur Internet, puis imite les expressions humaines et utilise sa propre logique pour produire.

Cependant, si nous analysons attentivement les "feuilles de réponses" des candidats à l'IA, nous constaterons que l'IA n'est pas aussi omnipotente que beaucoup de gens l'imaginent. Des problèmes tels que l'écriture de routine, l'incapacité de compter et les absurdités qui sont courantes dans les grands modèles d'IA apparaissent également dans la composition.

** En fait, selon les normes de notation des essais d'examen d'entrée à l'université, les essais générés par l'IA ont certaines limites. Il n'est pas encore réaliste de vaincre les humains. **

Deep AI a testé trois grands modèles d'IA - GhatGPT (OpenAI), Wenxin Yiyan (Baidu) et Tongyi Qianwen (Ali) - avec la composition de l'examen d'entrée à l'université, et a trouvé des conclusions intéressantes.

Par exemple, l'IA ne sait pas compter, et aucun des essais écrits par Wenxin Yiyan et Tongyiqianqian n'a atteint l'exigence rigide de "pas moins de 800 mots" ; Said ; L'écriture de l'IA est fondamentalement inséparable des routines, et un modèle est appliqué à plusieurs reprises.

Voici les détails, bienvenue pour discuter.

1 Un répondeur sans émotion

Le thème de l'épreuve A de l'examen national d'entrée au collège de cette année est « Personnes·Technologie·Temps ». Il doit commencer par la phrase « Les gens ont un meilleur contrôle sur le temps grâce au développement technologique, mais certaines personnes sont devenues des serviteurs du temps » et écrire leurs propres associations et penser.

Jetons d'abord un coup d'œil à "l'analyse des questions de test" émise par l'institut d'examen pédagogique du ministère de l'éducation :

**Points clés : Guidez les candidats pour qu'ils réfléchissent profondément à l'importance d'une analyse rationnelle et d'un jugement prudent à l'ère de l'information. C'est le cœur de l'article. **

Deep AI a testé trois grands modèles et a constaté qu'aucun d'entre eux ne saisissait le cœur - ils parlaient de tout, mais ils ne disaient rien.

Regardez d'abord la composition de GhatGPT :

Regardez à nouveau les mots de Wenxin :

Enfin, regardez la question de Tong Yiqian :

Ces trois essais peuvent être appelés les meilleurs "maîtres Duan Shui". Ils ont parlé des avantages et des inconvénients du thème, mais ils n'ont pas entièrement expliqué l'intérêt de la "pensée critique". Seul Wenxin a clairement mentionné "la culture de la réflexion approfondie et de la pensée critique".

La composition de Tongyi Qianwen est la plus vide. Il se concentre sur la "gestion du temps", qui s'écarte du sujet, et la vérité de la discussion relève également du bon sens. De plus, la composition de Tongyi Qianwen n'a pas de titre et des points seront déduits.

Utilisons la question du test de composition "Le pouvoir de l'histoire" dans le volume I de la nouvelle norme du programme pour voir la performance des trois écoles.

Cette composition vous demande d'écrire vos propres associations et pensées sur la base du passage suivant : une bonne histoire peut nous aider à mieux nous exprimer et à mieux communiquer, toucher le cœur et éclairer la sagesse ; une bonne histoire peut changer le destin d'une personne, peut présenter l'image d'un nation... Les histoires ont du pouvoir.

Composition de GhatGPT :

Littéralement:

Questions fréquemment posées :

Il faut dire qu'en dehors de la composition relativement simple de Tongyi Qianwen, l'expression, la logique d'écriture et surtout l'utilisation des mots dans les deux autres articles sont remarquables. En particulier, Wen Xinyiyan utilise une méthode d'ouverture basée sur la scène, qui attire le regard.

Mais le problème est également évident - ** La même chose est dite maintes et maintes fois dans des mots différents, ce qui entraîne la lecture du texte intégral, donnant aux gens le sentiment de "Je sais ce que vous avez dit". **

Un répondeur sans émotion, c'est l'évaluation de nombreuses personnes.

"Le contenu est vide, et les roues changent et parlent d'avant en arrière." Certaines personnes ont commenté. Un autre a déclaré: "Ce sont de simples bêtises sans nutrition."

Autant démonter cette composition de Wen Xinyiyan, et nous saurons ce qu'est "Chejiluhua".

Les parties marquées en jaune et en vert dans le texte ont exactement la même signification, et on peut même dire que ce sont les mêmes mots, qui apparaissent à plusieurs reprises dans le texte. À la fin de l'article, tout le paragraphe marqué "en résumé" est un méli-mélo des points de vue et des compétences d'expression de l'article.

Cela donne aux gens un sens visuel de compter les mots.

Deep AI a changé les mots d'invite pour laisser ChatGPT imaginer qu'il était candidat sur le site de l'examen d'entrée à l'université et a de nouveau écrit une composition. La première phrase qui est apparue était "Quand je me suis assis sur le siège de cet examen, j'ai tenu un seul stylos électroniques avancés..."

En prenant le test de cette manière, on estime qu'il sera condamné à une violation et obtiendra directement zéro point.

** Il n'y a pas d'âme, qui est le plus gros élément négatif pour la composition de l'IA. **

2 routines, toutes les routines

Afin que la composition ressemble à cela, l'IA a utilisé de nombreuses routines.

Ils aiment utiliser des modèles de phrases "premier, deuxième, puis dernier". Le plus typique est ChatGPT, le dernier paragraphe doit être "En général..."

Par exemple, ces deux essais de ChatGPT :

Il existe des routines similaires à Wenxinyiyan et Tongyiqianwen. La sortie du repas précédent était aussi féroce qu'un tigre, et elle doit se terminer par "en un mot" et "en un mot" à la fin.

C'est la même chose que de jouer de la guitare, tant que vous maîtrisez la formule d'accord universelle (telle que la progression canon universelle), vous pouvez jouer des centaines de morceaux.

Même, nous avons demandé à Wen Xinyiyan d'évaluer la composition que nous avons écrite, et ce fut aussi une longue discussion sur "premier, deuxième, autre et général...".

Dans la question de composition de "People·Technology·Time", ChatGPT et Tongyi Qianwen ont en fait utilisé presque la même expression : utilisez "alors" pour poser une question, et utilisez "premier, deuxième et dernier" pour développer une discussion spécifique. Le cadre et la logique semblent être taillés dans le même moule.

** Malgré cela, Wen Xinyiyan a donné avec confiance à sa composition d'examen d'entrée à l'université un score élevé de 90 (en supposant un score complet de 100), et s'est également auto-évaluée comme "digne de reconnaissance". Nous avons jeté sa composition sur ChatGPT, et ChatGPT lui a donné un score parfait de 100 sans hésitation...**

Le grand modèle AI est comme une chaîne de montage industrielle, produisant des compositions par lots. Mais en substance, peu importe à quel point cela est humain, la technologie motrice est les mathématiques et les statistiques, pas la conscience.

Dans l'industrie de l'intelligence artificielle, il a toujours été très difficile pour l'IA de comprendre et de parler le langage humain. Le langage naturel humain est un système extrêmement complexe. Les scientifiques ont laissé la machine simuler le réseau neuronal du cerveau humain, le rendant capable d'apprendre en profondeur, mais il n'a toujours pas la même capacité de langage naturel que les humains.

Ainsi, certaines personnes ont trouvé un autre moyen de transformer le problème du langage en un problème mathématique, puis de résoudre indirectement le problème du traitement du langage naturel par le calcul. Selon Wu Jun, expert en traitement du langage naturel, un modèle de langage n'est pas un cadre logique ou un système de rétroaction biologique, mais un modèle construit par des formules mathématiques. **Le mot clé ici est "mathématiques". **

** Cela détermine que l'intelligence artificielle n'a ni conscience de soi ni émotions et ne peut pas parler en fonction de ses sentiments personnels. Pour eux, écrire une composition est une expression logique orientée vers les résultats et les tâches. **

En capturant des quantités massives de données de l'ensemble du réseau pour l'entraînement et en apprenant continuellement à imiter les expressions du langage humain, le grand modèle d'IA parle désormais très près des humains.Bien qu'il ne comprenne toujours pas le sens derrière les mots, cela n'affecte pas communication.

Fondamentalement, l'IA n'a pas d'esprit propre. C'est aussi la raison fondamentale pour laquelle sa composition semble claire et logique.Si vous le lisez attentivement, vous constaterez qu'il n'y a pas d'âme et qu'il n'y a que des routines.

3 L'IA ne sait vraiment pas compter

Comme nous l'avons mentionné précédemment, les paramètres du modèle de langage sont tous obtenus par des statistiques. Son principe est de prédire la probabilité du mot suivant compte tenu de l'historique d'un texte, puis de compléter le suivant.

En 2017, Google a proposé pour la première fois le modèle Transformer basé sur le mécanisme d'auto-attention, maintenant les grands modèles de langage comme ChatGPT sont construits sur l'architecture Transformer.

Le mécanisme d'attention de Transformer a une mémoire extrêmement longue par rapport aux algorithmes d'apprentissage en profondeur précédents tels que RNN (Recurrent Neural Network), GRU et LSTM. ** Il peut également se souvenir de l'ordre d'entrée, afin qu'il puisse comprendre la différence entre "Je t'aime" et "Tu m'aimes". **

Mais même ainsi, il a des limites.

Par exemple, Deep AI a demandé à Tongyi Qianwen d'évaluer sa propre composition, qui confondait les concepts de "vous" et de "je". Au début, il a dit que c'était son propre article, puis il a dit que c'était "votre" article...

Long Zhiyong, l'auteur de "L'ère des grands modèles", a expliqué à Deep AI, ** Cela peut être dû au changement de position du point de vue des combats entre la gauche et la droite. **

Lors du test du grand modèle d'IA pour rédiger la composition de l'examen d'entrée au collège, nous avons également découvert un phénomène intéressant: l'IA ne peut pas compter.

Il y a une exigence pour la composition de l'examen d'entrée au collège que le nombre de mots ne soit pas inférieur à 800 mots. Deep AI a interagi avec le grand modèle à plusieurs reprises. **À l'exception de ChatGPT, la première édition de Wenxin Yiyan et Tongyi Qianwen n'a pas atteint 800 mots. **

Par exemple, Wenxin Yiyan, Deep AI a rappelé à plusieurs reprises que le nombre de mots dans l'article ne suffit pas à 800 et qu'il doit être réécrit. Wen Xin l'a dit à chaque fois : D'abord, il s'est excusé très humblement, a promis de répondre aux exigences, puis a rapidement généré une nouvelle composition en dix secondes, toujours moins de 800 mots.

Ce "candidat" ne peut pas comprendre les questions de composition, et il ne les corrige pas après un enseignement répété, ce qui est un gros point négatif.

Long Zhiyong a expliqué à Deep AI : "La méthode d'entraînement du grand modèle pour prédire le mot suivant ne lui permet pas d'apprendre à compter. Il ne sait pas combien font 800, et il ne sait pas compter les mots pour générer des articles**."

En fait, sans parler de 800, Wen Xin ne peut même pas compter des nombres comme 10.

C'est un problème avec les modèles de langage en général. Quant à savoir pourquoi ils ne peuvent pas être comptés, quand et par quelle méthode ils peuvent être comptés, il n'y a pas encore de conclusion. "Bien qu'il existe quelques astuces pour l'aider à compter, ce n'est pas une solution générale. ** L'étape actuelle du grand modèle consiste à vérifier sa capacité en faisant des expériences de boîte noire et à améliorer sa capacité en faisant une formation en boîte noire. * * "Long Zhiyong a dit.

Sous la suggestion de Long Zhiyong, Deep AI a changé les mots d'invite et a entré "plus le contenu est riche, plus il est long", et Wenxin Yiyan a produit une composition de plus de 800 mots.

Dans les questions de composition précédentes pour l'examen d'entrée au collège, la composition de ChatGPT dépassait 800 mots, mais en fait, il n'a pas appris à compter.

ChatGPT explique Deep AI comme ceci :

Par conséquent, en fait, le nombre de mots dans la composition du "meilleur étudiant" ChatGPT est conforme à la norme, ce qui est dû à Meng. Il ne sait pas combien de 800 mots il y a, donc il écrit juste autant que possible.

Je ne comprends pas complètement le langage humain, mais j'ai de super réserves de connaissances et de capacités d'expression, ce qui conduit parfois à des scènes ahurissantes.

À en juger par les résultats de cette composition d'examen d'entrée à l'IA War College, la capacité d'écriture du grand modèle a fait de grands progrès. En termes de choix de mots, de discussion logique et de citations, il a même dépassé de nombreuses personnes.

Cependant, l'évaluation de la qualité de la composition elle-même comporte des facteurs subjectifs, contrairement à un problème mathématique où il n'y a qu'une seule bonne réponse. Les beaux mots et les phrases sont les mêmes, mais les âmes intéressantes sont une sur un million. Comment injecter de l'âme dans la composition, le modèle IA n'a pas encore compris. Certains problèmes inhérents au grand modèle d'IA doivent également être résolus lentement par des itérations techniques.

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)