La capacité de traitement de texte long des grands modèles a connu une hausse cent fois, avec des défis et des opportunités coexistants.

Les fabricants de grands modèles s'efforcent de surmonter la capacité des longs textes

Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable. Actuellement, plusieurs entreprises technologiques et institutions de recherche de premier plan, tant au niveau national qu'international, ont fait de l'extension de la longueur du contexte une priorité de mise à niveau.

De 4000 tokens à 400 000 tokens, la longueur de traitement de texte des grands modèles a connu une augmentation exponentielle en peu de temps. OpenAI, après plusieurs mises à jour, a porté la longueur d'entrée de contexte de GPT-4 à 32 000 tokens. Anthropic a également étendu la longueur de contexte de son modèle Claude à 100 000 tokens. Le Kimi Chat lancé par la société nationale La Face Cachée de la Lune prend même en charge une entrée équivalente à 400 000 tokens, soit 200 000 caractères chinois.

L'amélioration de la capacité de traitement des longs textes signifie non seulement que le modèle peut lire des textes plus longs, mais qu'elle favorisera également l'application des grands modèles dans des domaines spécialisés tels que la finance, le droit et la recherche scientifique. Par exemple, les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses seront considérablement renforcées.

Cependant, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Les recherches montrent qu'il n'existe pas de relation de causalité directe entre la longueur du contexte supportée par le modèle et son efficacité. Plus important encore est la manière dont le modèle utilise efficacement le contenu du contexte.

Actuellement, la technologie des longs textes est confrontée au dilemme du "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul. À mesure que la longueur du texte augmente, il devient difficile pour le modèle de se concentrer sur les informations clés ; alors que maintenir une attention suffisante nécessite de consommer une grande quantité de puissance de calcul.

Pour surmonter cette impasse, les chercheurs ont proposé plusieurs solutions :

  1. Utiliser des outils externes pour aider à traiter des textes longs, comme diviser un long texte en plusieurs textes courts.

  2. Optimiser le mode de calcul du mécanisme d'attention automatique, comme la technologie LongLoRA.

  3. Optimiser le modèle lui-même, comme LongLLaMA qui réalise des extrapolations de séquences plus longues grâce à un ajustement fin.

Bien que la technologie des longs textes reste confrontée à des défis, elle est sans aucun doute la clé pour promouvoir l'application pratique des grands modèles. À l'avenir, les fournisseurs de grands modèles devront trouver le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de réaliser des percées dans la capacité de traitement des longs textes.

TOKEN-7.47%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • Reposter
  • Partager
Commentaire
0/400
AirdropHunterWangvip
· 08-14 11:19
On peut encore récupérer plus de tokens !
Voir l'originalRépondre0
Ser_Liquidatedvip
· 08-13 18:00
Perdre dix fois avec un effet de levier de dix.
Voir l'originalRépondre0
GateUser-00be86fcvip
· 08-12 04:26
Ce mot me donne mal à la tête.
Voir l'originalRépondre0
SchroedingerAirdropvip
· 08-12 04:26
Il n'y a pas de meilleur moyen, le Trading des cryptomonnaies est plus intéressant.
Voir l'originalRépondre0
ApeShotFirstvip
· 08-12 04:14
Ne vous embrouillez pas, je vous en prie.
Voir l'originalRépondre0
LiquidityNinjavip
· 08-12 04:07
Frappez-le ! Un long texte sent aussi bon qu'un gâteau frit.
Voir l'originalRépondre0
SleepyValidatorvip
· 08-12 04:05
C'est à peu près ça.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)