Способности больших моделей к обработке длинных текстов увеличились в сто раз, вызовы и возможности существуют одновременно.

Крупные производители моделей стремятся преодолеть способность к обработке длинных текстов

Большие модели стремительно увеличивают свои способности обрабатывать длинные тексты. В настоящее время в стране и за границей многие ведущие компании и исследовательские учреждения в области больших моделей сосредоточились на увеличении длины контекста как основном направлении обновления.

От 4000 токенов до 400000 токенов, длина обработки текста больших моделей за короткое время увеличилась в сто раз. OpenAI после нескольких обновлений увеличила длину контекстного ввода GPT-4 до 32000 токенов. Anthropic значительно расширила длину контекста своей модели Claude до 100000 токенов. Внутренний Kimi Chat, выпущенный Moon's Dark Side, поддерживает ввод, эквивалентный 400000 токенам или 200000 иероглифам.

Улучшение способности обработки длинных текстов означает не только то, что модель может читать более длинные тексты, но и будет способствовать внедрению больших моделей в таких профессиональных областях, как финансы, право, научные исследования и т.д. Например, такие способности, как резюмирование длинных документов, понимание прочитанного и ответы на вопросы, будут значительно усилены.

Однако длина текста не всегда лучше. Исследования показывают, что длина контекста, поддерживаемого моделью, не имеет прямой причинно-следственной связи с ее эффективностью. Более важно то, как модель эффективно использует контекстуальное содержание.

В настоящее время технологии обработки длинных текстов сталкиваются с «треугольником невозможного»: длиной текста, вниманием и вычислительной мощностью. С увеличением длины текста моделям становится трудно сосредоточиться на ключевой информации; в то же время поддержание достаточного внимания требует значительных вычислительных ресурсов.

Чтобы преодолеть эту проблему, исследователи предложили несколько решений:

  1. Используйте внешние инструменты для обработки длинных текстов, например, разбивайте длинные тексты на несколько коротких.

  2. Оптимизация вычислений механизма самовнимания, такая как технология LongLoRA.

  3. Оптимизация самой модели, например, LongLLaMA достигает экстраполяции более длинных последовательностей через дообучение.

Несмотря на то, что технологии длинных текстов по-прежнему сталкиваются с вызовами, они безусловно являются ключом к дальнейшему внедрению больших моделей. В будущем производители больших моделей должны найти оптимальный баланс между длиной текста, вниманием и вычислительной мощностью для достижения прорыва в обработке длинных текстов.

TOKEN4.02%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Репост
  • Поделиться
комментарий
0/400
AirdropHunterWangvip
· 08-14 11:19
Снова можно заработать немного токенов!
Посмотреть ОригиналОтветить0
Ser_Liquidatedvip
· 08-13 18:00
Убыток в десять раз на плечах
Посмотреть ОригиналОтветить0
GateUser-00be86fcvip
· 08-12 04:26
Это слово выглядит так, будто вызывает головную боль.
Посмотреть ОригиналОтветить0
SchroedingerAirdropvip
· 08-12 04:26
Какой смысл? Торговля криптовалютой лучше.
Посмотреть ОригиналОтветить0
ApeShotFirstvip
· 08-12 04:14
Не крутись, пожалуйста.
Посмотреть ОригиналОтветить0
LiquidityNinjavip
· 08-12 04:07
Лови это! Длинный текст такой же вкусный, как жареный торт.
Посмотреть ОригиналОтветить0
SleepyValidatorvip
· 08-12 04:05
Так и есть.
Посмотреть ОригиналОтветить0
  • Закрепить