Виробники великих моделей змагаються за прорив у здатності обробки довгих текстів
Великі моделі постійно покращують свою здатність обробляти довгі тексти з вражаючою швидкістю. В даний час в Китаї та за кордоном кілька провідних компаній з технологій великих моделей і дослідницьких установ визначили розширення довжини контексту як ключовий напрямок оновлення.
Від 4000 токенів до 400 000 токенів, обробка тексту великими моделями за короткий час досягла стократного зростання. OpenAI після кількох оновлень підвищила довжину контекстного вводу GPT-4 до 32 000 токенів. Anthropic вразила, розширивши довжину контексту своєї моделі Claude до 100 000 токенів. Внутрішня модель Kimi Chat, розроблена Moon's Dark Side, підтримує введення, що дорівнює 400 000 токенів, тобто 200 000 ієрогліфів.
Покращення можливостей обробки довгих текстів означає не лише те, що модель може читати довші тексти, але й буде сприяти впровадженню великих моделей у фінансовій, юридичній, науковій та інших професійних сферах. Наприклад, значно покращаться такі можливості, як підсумовування довгих документів, розуміння прочитаного, запитання та відповіді.
Однак, довжина тексту не завжди є кращою. Дослідження показують, що довжина контексту, яку модель підтримує, не має прямого причинно-наслідкового зв'язку з її ефективністю. Набагато важливіше, як модель ефективно використовує вміст контексту.
Наразі технології роботи з довгими текстами стикаються з «неможливою трійкою» — довжиною тексту, увагою та обчислювальною потужністю. Зі збільшенням довжини тексту моделям важко зосередитися на ключовій інформації; водночас підтримка достатньої уваги вимагає значних обчислювальних ресурсів.
Щоб подолати цю кризу, дослідники запропонували кілька рішень:
Використовуйте зовнішні інструменти для обробки довгих текстів, наприклад, розділення довгого тексту на кілька коротких.
Оптимізувати обчислення механізму самостійної уваги, наприклад, технологія LongLoRA.
Оптимізація самої моделі, наприклад, LongLLaMA досягає екстраполяції довших послідовностей шляхом доопрацювання.
Хоча технології обробки довгих текстів все ще стикаються з викликами, вони безсумнівно є ключовими для подальшого впровадження великих моделей. У майбутньому виробники великих моделей повинні знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб досягти прориву в обробці довгих текстів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
22 лайків
Нагородити
22
7
Репост
Поділіться
Прокоментувати
0/400
AirdropHunterWang
· 08-14 11:19
Знову можна заробити більше токенів!
Переглянути оригіналвідповісти на0
Ser_Liquidated
· 08-13 18:00
В день втрати з десятикратним кредитним плечем
Переглянути оригіналвідповісти на0
GateUser-00be86fc
· 08-12 04:26
Це слово виглядає болісно.
Переглянути оригіналвідповісти на0
SchroedingerAirdrop
· 08-12 04:26
Є сенс? Чи краще торгувати криптовалютою?
Переглянути оригіналвідповісти на0
ApeShotFirst
· 08-12 04:14
Не закручуйте, благаю вас.
Переглянути оригіналвідповісти на0
LiquidityNinja
· 08-12 04:07
Лупи його! Довгий текст смачніший за смажений торт.
Здатність великих моделей обробляти довгі тексти зросла в сто разів, виклики та можливості існують поряд.
Виробники великих моделей змагаються за прорив у здатності обробки довгих текстів
Великі моделі постійно покращують свою здатність обробляти довгі тексти з вражаючою швидкістю. В даний час в Китаї та за кордоном кілька провідних компаній з технологій великих моделей і дослідницьких установ визначили розширення довжини контексту як ключовий напрямок оновлення.
Від 4000 токенів до 400 000 токенів, обробка тексту великими моделями за короткий час досягла стократного зростання. OpenAI після кількох оновлень підвищила довжину контекстного вводу GPT-4 до 32 000 токенів. Anthropic вразила, розширивши довжину контексту своєї моделі Claude до 100 000 токенів. Внутрішня модель Kimi Chat, розроблена Moon's Dark Side, підтримує введення, що дорівнює 400 000 токенів, тобто 200 000 ієрогліфів.
Покращення можливостей обробки довгих текстів означає не лише те, що модель може читати довші тексти, але й буде сприяти впровадженню великих моделей у фінансовій, юридичній, науковій та інших професійних сферах. Наприклад, значно покращаться такі можливості, як підсумовування довгих документів, розуміння прочитаного, запитання та відповіді.
Однак, довжина тексту не завжди є кращою. Дослідження показують, що довжина контексту, яку модель підтримує, не має прямого причинно-наслідкового зв'язку з її ефективністю. Набагато важливіше, як модель ефективно використовує вміст контексту.
Наразі технології роботи з довгими текстами стикаються з «неможливою трійкою» — довжиною тексту, увагою та обчислювальною потужністю. Зі збільшенням довжини тексту моделям важко зосередитися на ключовій інформації; водночас підтримка достатньої уваги вимагає значних обчислювальних ресурсів.
Щоб подолати цю кризу, дослідники запропонували кілька рішень:
Використовуйте зовнішні інструменти для обробки довгих текстів, наприклад, розділення довгого тексту на кілька коротких.
Оптимізувати обчислення механізму самостійної уваги, наприклад, технологія LongLoRA.
Оптимізація самої моделі, наприклад, LongLLaMA досягає екстраполяції довших послідовностей шляхом доопрацювання.
Хоча технології обробки довгих текстів все ще стикаються з викликами, вони безсумнівно є ключовими для подальшого впровадження великих моделей. У майбутньому виробники великих моделей повинні знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб досягти прориву в обробці довгих текстів.