Büyük modelin uzun metin işleme kapasitesi yüz kat yükseliş gösterdi, zorluklar ve fırsatlar bir arada.

Büyük model üreticileri uzun metin yeteneklerini aşma konusunda yarışıyor

Büyük modeller, uzun metinleri işleme yeteneklerini şaşırtıcı bir hızla sürekli olarak geliştiriyor. Şu anda, yurtiçinde ve yurtdışında birçok üst düzey büyük model teknoloji şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi bir yükseltme odak noktası olarak belirlemiştir.

4000 token'dan 400.000 token'a, büyük modellerin metin işleme uzunluğu kısa bir süre içinde yüz kat arttı. OpenAI, birçok güncellemenin ardından GPT-4'ün bağlam girdi uzunluğunu 32.000 token'a yükseltti. Anthropic, Claude modelinin bağlam uzunluğunu 100.000 token'a çıkardı. Ülkemizdeki Ay'ın Karanlık Yüzü, Kimi Chat'i yayımlayarak 400.000 token'a karşılık gelen 200.000 Çince karakter girişi desteği sunuyor.

Uzun metin işleme yeteneğinin artması, yalnızca modelin daha uzun metinleri okuyabilmesi anlamına gelmiyor, aynı zamanda büyük modellerin finans, hukuk, bilimsel araştırmalar gibi uzmanlık alanlarında uygulanabilirliğini de artıracak. Örneğin, uzun belgelerin özetlenmesi, okuma anlama ve soru-cevap gibi yetenekler önemli ölçüde güçlenecek.

Ancak, metin uzunluğu her zaman daha iyi değildir. Araştırmalar, modelin desteklediği bağlam uzunluğu ile etkisi arasında doğrudan bir nedensellik ilişkisi olmadığını göstermektedir. Daha da önemlisi, modelin bağlam içeriğini ne kadar etkili bir şekilde kullandığıdır.

Şu anda, uzun metin teknolojisi metin uzunluğu, dikkat ve hesaplama gücünde "imkansız üçgen" zorluğuyla karşı karşıya. Metin uzunluğu arttıkça, modelin anahtar bilgilere odaklanması zorlaşıyor; oysa yeterli dikkat sağlamak büyük miktarda hesaplama gücü tüketiyor.

Bu çıkmazı aşmak için araştırmacılar birçok çözüm önerdi:

  1. Uzun metinleri işlemek için harici araçlardan yararlanarak, uzun metinleri birden fazla kısa metne bölün.

  2. Özelleştirilmiş dikkat mekanizmasının hesaplama yöntemini optimize etmek, örneğin LongLoRA teknolojisi.

  3. Modelin kendisini optimize etme, örneğin LongLLaMA'nın daha uzun dizilerin dışa aktarımını sağlamak için ince ayar yapması.

Uzun metin teknolojisi hala zorluklarla karşılaşsa da, kesinlikle büyük modellerin daha fazla uygulamaya geçirilmesinin anahtarıdır. Gelecekte, büyük model üreticileri metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmalıdırlar, böylece uzun metin işleme yeteneklerinde bir sıçrama gerçekleştirebilirler.

TOKEN-4.8%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 7
  • Repost
  • Share
Comment
0/400
AirdropHunterWangvip
· 08-14 11:19
Yine biraz daha token kazanabiliriz.
View OriginalReply0
Ser_Liquidatedvip
· 08-13 18:00
Günde on kat kaldıraç kaybı
View OriginalReply0
GateUser-00be86fcvip
· 08-12 04:26
Bu kelime baş ağrıtıyor gibi gözüküyor.
View OriginalReply0
SchroedingerAirdropvip
· 08-12 04:26
Bir işe yaramaz, Kripto Para Trade daha cazip.
View OriginalReply0
ApeShotFirstvip
· 08-12 04:14
Lütfen artık sarmayın.
View OriginalReply0
LiquidityNinjavip
· 08-12 04:07
Onu çek! Uzun metinler patates kızartması gibi lezzetli.
View OriginalReply0
SleepyValidatorvip
· 08-12 04:05
Durum böyle işte.
View OriginalReply0
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)