La capacidad de procesamiento de textos largos de modelos grandes ha aumentado cien veces, desafiando y coexistiendo con oportunidades.

Los fabricantes de grandes modelos compiten por superar la capacidad de texto largo

Los grandes modelos están mejorando su capacidad para manejar texto largo a una velocidad sorprendente. Actualmente, varias empresas tecnológicas y centros de investigación líderes en el país y en el extranjero han hecho de la expansión de la longitud del contexto un enfoque clave para la actualización.

Desde 4000 tokens hasta 400,000 tokens, la longitud de procesamiento de texto de los grandes modelos ha crecido cien veces en un corto período de tiempo. OpenAI, tras múltiples actualizaciones, ha aumentado la longitud de entrada del contexto de GPT-4 a 32,000 tokens. Anthropic ha ampliado de una vez la longitud del contexto de su modelo Claude a 100,000 tokens. El Kimi Chat, lanzado por la cara oscura de la luna en el país, incluso admite una entrada equivalente a 400,000 tokens de 200,000 caracteres chinos.

La mejora en la capacidad de procesamiento de textos largos no solo significa que el modelo puede leer textos más extensos, sino que también impulsará la aplicación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica. Por ejemplo, las capacidades de resumen, comprensión lectora y preguntas y respuestas de documentos largos se verán significativamente mejoradas.

Sin embargo, la longitud del texto no siempre es mejor cuanto más larga sea. Los estudios muestran que no hay una relación causal directa entre la longitud del contexto soportada por el modelo y su efectividad. Lo más importante es cómo el modelo utiliza de manera efectiva el contenido del contexto.

Actualmente, la tecnología de texto largo enfrenta la difícil "tríada imposible" de longitud de texto, atención y poder de cómputo. A medida que aumenta la longitud del texto, el modelo tiene dificultades para centrarse en la información clave; mientras que mantener una atención adecuada requiere consumir una gran cantidad de poder de cómputo.

Para superar este dilema, los investigadores han propuesto diversas soluciones:

  1. Utilizar herramientas externas para ayudar a procesar textos largos, como dividir un texto largo en varios textos cortos.

  2. Optimizar la forma de cálculo del mecanismo de autoatención, como la tecnología LongLoRA.

  3. Optimizar el modelo en sí, como LongLLaMA que logra extrapolaciones de secuencias más largas mediante ajuste fino.

A pesar de que la tecnología de textos largos todavía enfrenta desafíos, sin duda es clave para impulsar la aplicación de modelos grandes. En el futuro, los proveedores de modelos grandes necesitarán encontrar el mejor equilibrio entre la longitud del texto, la atención y la potencia de cálculo para lograr un avance en la capacidad de procesamiento de textos largos.

TOKEN1.8%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Republicar
  • Compartir
Comentar
0/400
AirdropHunterWangvip
· 08-14 11:19
¡Podemos obtener más tokens!
Ver originalesResponder0
Ser_Liquidatedvip
· 08-13 18:00
Perder diez veces con un apalancamiento de diez.
Ver originalesResponder0
GateUser-00be86fcvip
· 08-12 04:26
Esta palabra me duele la cabeza.
Ver originalesResponder0
SchroedingerAirdropvip
· 08-12 04:26
¿De qué sirve? El comercio de criptomonedas es mejor.
Ver originalesResponder0
ApeShotFirstvip
· 08-12 04:14
No se enrollen, por favor.
Ver originalesResponder0
LiquidityNinjavip
· 08-12 04:07
¡Dale! El texto largo huele tan bien como un pastel frito.
Ver originalesResponder0
SleepyValidatorvip
· 08-12 04:05
Así es como son las cosas.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)