La próxima revolución de la industria de la IA: de la competición por la potencia computacional a la revolución de los datos
El tamaño de los parámetros del modelo de inteligencia artificial (AI) ha superado el billón y la potencia computacional se mide en cientos de billones de veces por segundo (FLOPS), un núcleo de cuello de botella que ha sido ignorado está saliendo a la superficie: los datos. La próxima revolución de la industria de la IA no será impulsada por la arquitectura del modelo o la potencia computacional de los chips, sino que dependerá de cómo transformemos los datos fragmentados del comportamiento humano en capital verificable, estructurado y listo para la IA. Esta visión no solo revela las contradicciones estructurales en el desarrollo actual de la IA, sino que también esboza un nuevo panorama de la "era DataFi"—en esta era, los datos ya no son un subproducto de la tecnología, sino un factor de producción central que puede medirse, comercializarse y valorizarse, al igual que la electricidad y la potencia computacional.
De la competencia de potencia computacional a la escasez de datos: las contradicciones estructurales de la industria de la IA
El desarrollo de la IA ha sido impulsado a largo plazo por el "modelo-potencia computacional" de doble núcleo. Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones (, como en AlexNet de 2012, a billones ), como en GPT-4(, con una demanda de potencia computacional que crece de manera exponencial. El costo de entrenar un modelo de lenguaje avanzado ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria centra su atención en "modelos más grandes" y "chips más rápidos", una crisis en el lado de la oferta de datos está surgiendo silenciosamente.
Los "datos orgánicos" generados por humanos han alcanzado un techo de crecimiento. Tomando como ejemplo los datos de texto, la cantidad total de texto de alta calidad accesible y rastreable en internet, como libros, artículos y noticias, es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere consumir datos a nivel de 10^13 palabras; esto significa que la actual piscina de datos solo puede soportar el entrenamiento de 10 modelos de igual escala. Más preocupante aún, los datos duplicados y el contenido de baja calidad representan más del 60%, lo que reduce aún más la oferta de datos efectivos. Cuando los modelos comienzan a "devorar" los datos generados por sí mismos, como artículos escritos por IA e imágenes generadas por IA, la "contaminación de datos" que resulta en la degradación del rendimiento del modelo se ha convertido en una preocupación para la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos", en lugar de "activos estratégicos" que requieren un cuidadoso cultivo. Los modelos y la Potencia computacional han formado un sistema de mercado maduro: la Potencia computacional se valora por FLOPS en plataformas en la nube, y los modelos tienen interfaces API que cobran por número de llamadas; sin embargo, la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era primitiva". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en cadena de la red de criptomonedas son la clave para desbloquear este dilema.
Datos en cadena: la "base de datos de comportamiento humano" que más necesita la IA
En el contexto de la escasez de datos, los datos en cadena de las redes criptográficas están demostrando un valor insustituible. En comparación con los datos de Internet tradicional ), como publicaciones en redes sociales, comentarios de comercio electrónico (, los datos en cadena poseen de forma innata la autenticidad de la "alineación de incentivos": cada transacción, cada interacción de contrato y cada comportamiento de dirección de billetera están directamente vinculados a capital real y son inalterables. Esto representa "los datos de comportamiento de alineación de incentivos humanos más concentrados en Internet", que se concretan en tres dimensiones:
) Señales de "intención" del mundo real
Los datos registrados en la cadena no son comentarios emocionalmente cargados o clics aleatorios, sino decisiones de comportamiento que se votan con dinero real. Por ejemplo, la acción de un monedero al intercambiar activos en un DEX, hipotecar y pedir prestado en una plataforma de préstamos, o registrar un dominio, refleja directamente el juicio del usuario sobre el valor del proyecto, su preferencia de riesgo y su estrategia de asignación de fondos. Estos datos "avalados por capital" son de un alto valor para entrenar la capacidad de decisión de la IA (, como predicciones financieras y análisis de mercado ). En comparación, los datos de Internet tradicionales están llenos de "ruido" — como los 'me gusta' falsos en las redes sociales y las reseñas manipuladas en plataformas de e-commerce; estos datos no solo no pueden entrenar modelos de IA confiables, sino que incluso pueden inducir a error en el juicio del modelo.
( cadena de "comportamiento" rastreable
La transparencia de la blockchain permite que el comportamiento de los usuarios sea completamente rastreable. El historial de transacciones de una dirección de billetera, los protocolos con los que ha interactuado y los cambios en los activos que posee, forman una "cadena de comportamiento" coherente. Por ejemplo, al analizar las operaciones de una dirección en protocolos DeFi desde 2020 hasta la fecha, la IA puede identificar con precisión si es un "tenedor a largo plazo", un "comerciante de arbitraje" o un "proveedor de liquidez", y construir un perfil de usuario en consecuencia. Estos datos de comportamiento estructurados son precisamente la "muestra de razonamiento humano" más escasa para los modelos de IA actuales.
) acceso "sin permisos" en un ecosistema abierto
A diferencia de la naturaleza cerrada de los datos de empresas tradicionales como los registros de transacciones bancarias y los datos de usuarios de comercio electrónico, los datos en cadena son abiertos y no requieren permiso. Cualquier desarrollador puede acceder a datos originales a través de un explorador de blockchain o una API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA. Sin embargo, esta apertura también presenta desafíos: los datos en cadena existen en forma de "registros de eventos" como los eventos de Transferencia ERC-20 de Ethereum y los eventos de Swap de un DEX, que son "señales originales" no estructuradas y requieren limpieza, estandarización y asociación para ser utilizados por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en cadena es inferior al 5%, y una gran cantidad de señales de alto valor se pierden entre miles de millones de eventos fragmentados.
Hyperdata Network: el "sistema operativo" de los datos en cadena
Para resolver el problema de la fragmentación de datos en la cadena, ha surgido un nuevo tipo de "sistema operativo inteligente en la cadena". Su objetivo principal es transformar las señales dispersas en la cadena en datos estructurados, verificables y listos para IA, que se pueden combinar en tiempo real.
Manuscrito: Estándares de datos abiertos, para que la IA "entienda" el mundo en la cadena
Uno de los mayores puntos críticos de los datos en cadena es "el formato desordenado"; los registros de eventos de diferentes blockchains ( como Ethereum, Solana y Avalanche) tienen formatos diferentes, y la estructura de datos de diferentes versiones del mismo protocolo también puede variar. Manuscript, como un estándar de esquema de datos abierto, unifica la definición y la forma de descripción de los datos en cadena. Por ejemplo, estandariza el "comportamiento de participación del usuario" en datos estructurados que incluyen campos como staker_address, protocol_id, amount, timestamp, reward_token, asegurando que los modelos de IA no necesiten adaptarse a los formatos de datos de diferentes cadenas o protocolos, y puedan "entender" directamente la lógica empresarial detrás de los datos.
Este valor estandarizado radica en la reducción de los costos de fricción en el desarrollo de IA. Supongamos que un equipo quiere entrenar un "modelo de predicción del comportamiento de los usuarios de DeFi"; de manera tradicional, se necesita integrar las API de múltiples cadenas como Ethereum, Polygon, etc., y escribir diferentes scripts de análisis. Sin embargo, basado en Manuscript, todos los datos en cadena ya han sido preprocesados según un estándar unificado, permitiendo a los desarrolladores llamar directamente a datos estructurados como "registros de apuesta de usuarios" y "registros de provisión de liquidez", acortando significativamente el ciclo de entrenamiento del modelo.
Los requisitos fundamentales de un modelo de IA para los datos son "confiables"; si los datos de entrenamiento han sido alterados o contaminados, la salida del modelo no tendrá valor. A través del mecanismo de AVS###Active Validator Set### de Ethereum, se puede garantizar la autenticidad de los datos. AVS es un componente de extensión de la capa de consenso de Ethereum, compuesto por nodos validador con más de 600,000 ETH en garantía, que son responsables de verificar la integridad y exactitud de los datos en cadena. Al procesar un evento en la cadena, los nodos de AVS verifican de forma cruzada los valores hash de los datos, la información de firma y el estado en la cadena, asegurando que los datos estructurados de salida sean completamente consistentes con los datos originales en la cadena.
Este mecanismo de verificación de "garantía de economía criptográfica" resuelve el problema de confianza de la verificación centralizada de datos tradicionales. Por ejemplo, si una empresa de IA utiliza datos en cadena proporcionados por una entidad centralizada, debe confiar en que dicha entidad no ha manipulado los datos; mientras que con la verificación descentralizada, la autenticidad de los datos es respaldada por una red de verificadores descentralizados, y cualquier intento de manipulación activará el mecanismo de penalización del contrato inteligente, como la deducción del ETH de garantía.
( Capa de disponibilidad de datos de alto rendimiento
Modelos de IA, especialmente aplicaciones de IA interactivas en tiempo real ) como robots de trading, atención al cliente inteligente (, requieren un suministro de datos de baja latencia y alta capacidad de procesamiento. Al optimizar los algoritmos de compresión de datos y los protocolos de transmisión, se puede lograr el procesamiento en tiempo real de cientos de miles de eventos en la cadena por segundo. Por ejemplo, cuando se realiza una transacción de gran volumen en un DEX, se puede completar la extracción de datos, normalización y verificación en 1 segundo, y enviar la "señal de transacción de gran volumen" estructurada a los modelos de IA suscritos, permitiendo que ajusten sus estrategias de trading de manera oportuna.
Detrás de la alta capacidad de procesamiento se encuentra una arquitectura modular: se separan el almacenamiento de datos y el cálculo, siendo el almacenamiento de datos llevado a cabo por una red de nodos distribuidos, mientras que el cálculo se realiza mediante Rollup fuera de la cadena, evitando así el cuello de botella de rendimiento de la propia blockchain. Este diseño permite que la red de datos pueda soportar la demanda de datos en tiempo real para aplicaciones de IA a gran escala, como proporcionar servicios de datos en línea en la cadena para miles de agentes de transacciones.
Era DataFi: Cuando los datos se convierten en "capital" negociable
El objetivo final de la nueva red de datos es impulsar la industria de la IA hacia la era DataFi: los datos ya no son "material de entrenamiento" pasivo, sino "capital" activo, que puede ser valorado, negociado y apreciado. Así como la electricidad se valora en kilovatios, la potencia computacional se valora en FLOPS, los datos también deben ser puntuados, clasificados y valorados. La realización de esta visión depende de la transformación de los datos en cuatro propiedades clave:
) Estructurado: de "señal original" a "activo utilizable"
Los datos en cadena sin procesar son como "petróleo crudo", que deben ser refinados para convertirse en "gasolina". A través de la estandarización, se transforman en datos estructurados, por ejemplo, descomponiendo "la dirección de la billetera A depositó X tokens en el protocolo B en el tiempo T" en datos multidimensionales que incluyen el perfil del usuario, las propiedades del protocolo, el tipo de activo y la marca de tiempo. Esta estructuración permite que los datos sean llamados directamente por modelos de IA, tan simple como invocar una interfaz API.
Combinable: los "Lego de datos"
En Web3, la "composabilidad" ha dado lugar a la explosión de DeFi ( como innovaciones combinadas de DEX + préstamos + agregación de rendimientos ). Al introducir esta idea en el ámbito de los datos: los datos estructurados pueden combinarse libremente como bloques de Lego. Por ejemplo, los desarrolladores pueden combinar "registros de participación de usuarios" ( de protocolos de participación ) con "datos de fluctuación de precios" ( de oráculos ) y "menciones sociales" ### de la API de plataformas sociales (, para entrenar un "modelo de predicción de sentimiento del mercado DeFi". Esta composabilidad amplía enormemente los límites de aplicación de los datos, permitiendo que la innovación en IA no esté limitada a una única fuente de datos.
) verificable: el "respaldo de crédito" de los datos
A través de datos estructurados verificados, se generará una "huella digital de datos" ### valor hash ###, que se almacenará en la cadena de bloques. Cualquier aplicación de IA o desarrollador que utilice esos datos puede confirmar la autenticidad de los datos verificando el valor hash. Esta "verificabilidad" otorga a los datos propiedades de crédito: por ejemplo, un conjunto de datos etiquetado como "señal de transacción de alta calidad" puede tener su tasa de precisión histórica rastreada a través del registro hash en la cadena de bloques, los usuarios no necesitan confiar en el proveedor del conjunto de datos, solo necesitan verificar la huella digital de los datos para juzgar la calidad de los datos.
( puede monetizar: la "monetización del valor" de los datos
En la era de DataFi, los proveedores de datos pueden monetizar datos estructurados directamente. Por ejemplo, un equipo desarrolló una "señal de alerta de vulnerabilidades en contratos inteligentes" analizando datos en la cadena, y puede empaquetar esta señal como un servicio API, cobrando por cada uso; los usuarios comunes también pueden autorizar el intercambio de sus datos anónimos en la cadena y recibir recompensas en tokens de datos. En el ecosistema de datos, el valor de los datos se determina por la oferta y la demanda del mercado: las señales de trading de alta precisión pueden tener un precio más alto, mientras que los datos básicos de comportamiento del usuario pueden cobrarse por uso.
Conclusión: Revolución de datos, la próxima década de la IA
Cuando hablamos del futuro de la IA, a menudo nos enfocamos en el "nivel de inteligencia" del modelo, pero pasamos por alto el "suelo de datos" que sustenta esa inteligencia. Las nuevas redes de datos revelan una verdad central: la evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en la cadena, desde la "desorden" de señales fragmentadas hasta la "orden" de datos estructurados, desde los "recursos gratuitos" de los datos hasta los "activos de capital" de DataFi, están remodelando la lógica subyacente de la industria de la IA.
En esta era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real: los agentes de trading perciben el sentimiento del mercado a través de datos en cadena, las dApps autónomas optimizan sus servicios mediante datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos al compartir datos. Así como la red eléctrica dio lugar a la revolución industrial, la Potencia computacional dio origen a la revolución de Internet, la red de datos está dando lugar a la "revolución de datos" de la IA.
Las aplicaciones nativas de IA de próxima generación no solo requieren modelos o billeteras, sino también datos programables y de alta señal que no necesiten confianza. Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
16 me gusta
Recompensa
16
7
Republicar
Compartir
Comentar
0/400
GasGrillMaster
· 07-27 18:02
¿No es solo recopilar datos?
Ver originalesResponder0
PuzzledScholar
· 07-26 22:29
Los datos también deben ser capitalizados, es muy agotador.
Ver originalesResponder0
MEVHunterX
· 07-26 06:24
No es lo suficientemente rápido, los datos son lentos y serán desechados.
Ver originalesResponder0
consensus_failure
· 07-26 06:23
La revolución de los datos parece que se acerca...炒波zona DataFi
Ver originalesResponder0
AirdropworkerZhang
· 07-26 06:13
Parece que va a haber competencia interna otra vez, ¿eh?
Ver originalesResponder0
TrustlessMaximalist
· 07-26 06:12
Es demasiado tarde, los grandes datos ya se han convertido en el estándar de Web3.
La era de DataFi ha llegado: los datos en cadena liderarán la próxima revolución de la industria de la IA.
La próxima revolución de la industria de la IA: de la competición por la potencia computacional a la revolución de los datos
El tamaño de los parámetros del modelo de inteligencia artificial (AI) ha superado el billón y la potencia computacional se mide en cientos de billones de veces por segundo (FLOPS), un núcleo de cuello de botella que ha sido ignorado está saliendo a la superficie: los datos. La próxima revolución de la industria de la IA no será impulsada por la arquitectura del modelo o la potencia computacional de los chips, sino que dependerá de cómo transformemos los datos fragmentados del comportamiento humano en capital verificable, estructurado y listo para la IA. Esta visión no solo revela las contradicciones estructurales en el desarrollo actual de la IA, sino que también esboza un nuevo panorama de la "era DataFi"—en esta era, los datos ya no son un subproducto de la tecnología, sino un factor de producción central que puede medirse, comercializarse y valorizarse, al igual que la electricidad y la potencia computacional.
De la competencia de potencia computacional a la escasez de datos: las contradicciones estructurales de la industria de la IA
El desarrollo de la IA ha sido impulsado a largo plazo por el "modelo-potencia computacional" de doble núcleo. Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones (, como en AlexNet de 2012, a billones ), como en GPT-4(, con una demanda de potencia computacional que crece de manera exponencial. El costo de entrenar un modelo de lenguaje avanzado ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria centra su atención en "modelos más grandes" y "chips más rápidos", una crisis en el lado de la oferta de datos está surgiendo silenciosamente.
Los "datos orgánicos" generados por humanos han alcanzado un techo de crecimiento. Tomando como ejemplo los datos de texto, la cantidad total de texto de alta calidad accesible y rastreable en internet, como libros, artículos y noticias, es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere consumir datos a nivel de 10^13 palabras; esto significa que la actual piscina de datos solo puede soportar el entrenamiento de 10 modelos de igual escala. Más preocupante aún, los datos duplicados y el contenido de baja calidad representan más del 60%, lo que reduce aún más la oferta de datos efectivos. Cuando los modelos comienzan a "devorar" los datos generados por sí mismos, como artículos escritos por IA e imágenes generadas por IA, la "contaminación de datos" que resulta en la degradación del rendimiento del modelo se ha convertido en una preocupación para la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos", en lugar de "activos estratégicos" que requieren un cuidadoso cultivo. Los modelos y la Potencia computacional han formado un sistema de mercado maduro: la Potencia computacional se valora por FLOPS en plataformas en la nube, y los modelos tienen interfaces API que cobran por número de llamadas; sin embargo, la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era primitiva". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en cadena de la red de criptomonedas son la clave para desbloquear este dilema.
Datos en cadena: la "base de datos de comportamiento humano" que más necesita la IA
En el contexto de la escasez de datos, los datos en cadena de las redes criptográficas están demostrando un valor insustituible. En comparación con los datos de Internet tradicional ), como publicaciones en redes sociales, comentarios de comercio electrónico (, los datos en cadena poseen de forma innata la autenticidad de la "alineación de incentivos": cada transacción, cada interacción de contrato y cada comportamiento de dirección de billetera están directamente vinculados a capital real y son inalterables. Esto representa "los datos de comportamiento de alineación de incentivos humanos más concentrados en Internet", que se concretan en tres dimensiones:
) Señales de "intención" del mundo real
Los datos registrados en la cadena no son comentarios emocionalmente cargados o clics aleatorios, sino decisiones de comportamiento que se votan con dinero real. Por ejemplo, la acción de un monedero al intercambiar activos en un DEX, hipotecar y pedir prestado en una plataforma de préstamos, o registrar un dominio, refleja directamente el juicio del usuario sobre el valor del proyecto, su preferencia de riesgo y su estrategia de asignación de fondos. Estos datos "avalados por capital" son de un alto valor para entrenar la capacidad de decisión de la IA (, como predicciones financieras y análisis de mercado ). En comparación, los datos de Internet tradicionales están llenos de "ruido" — como los 'me gusta' falsos en las redes sociales y las reseñas manipuladas en plataformas de e-commerce; estos datos no solo no pueden entrenar modelos de IA confiables, sino que incluso pueden inducir a error en el juicio del modelo.
( cadena de "comportamiento" rastreable
La transparencia de la blockchain permite que el comportamiento de los usuarios sea completamente rastreable. El historial de transacciones de una dirección de billetera, los protocolos con los que ha interactuado y los cambios en los activos que posee, forman una "cadena de comportamiento" coherente. Por ejemplo, al analizar las operaciones de una dirección en protocolos DeFi desde 2020 hasta la fecha, la IA puede identificar con precisión si es un "tenedor a largo plazo", un "comerciante de arbitraje" o un "proveedor de liquidez", y construir un perfil de usuario en consecuencia. Estos datos de comportamiento estructurados son precisamente la "muestra de razonamiento humano" más escasa para los modelos de IA actuales.
) acceso "sin permisos" en un ecosistema abierto
A diferencia de la naturaleza cerrada de los datos de empresas tradicionales como los registros de transacciones bancarias y los datos de usuarios de comercio electrónico, los datos en cadena son abiertos y no requieren permiso. Cualquier desarrollador puede acceder a datos originales a través de un explorador de blockchain o una API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA. Sin embargo, esta apertura también presenta desafíos: los datos en cadena existen en forma de "registros de eventos" como los eventos de Transferencia ERC-20 de Ethereum y los eventos de Swap de un DEX, que son "señales originales" no estructuradas y requieren limpieza, estandarización y asociación para ser utilizados por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en cadena es inferior al 5%, y una gran cantidad de señales de alto valor se pierden entre miles de millones de eventos fragmentados.
Hyperdata Network: el "sistema operativo" de los datos en cadena
Para resolver el problema de la fragmentación de datos en la cadena, ha surgido un nuevo tipo de "sistema operativo inteligente en la cadena". Su objetivo principal es transformar las señales dispersas en la cadena en datos estructurados, verificables y listos para IA, que se pueden combinar en tiempo real.
Manuscrito: Estándares de datos abiertos, para que la IA "entienda" el mundo en la cadena
Uno de los mayores puntos críticos de los datos en cadena es "el formato desordenado"; los registros de eventos de diferentes blockchains ( como Ethereum, Solana y Avalanche) tienen formatos diferentes, y la estructura de datos de diferentes versiones del mismo protocolo también puede variar. Manuscript, como un estándar de esquema de datos abierto, unifica la definición y la forma de descripción de los datos en cadena. Por ejemplo, estandariza el "comportamiento de participación del usuario" en datos estructurados que incluyen campos como staker_address, protocol_id, amount, timestamp, reward_token, asegurando que los modelos de IA no necesiten adaptarse a los formatos de datos de diferentes cadenas o protocolos, y puedan "entender" directamente la lógica empresarial detrás de los datos.
Este valor estandarizado radica en la reducción de los costos de fricción en el desarrollo de IA. Supongamos que un equipo quiere entrenar un "modelo de predicción del comportamiento de los usuarios de DeFi"; de manera tradicional, se necesita integrar las API de múltiples cadenas como Ethereum, Polygon, etc., y escribir diferentes scripts de análisis. Sin embargo, basado en Manuscript, todos los datos en cadena ya han sido preprocesados según un estándar unificado, permitiendo a los desarrolladores llamar directamente a datos estructurados como "registros de apuesta de usuarios" y "registros de provisión de liquidez", acortando significativamente el ciclo de entrenamiento del modelo.
Los requisitos fundamentales de un modelo de IA para los datos son "confiables"; si los datos de entrenamiento han sido alterados o contaminados, la salida del modelo no tendrá valor. A través del mecanismo de AVS###Active Validator Set### de Ethereum, se puede garantizar la autenticidad de los datos. AVS es un componente de extensión de la capa de consenso de Ethereum, compuesto por nodos validador con más de 600,000 ETH en garantía, que son responsables de verificar la integridad y exactitud de los datos en cadena. Al procesar un evento en la cadena, los nodos de AVS verifican de forma cruzada los valores hash de los datos, la información de firma y el estado en la cadena, asegurando que los datos estructurados de salida sean completamente consistentes con los datos originales en la cadena.
Este mecanismo de verificación de "garantía de economía criptográfica" resuelve el problema de confianza de la verificación centralizada de datos tradicionales. Por ejemplo, si una empresa de IA utiliza datos en cadena proporcionados por una entidad centralizada, debe confiar en que dicha entidad no ha manipulado los datos; mientras que con la verificación descentralizada, la autenticidad de los datos es respaldada por una red de verificadores descentralizados, y cualquier intento de manipulación activará el mecanismo de penalización del contrato inteligente, como la deducción del ETH de garantía.
( Capa de disponibilidad de datos de alto rendimiento
Modelos de IA, especialmente aplicaciones de IA interactivas en tiempo real ) como robots de trading, atención al cliente inteligente (, requieren un suministro de datos de baja latencia y alta capacidad de procesamiento. Al optimizar los algoritmos de compresión de datos y los protocolos de transmisión, se puede lograr el procesamiento en tiempo real de cientos de miles de eventos en la cadena por segundo. Por ejemplo, cuando se realiza una transacción de gran volumen en un DEX, se puede completar la extracción de datos, normalización y verificación en 1 segundo, y enviar la "señal de transacción de gran volumen" estructurada a los modelos de IA suscritos, permitiendo que ajusten sus estrategias de trading de manera oportuna.
Detrás de la alta capacidad de procesamiento se encuentra una arquitectura modular: se separan el almacenamiento de datos y el cálculo, siendo el almacenamiento de datos llevado a cabo por una red de nodos distribuidos, mientras que el cálculo se realiza mediante Rollup fuera de la cadena, evitando así el cuello de botella de rendimiento de la propia blockchain. Este diseño permite que la red de datos pueda soportar la demanda de datos en tiempo real para aplicaciones de IA a gran escala, como proporcionar servicios de datos en línea en la cadena para miles de agentes de transacciones.
Era DataFi: Cuando los datos se convierten en "capital" negociable
El objetivo final de la nueva red de datos es impulsar la industria de la IA hacia la era DataFi: los datos ya no son "material de entrenamiento" pasivo, sino "capital" activo, que puede ser valorado, negociado y apreciado. Así como la electricidad se valora en kilovatios, la potencia computacional se valora en FLOPS, los datos también deben ser puntuados, clasificados y valorados. La realización de esta visión depende de la transformación de los datos en cuatro propiedades clave:
) Estructurado: de "señal original" a "activo utilizable"
Los datos en cadena sin procesar son como "petróleo crudo", que deben ser refinados para convertirse en "gasolina". A través de la estandarización, se transforman en datos estructurados, por ejemplo, descomponiendo "la dirección de la billetera A depositó X tokens en el protocolo B en el tiempo T" en datos multidimensionales que incluyen el perfil del usuario, las propiedades del protocolo, el tipo de activo y la marca de tiempo. Esta estructuración permite que los datos sean llamados directamente por modelos de IA, tan simple como invocar una interfaz API.
Combinable: los "Lego de datos"
En Web3, la "composabilidad" ha dado lugar a la explosión de DeFi ( como innovaciones combinadas de DEX + préstamos + agregación de rendimientos ). Al introducir esta idea en el ámbito de los datos: los datos estructurados pueden combinarse libremente como bloques de Lego. Por ejemplo, los desarrolladores pueden combinar "registros de participación de usuarios" ( de protocolos de participación ) con "datos de fluctuación de precios" ( de oráculos ) y "menciones sociales" ### de la API de plataformas sociales (, para entrenar un "modelo de predicción de sentimiento del mercado DeFi". Esta composabilidad amplía enormemente los límites de aplicación de los datos, permitiendo que la innovación en IA no esté limitada a una única fuente de datos.
) verificable: el "respaldo de crédito" de los datos
A través de datos estructurados verificados, se generará una "huella digital de datos" ### valor hash ###, que se almacenará en la cadena de bloques. Cualquier aplicación de IA o desarrollador que utilice esos datos puede confirmar la autenticidad de los datos verificando el valor hash. Esta "verificabilidad" otorga a los datos propiedades de crédito: por ejemplo, un conjunto de datos etiquetado como "señal de transacción de alta calidad" puede tener su tasa de precisión histórica rastreada a través del registro hash en la cadena de bloques, los usuarios no necesitan confiar en el proveedor del conjunto de datos, solo necesitan verificar la huella digital de los datos para juzgar la calidad de los datos.
( puede monetizar: la "monetización del valor" de los datos
En la era de DataFi, los proveedores de datos pueden monetizar datos estructurados directamente. Por ejemplo, un equipo desarrolló una "señal de alerta de vulnerabilidades en contratos inteligentes" analizando datos en la cadena, y puede empaquetar esta señal como un servicio API, cobrando por cada uso; los usuarios comunes también pueden autorizar el intercambio de sus datos anónimos en la cadena y recibir recompensas en tokens de datos. En el ecosistema de datos, el valor de los datos se determina por la oferta y la demanda del mercado: las señales de trading de alta precisión pueden tener un precio más alto, mientras que los datos básicos de comportamiento del usuario pueden cobrarse por uso.
Conclusión: Revolución de datos, la próxima década de la IA
Cuando hablamos del futuro de la IA, a menudo nos enfocamos en el "nivel de inteligencia" del modelo, pero pasamos por alto el "suelo de datos" que sustenta esa inteligencia. Las nuevas redes de datos revelan una verdad central: la evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en la cadena, desde la "desorden" de señales fragmentadas hasta la "orden" de datos estructurados, desde los "recursos gratuitos" de los datos hasta los "activos de capital" de DataFi, están remodelando la lógica subyacente de la industria de la IA.
En esta era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real: los agentes de trading perciben el sentimiento del mercado a través de datos en cadena, las dApps autónomas optimizan sus servicios mediante datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos al compartir datos. Así como la red eléctrica dio lugar a la revolución industrial, la Potencia computacional dio origen a la revolución de Internet, la red de datos está dando lugar a la "revolución de datos" de la IA.
Las aplicaciones nativas de IA de próxima generación no solo requieren modelos o billeteras, sino también datos programables y de alta señal que no necesiten confianza. Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.