A era do DataFi chegou: os dados na cadeia irão liderar a próxima revolução na indústria de IA.

A próxima revolução da indústria de IA: da corrida pelo poder de computação à revolução dos dados

A escala de parâmetros dos modelos de inteligência artificial (AI) ultrapassou um trilhão, e a capacidade de computação é medida em centenas de quintilhões de operações por segundo (FLOPS), mas um gargalo central que tem sido ignorado está emergindo - os dados. A próxima revolução na indústria de IA não será mais impulsionada pela arquitetura do modelo ou pelo poder de computação dos chips, mas dependerá de como transformamos os dados de comportamento humano fragmentados em capital verificável, estruturado e pronto para a IA. Esse insight não apenas revela a contradição estrutural do desenvolvimento atual da IA, mas também esboça uma nova visão da "Era DataFi" - uma era em que os dados não são mais um subproduto da tecnologia, mas sim um fator de produção central que pode ser medido, negociado e valorizado, assim como eletricidade e poder de computação.

Da competição de poder de computação à fome de dados: as contradições estruturais da indústria de IA

O desenvolvimento da IA tem sido impulsionado a longo prazo por um núcleo duplo de "modelo-Poder de computação". Desde a revolução do aprendizado profundo, os parâmetros do modelo passaram de milhões (, como o AlexNet de 2012, para trilhões ), como o GPT-4(, com a demanda por poder de computação a crescer de forma exponencial. O custo de treinar um avançado modelo de linguagem grande já ultrapassou 100 milhões de dólares, sendo que 90% disso é destinado ao aluguel de clusters de GPU. No entanto, enquanto a indústria foca em "modelos maiores" e "chips mais rápidos", uma crise do lado da oferta de dados está silenciosamente se aproximando.

Os "dados orgânicos" gerados pela humanidade atingiram o teto de crescimento. Tomando os dados textuais como exemplo, a quantidade total de texto de alta qualidade disponível na internet, como livros, artigos e notícias, que pode ser rastreada, é de aproximadamente 10^12 palavras, enquanto o treinamento de um modelo com cem bilhões de parâmetros requer cerca de 10^13 palavras de dados – isso significa que o pool de dados existente só pode suportar o treinamento de 10 modelos de escala equivalente. Mais grave ainda, a proporção de dados duplicados e conteúdo de baixa qualidade ultrapassa 60%, o que comprime ainda mais a oferta de dados eficazes. Quando os modelos começam a "devorar" os dados que eles próprios geram, como artigos escritos por IA e imagens geradas por IA, a "poluição de dados" resulta na degradação do desempenho dos modelos, tornando-se uma preocupação para a indústria.

A raiz dessa contradição está em que a indústria de IA há muito tempo vê os dados como "recursos gratuitos", em vez de "ativos estratégicos" que precisam ser cuidadosamente cultivados. Modelos e poder de computação já formaram um sistema de mercado maduro - o poder de computação é precificado em plataformas de nuvem por FLOPS, enquanto os modelos têm interfaces API que cobram por número de chamadas - mas a produção, limpeza, validação e negociação de dados ainda estão na "era primitiva". A próxima década da IA será a década da "infraestrutura de dados", e os dados on-chain da rede criptográfica são a chave para desbloquear esse impasse.

Dados on-chain: A "base de dados de comportamento humano" mais necessária para a IA

No contexto da escassez de dados, os dados on-chain das redes de criptomoedas estão a revelar um valor insubstituível. Em comparação com os dados da Internet tradicional ), como publicações em redes sociais e comentários de e-commerce (, os dados on-chain possuem uma autenticidade inerente ao "alinhamento de incentivos" — cada transação, cada interação contratual, cada comportamento de um endereço de carteira está diretamente ligado a capital real e é irreversível. Estes são "os dados de comportamento de alinhamento de incentivos humanos mais concentrados na Internet", manifestando-se em três dimensões:

) sinal de "intenção" do mundo real

Os dados registrados na blockchain não são comentários emocionais ou cliques aleatórios, mas sim comportamentos decisórios que envolvem o uso de dinheiro real para votar. Por exemplo, a troca de ativos de uma carteira em uma DEX, a utilização de uma plataforma de empréstimos para colateralizar empréstimos ou o registro de um domínio, reflete diretamente o julgamento do usuário sobre o valor do projeto, suas preferências de risco e estratégias de alocação de recursos. Esses dados "apoiados pelo capital" têm um valor extremamente alto para treinar a capacidade de decisão da IA (, como previsões financeiras e análises de mercado ). Em comparação, os dados da internet tradicional estão repletos de "ruído" — como curtidas falsas nas redes sociais e comentários manipulados em plataformas de e-commerce, que não apenas não conseguem treinar modelos de IA confiáveis, mas também podem induzir o modelo a erro.

( cadeia de "comportamento" rastreável

A transparência da blockchain permite que o comportamento dos usuários seja completamente rastreável. O histórico de transações de um endereço de carteira, os protocolos com os quais interagiu e as mudanças nos ativos que possui, formam uma "cadeia de comportamento" coerente. Por exemplo, ao analisar as operações de um determinado endereço nos protocolos DeFi desde 2020 até agora, a IA pode identificar com precisão se é um "detentor de longo prazo", "trader de arbitragem" ou "fornecedor de liquidez", e, com base nisso, construir um perfil de usuário. Esses dados de comportamento estruturados são, de fato, os "exemplos de raciocínio humano" mais escassos nos modelos de IA atuais.

) Acesso "sem licença" ao ecossistema aberto

Diferentemente da natureza fechada dos dados empresariais tradicionais ###, como registros de transações bancárias e dados de usuários de e-commerce (, os dados na blockchain são abertos e sem necessidade de permissão. Qualquer desenvolvedor pode acessar dados brutos através de um explorador de blockchain ou API de dados, o que fornece uma fonte de dados "sem barreiras" para o treinamento de modelos de IA. No entanto, essa abertura também traz desafios: os dados na blockchain existem na forma de "logs de eventos" ), como eventos de Transferência ERC-20 do Ethereum e eventos de Swap de um DEX ###, que são "sinais brutos" não estruturados, necessitando de limpeza, padronização e correlação para serem utilizados por modelos de IA. Atualmente, a "taxa de transformação estrutural" dos dados na blockchain é inferior a 5%, com uma grande quantidade de sinais de alto valor enterrados em bilhões de eventos fragmentados.

Hyperdata Network: o "sistema operativo" dos dados em cadeia

Para resolver o problema da fragmentação de dados na blockchain, surgiu um novo tipo de "sistema operativo inteligente em blockchain". O seu objetivo principal é transformar sinais dispersos da blockchain em dados estruturados, verificáveis e prontos para IA, que podem ser combinados em tempo real.

Manuscrito: Padrões de dados abertos, para que a IA "compreenda" o mundo em cadeia

Um dos maiores pontos críticos dos dados on-chain é a "confusão de formatos" - os formatos dos logs de eventos de diferentes blockchains (, como Ethereum, Solana e Avalanche ), variam. As estruturas de dados de diferentes versões do mesmo protocolo também podem mudar. O Manuscript, como um padrão aberto de schema de dados, unificou a definição e a forma de descrição dos dados on-chain. Por exemplo, ele padronizou o "comportamento de staking do usuário" como dados estruturados que incluem os campos staker_address, protocol_id, amount, timestamp, reward_token, entre outros, garantindo que os modelos de IA não precisem se adaptar a diferentes formatos de dados de chains ou protocolos, podendo "compreender" diretamente a lógica de negócios por trás dos dados.

O valor da padronização reside na redução dos custos de atrito no desenvolvimento de IA. Suponha que uma equipe precise treinar um "Modelo de Previsão de Comportamento de Usuários DeFi". O método tradicional exigiria a integração das APIs de várias blockchains, como Ethereum e Polygon, e a escrita de diferentes scripts de análise; enquanto que, com base no Manuscript, todos os dados on-chain já foram pré-processados de acordo com um padrão unificado, permitindo que os desenvolvedores chamem diretamente dados estruturados, como "Registros de Staking de Usuários" e "Registros de Fornecimento de Liquidez", encurtando significativamente o ciclo de treinamento do modelo.

A exigência central dos modelos de IA em relação aos dados é a "confiança" — se os dados de treinamento forem adulterados ou contaminados, a saída do modelo será sem valor. O mecanismo AVS(Active Validator Set) do Ethereum pode garantir a autenticidade dos dados. O AVS é um componente de extensão da camada de consenso do Ethereum, composto por nós validadores com mais de 600.000 ETH em staking, que são responsáveis por validar a integridade e a precisão dos dados na cadeia. Ao processar um evento na cadeia, os nós AVS verificam cruzadamente os hashes dos dados, as informações de assinatura e o estado da cadeia, garantindo que os dados estruturados de saída sejam totalmente consistentes com os dados originais na cadeia.

Este mecanismo de verificação de "garantia da economia criptográfica" resolve o problema de confiança da verificação centralizada de dados tradicionais. Por exemplo, se uma empresa de IA utilizar dados em cadeia fornecidos por uma instituição centralizada, deverá confiar que essa instituição não adulterou os dados; enquanto a verificação descentralizada garante a veracidade dos dados através de uma rede de validadores descentralizada, e qualquer ato de adulteração acionará o mecanismo de penalização do contrato inteligente, como a dedução do ETH em garantia.

Camada de disponibilidade de dados de alta taxa de transferência

Modelos de IA, especialmente aplicações de IA interativas em tempo real ( como robôs de negociação e atendimento ao cliente inteligente ), necessitam de fornecimento de dados com baixa latência e alta capacidade de processamento. Ao otimizar algoritmos de compressão de dados e protocolos de transmissão, é possível realizar o processamento em tempo real de centenas de milhares de eventos na blockchain por segundo. Por exemplo, quando ocorre uma grande transação em um DEX, é possível completar a extração, normalização e verificação dos dados em 1 segundo e enviar o "sinal de grande transação" estruturado para os modelos de IA inscritos, permitindo que ajustem suas estratégias de negociação em tempo hábil.

Por trás da alta taxa de transferência está a arquitetura modular - separando o armazenamento de dados do cálculo, sendo o armazenamento de dados suportado por uma rede de nós distribuídos, enquanto o cálculo é realizado através de Rollup fora da cadeia, evitando o gargalo de desempenho da própria blockchain. Este design permite que a rede de dados suporte a demanda de dados em tempo real para aplicações de IA em grande escala, como fornecer serviços de dados em cadeia online simultaneamente para milhares de agentes de negociação.

Era DataFi: Quando os dados se tornam "capital" negociável

O objetivo final da nova rede de dados é impulsionar a indústria de IA para a era DataFi – os dados não são mais "material de treinamento" passivo, mas sim "capital" ativo, que pode ser precificado, negociado e valorizado. Assim como a eletricidade é cobrada em quilowatts, o poder de computação é medido em FLOPS, os dados também devem ser avaliados, classificados e valorizados. A realização dessa visão depende da transformação dos dados em quatro propriedades centrais:

( Estruturado: de "sinal bruto" a "ativo utilizável"

Dados on-chain não processados são como "petróleo", precisando ser refinados para se tornarem "gasolina". Através da padronização, eles são transformados em dados estruturados, como decompor "o endereço da carteira A depositou X tokens no protocolo B no tempo T" em dados multidimensionais que incluem perfil do usuário, atributos do protocolo, tipo de ativo e carimbo de data/hora. Essa estruturação permite que os dados sejam diretamente chamados por modelos de IA, tão simples quanto chamar uma interface de API.

) Combinável: os "blocos de Lego" dos dados

Na Web3, a "combinabilidade" gerou a explosão do DeFi (, como inovações combinatórias de DEX + empréstimos + agregação de rendimentos ). Ao trazer essa ideia para o campo dos dados: dados estruturados podem ser combinados livremente como blocos de Lego. Por exemplo, os desenvolvedores podem combinar "registros de staking de usuários" ### de protocolos de staking ( com "dados de flutuação de preços" ) de oráculos ### e "quantidade de menções sociais" ### de APIs de plataformas sociais ( para treinar um "modelo de previsão de sentimento do mercado DeFi". Essa combinabilidade expande enormemente os limites de aplicação dos dados, permitindo que a inovação em IA não esteja mais limitada a uma única fonte de dados.

) verificável: "endosse de crédito" dos dados

Os dados estruturados verificados geram uma "impressão digital" única, o valor hash (, que é armazenado na blockchain. Qualquer aplicação de IA ou desenvolvedor que utilize esses dados pode confirmar a autenticidade dos dados verificando o valor hash. Essa "verificabilidade" confere à informação uma propriedade de crédito — por exemplo, um conjunto de dados rotulado como "sinal de negociação de alta qualidade" pode ter sua taxa de precisão histórica rastreada através do registro hash na blockchain, permitindo que os usuários não precisem confiar no fornecedor do conjunto de dados, mas apenas verifiquem a impressão digital dos dados para avaliar a qualidade dos dados.

) pode monetizar: a "monetização do valor" dos dados

Na era DataFi, os provedores de dados podem monetizar dados estruturados diretamente. Por exemplo, uma equipe desenvolveu um "sinal de alerta de vulnerabilidades em contratos inteligentes" analisando dados na blockchain, podendo embalar esse sinal como um serviço API e cobrar por número de chamadas; usuários comuns também podem autorizar o compartilhamento de seus dados anônimos na blockchain, recebendo recompensas em tokens de dados. No ecossistema de dados, o valor dos dados é determinado pela oferta e demanda do mercado - sinais de transação de alta precisão podem ter preços mais altos, enquanto dados básicos de comportamento do usuário podem ser cobrados por uso.

Conclusão: Revolução dos dados, a próxima década da IA

Quando falamos sobre o futuro da IA, frequentemente nos concentramos no "nível de inteligência" dos modelos, mas negligenciamos o "solo de dados" que sustenta essa inteligência. As novas redes de dados revelam uma verdade central: a evolução da IA é, em essência, a evolução da infraestrutura de dados. Da "limitação" dos dados gerados pelos humanos à "descoberta de valor" dos dados na blockchain, da "desordem" dos sinais fragmentados à "ordem" dos dados estruturados, da "recursos gratuitos" dos dados ao "ativos de capital" do DataFi, está redefinindo a lógica subjacente da indústria de IA.

Na era do DataFi, os dados tornar-se-ão a ponte que liga a IA ao mundo real — os agentes de negociação percebem o sentimento do mercado através de dados on-chain, os dApps autônomos otimizam serviços com dados de comportamento dos usuários, enquanto os usuários comuns obtêm rendimentos contínuos através do compartilhamento de dados. Assim como a rede elétrica deu origem à revolução industrial, a rede de poder de computação deu origem à revolução da internet, a rede de dados está a dar origem à "revolução dos dados" da IA.

As aplicações nativas de IA da próxima geração não precisam apenas de modelos ou carteiras, mas também de dados programáveis e de alta qualidade que não exigem confiança. Quando os dados finalmente receberem o valor que merecem, a IA poderá realmente liberar o poder de mudar o mundo.

ETH-2.53%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • Republicar
  • Partilhar
Comentar
0/400
GasGrillMastervip
· 07-27 18:02
Não é apenas enrolar dados?
Ver originalResponder0
PuzzledScholarvip
· 07-26 22:29
Os dados também precisam ser capitalizados. Estou tão cansado.
Ver originalResponder0
MEVHunterXvip
· 07-26 06:24
Ainda não é rápido o suficiente, os dados lentos vão ser eliminados.
Ver originalResponder0
consensus_failurevip
· 07-26 06:23
A revolução dos dados parece que está a chegar... a zona DataFi está em alta.
Ver originalResponder0
AirdropworkerZhangvip
· 07-26 06:13
Parece que vai haver mais competição interna, hein.
Ver originalResponder0
TrustlessMaximalistvip
· 07-26 06:12
É tarde demais, o big data já se tornou um padrão Web3.
Ver originalResponder0
IntrovertMetaversevip
· 07-26 05:59
Quem coleta meus dados é o grande pai!
Ver originalResponder0
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)