L'ère DataFi est arrivée : les données off-chain vont mener la prochaine révolution de l'industrie de l'IA.

La prochaine révolution de l'industrie de l'IA : de la course à la puissance de calcul à la révolution des données

L'échelle des paramètres des modèles d'intelligence artificielle ( AI ) a franchi le cap du trillion, et la puissance de calcul est mesurée à des centaines de milliards de milliards de fois ( FLOPS ) par seconde. Un goulot d'étranglement central souvent négligé émerge : les données. La prochaine révolution de l'industrie de l'IA ne sera plus propulsée par l'architecture des modèles ou la puissance de calcul des puces, mais dépendra de notre capacité à transformer les données comportementales humaines fragmentées en capital vérifiable, structuré et prêt pour l'IA. Cette perception révèle non seulement les contradictions structurelles du développement actuel de l'IA, mais esquisse également un nouveau paysage de "l'époque DataFi" - une époque où les données ne sont plus un sous-produit de la technologie, mais une composante de production essentielle, mesurable, négociable et valorisable, tout comme l'électricité et la puissance de calcul.

De la compétition de puissance de calcul à la faim de données : les contradictions structurelles de l'industrie de l'IA

Le développement de l'IA a longtemps été drivé par le double noyau "modèle-Puissance de calcul". Depuis la révolution de l'apprentissage profond, les paramètres des modèles sont passés de millions (, comme AlexNet de 2012 ), à des trillions (, comme GPT-4), avec une demande de puissance de calcul en croissance exponentielle. Le coût de l'entraînement d'un modèle de langage avancé a dépassé 100 millions de dollars, dont 90% sont destinés à la location de clusters GPU. Cependant, alors que l'industrie se concentre sur "des modèles plus grands" et "des puces plus rapides", une crise du côté de l'offre de données est en train de survenir.

Les "données organiques" générées par l'homme ont atteint un plafond de croissance. Prenons l'exemple des données textuelles : le volume total de textes de haute qualité, accessibles en ligne et pouvant être explorés, comme des livres, des articles, des nouvelles, est d'environ 10^12 mots, tandis que l'entraînement d'un modèle de 100 milliards de paramètres nécessite environ 10^13 mots de données - ce qui signifie que le pool de données actuel ne peut soutenir l'entraînement que de 10 modèles de taille équivalente. Plus préoccupant encore, les données dupliquées et le contenu de faible qualité représentent plus de 60 %, ce qui réduit encore l'offre de données efficaces. Lorsque les modèles commencent à "ingérer" leurs propres données générées, comme des articles écrits par l'IA ou des images générées par l'IA, la "pollution des données" entraînant une dégradation des performances des modèles est devenue une préoccupation pour le secteur.

Cette contradiction trouve sa racine dans le fait que l'industrie de l'IA a longtemps considéré les données comme une "ressource gratuite", plutôt que comme un "actif stratégique" qui nécessite d'être soigneusement cultivé. Les modèles et la puissance de calcul ont formé un système de marché mature - la puissance de calcul est tarifée sur les plateformes cloud selon les FLOPS, et les modèles sont facturés via des API en fonction du nombre d'appels - mais la production, le nettoyage, la validation et l'échange de données restent encore à l'ère de la "préhistoire". La prochaine décennie de l'IA sera celle des "infrastructures de données", et les données on-chain des réseaux cryptographiques sont la clé pour déverrouiller ce dilemme.

Données on-chain : la "base de données sur le comportement humain" la plus nécessaire pour l'IA

Dans le contexte d'une famine de données, les données on-chain des réseaux cryptographiques montrent une valeur irremplaçable. Comparées aux données de l'internet traditionnel ( comme les publications sur les réseaux sociaux, les avis d'e-commerce ), les données on-chain possèdent intrinsèquement une authenticité de "l'alignement des incitations" - chaque transaction, chaque interaction contractuelle, chaque comportement d'adresse de portefeuille est directement lié à un capital réel et est immuable. C'est "les données sur le comportement d'alignement des incitations humaines les plus concentrées sur internet", qui se manifestent concrètement dans trois dimensions :

( Signal d'intention du monde réel

Les données enregistrées sur la chaîne ne sont pas des commentaires émotionnels ou des clics aléatoires, mais plutôt des comportements décisionnels votés avec de l'argent réel. Par exemple, un portefeuille échangeant des actifs sur un DEX, empruntant et prêtant sur une plateforme de prêt, ou enregistrant un nom de domaine, reflète directement le jugement de l'utilisateur sur la valeur du projet, sa préférence pour le risque et sa stratégie de répartition des fonds. Ces données "soutenues par le capital" ont une valeur extrêmement élevée pour entraîner la capacité décisionnelle de l'IA, comme les prévisions financières et l'analyse de marché ). En revanche, les données de l'internet traditionnel sont envahies par le "bruit" - comme les faux likes sur les réseaux sociaux et les commentaires de commande fictifs sur les plateformes de commerce électronique. Ces données non seulement ne permettent pas de former des modèles d'IA fiables, mais peuvent également induire le modèle en erreur.

( Chaîne de comportement traçable

La transparence de la blockchain permet de retracer intégralement le comportement des utilisateurs. L'historique des transactions d'une adresse de portefeuille, les protocoles avec lesquels elle a interagi, et les changements d'actifs détenus, constituent une "chaîne de comportement" cohérente. Par exemple, en analysant les opérations d'une adresse dans les protocoles DeFi depuis 2020 jusqu'à présent, l'IA peut identifier avec précision si l'utilisateur est un "investisseur à long terme", un "trader d'arbitrage" ou un "fournisseur de liquidité", et en construire un profil utilisateur en conséquence. Ces données comportementales structurées sont précisément ce qui manque le plus aux modèles d'IA actuels en tant que "données d'inférence humaine".

) Accès "sans autorisation" à un écosystème ouvert

Contrairement à la nature fermée des données d'entreprise traditionnelles telles que les enregistrements de transactions bancaires et les données des utilisateurs d'e-commerce, les données sur la chaîne sont ouvertes et sans autorisation. Tout développeur peut accéder aux données brutes via un explorateur de blockchain ou une API de données, ce qui fournit une source de données "sans barrières" pour l'entraînement des modèles d'IA. Cependant, cette ouverture pose également des défis : les données sur la chaîne existent sous forme de "journaux d'événements" tels que les événements de transfert ERC-20 d'Ethereum et les événements de swap d'un DEX, ce qui constitue des "signaux bruts" non structurés, nécessitant un nettoyage, une standardisation et une association avant de pouvoir être utilisés par les modèles d'IA. Actuellement, le "taux de transformation structurée" des données sur la chaîne est inférieur à 5 %, et un grand nombre de signaux de haute valeur sont enfouis dans des milliards d'événements fragmentés.

Hyperdata Network : le "système d'exploitation" des données on-chain

Pour résoudre le problème de la fragmentation des données sur la chaîne, un nouveau "système d'exploitation intelligent sur la chaîne" a vu le jour. Son objectif principal est de transformer les signaux dispersés sur la chaîne en données prêtes pour l'IA, structurées, vérifiables et combinables en temps réel.

Manuscrit : Normes de données ouvertes, permettant à l'IA de "comprendre" le monde de la chaîne

L'un des principaux problèmes des données sur la chaîne est "le format désordonné" - les formats des journaux d'événements des différentes blockchains ( comme Ethereum, Solana, Avalanche ) varient, et la structure des données des différentes versions d'un même protocole peut également changer. Manuscript, en tant que norme de schéma de données ouverte, unifie la définition et la description des données sur la chaîne. Par exemple, il standardise "le comportement de mise en jeu des utilisateurs" en une structure de données structurée contenant des champs tels que staker_address, protocol_id, amount, timestamp, reward_token, garantissant que les modèles d'IA n'ont pas besoin de s'adapter aux différents formats de données des chaînes ou des protocoles, et peuvent directement "comprendre" la logique commerciale derrière les données.

Cette normalisation de la valeur réside dans la réduction des coûts de friction liés au développement de l'IA. Supposons qu'une équipe doive entraîner un "modèle de prévision du comportement des utilisateurs DeFi" ; de manière traditionnelle, cela nécessiterait de se connecter séparément aux API de plusieurs chaînes comme Ethereum, Polygon, etc., et d'écrire différents scripts d'analyse. Cependant, basé sur Manuscript, toutes les données en chaîne ont été prétraitées selon une norme unifiée, permettant aux développeurs d'appeler directement des données structurées telles que les "enregistrements de mise" et les "enregistrements de provision de liquidité", ce qui réduit considérablement le cycle d'entraînement du modèle.

L'exigence fondamentale des modèles d'IA pour les données est "fiable" - si les données d'entraînement sont altérées ou contaminées, la sortie du modèle n'aura aucune valeur. Le mécanisme AVS###Active Validator Set### d'Ethereum peut garantir l'authenticité des données. L'AVS est un composant d'extension de la couche de consensus d'Ethereum, composé de plus de 600 000 nœuds de validateurs avec des ETH stakés, ces nœuds sont responsables de la vérification de l'intégrité et de l'exactitude des données sur la chaîne. Lors du traitement d'un événement sur la chaîne, les nœuds AVS croisent les valeurs de hachage des données, les informations de signature et l'état sur la chaîne pour garantir que les données structurées produites correspondent exactement aux données originales sur la chaîne.

Ce mécanisme de validation de "garantie d'économie cryptographique" résout le problème de confiance des validations traditionnelles centralisées. Par exemple, si une entreprise d'IA utilise des données on-chain fournies par une institution centralisée, elle doit faire confiance à cette institution pour ne pas avoir falsifié les données ; tandis qu'en utilisant une validation décentralisée, l'authenticité des données est soutenue par un réseau de validateurs décentralisés, et tout acte de falsification déclenchera le mécanisme de pénalité des contrats intelligents, comme la confiscation de l'ETH.

( Couche de disponibilité des données à haut débit

Les modèles d'IA, en particulier les applications d'IA interactives en temps réel ) telles que les robots de trading et le service client intelligent (, nécessitent un approvisionnement en données à faible latence et à haut débit. En optimisant les algorithmes de compression des données et les protocoles de transmission, il est possible de traiter en temps réel des centaines de milliers d'événements sur la chaîne par seconde. Par exemple, lorsqu'une transaction importante se produit sur un DEX, il est possible d'extraire, de standardiser et de vérifier les données en 1 seconde, puis de pousser le "signal de transaction importante" structuré aux modèles d'IA abonnés, permettant ainsi d'ajuster rapidement la stratégie de trading.

Derrière un grand débit se trouve une architecture modulaire - la séparation du stockage des données et du calcul, le stockage des données étant pris en charge par un réseau de nœuds distribués, tandis que le calcul est réalisé via des Rollups hors chaîne, évitant ainsi le goulot d'étranglement de performance de la blockchain elle-même. Cette conception permet au réseau de données de soutenir les besoins en temps réel des applications IA à grande échelle, telles que la fourniture de services de données en ligne sur la chaîne à des milliers d'agents de transaction simultanément.

L'ère DataFi : lorsque les données deviennent un "capital" échangeable

L'objectif ultime du nouveau réseau de données est de propulser l'industrie de l'IA dans l'ère du DataFi - les données ne sont plus un "matériau d'entraînement" passif, mais un "capital" actif, pouvant être valorisé, échangé et augmenté. Tout comme l'électricité est facturée en kilowatts, la puissance de calcul en FLOPS, les données doivent également être notées, classées et évaluées. La réalisation de cette vision repose sur la transformation des données en quatre attributs fondamentaux :

) Structuré : de "signal brut" à "actif utilisable"

Les données brutes sur la chaîne sont comme du "pétrole brut", elles doivent être raffinées pour devenir de "l'essence". En les standardisant, on les transforme en données structurées, par exemple en décomposant "l'adresse du portefeuille A a déposé X tokens dans le protocole B à l'heure T" en données multidimensionnelles contenant des profils utilisateurs, des attributs de protocole, des types d'actifs et des horodatages. Cette structuration permet aux modèles d'IA d'appeler directement les données, aussi simplement que d'appeler une interface API.

Combinable : les "briques LEGO" des données

Dans le Web3, la "combinabilité" a engendré l'explosion de la DeFi ( avec des innovations combinatoires telles que DEX + prêt + agrégation de rendement ). En introduisant cette idée dans le domaine des données : les données structurées peuvent être combinées librement comme des blocs LEGO. Par exemple, les développeurs peuvent combiner les "enregistrements de mise des utilisateurs" ( provenant de protocoles de mise ) avec les "données de fluctuation des prix" ( provenant d'oracles ) et les "mentions sur les réseaux sociaux" ### provenant des API des plateformes sociales ( pour entraîner un "modèle de prédiction de l'humeur du marché DeFi". Cette combinabilité élargit considérablement les frontières d'application des données, permettant aux innovations en IA de ne plus être limitées à une seule source de données.

) vérifiable : "souscription de crédit" des données

Les données structurées vérifiées génèrent un "empreinte de données" unique ### valeur de hachage ###, qui est stockée sur la blockchain. Toute application IA ou développeur utilisant ces données peut confirmer l'authenticité des données en vérifiant la valeur de hachage. Cette "vérifiabilité" confère aux données une propriété de crédit - par exemple, un ensemble de données étiqueté comme "signal de transaction de haute qualité" peut voir son taux de précision historique retracé grâce aux enregistrements de hachage sur la blockchain, permettant aux utilisateurs de ne pas avoir à faire confiance au fournisseur de l'ensemble de données, mais simplement de vérifier l'empreinte de données pour évaluer la qualité des données.

( peut monétiser : "valorisation des données"

À l'ère de DataFi, les fournisseurs de données peuvent monétiser directement les données structurées. Par exemple, une équipe a développé un "signal d'alerte de vulnérabilité de contrat intelligent" en analysant des données sur la chaîne, qu'elle peut emballer en tant que service API et facturer par nombre d'appels ; les utilisateurs ordinaires peuvent également autoriser le partage de leurs données anonymisées sur la chaîne et recevoir des récompenses en jetons de données. Dans l'écosystème des données, la valeur des données est déterminée par l'offre et la demande du marché - les signaux de trading à haute précision peuvent être tarifés plus cher, tandis que les données de comportement utilisateur de base peuvent être facturées par utilisation.

Conclusion : Révolution des données, la prochaine décennie de l'IA

Lorsque nous parlons de l'avenir de l'IA, nous avons souvent tendance à nous concentrer sur le "niveau d'intelligence" des modèles, tout en négligeant le "sol de données" qui soutient cette intelligence. Les nouveaux réseaux de données révèlent une vérité fondamentale : l'évolution de l'IA est en réalité l'évolution de l'infrastructure des données. De la "limitation" des données générées par l'homme à la "découverte de valeur" des données en chaîne, du "désordre" des signaux fragmentés à l'"ordre" des données structurées, de la "ressource gratuite" des données à l'"actif de capital" de DataFi, cela redéfinit la logique sous-jacente de l'industrie de l'IA.

À l'ère de DataFi, les données deviendront le pont reliant l'IA et le monde réel - les agents de transaction perçoivent le sentiment du marché grâce aux données on-chain, les dApps autonomes optimisent les services via les données de comportement des utilisateurs, tandis que les utilisateurs ordinaires obtiennent des revenus continus en partageant des données. Tout comme le réseau électrique a engendré la révolution industrielle, la Puissance de calcul a engendré la révolution Internet, le réseau de données est en train de susciter la "révolution des données" de l'IA.

Les applications AI-native de prochaine génération nécessitent non seulement des modèles ou des portefeuilles, mais aussi des données programmables, sans confiance et à fort signal. Lorsque les données seront enfin dotées de la valeur qu'elles méritent, l'IA pourra véritablement libérer le pouvoir de changer le monde.

ETH2.92%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • Reposter
  • Partager
Commentaire
0/400
GasGrillMastervip
· 07-27 18:02
Ce n'est rien d'autre que de compiler des données.
Voir l'originalRépondre0
PuzzledScholarvip
· 07-26 22:29
Les données doivent également être capitalisées, c'est trop fatigant.
Voir l'originalRépondre0
MEVHunterXvip
· 07-26 06:24
Pas assez rapide, les données sont lentes et doivent être réduites.
Voir l'originalRépondre0
consensus_failurevip
· 07-26 06:23
La révolution des données semble imminente... investir dans la zone DataFi
Voir l'originalRépondre0
AirdropworkerZhangvip
· 07-26 06:13
On dirait qu'il va encore y avoir de la compétition.
Voir l'originalRépondre0
TrustlessMaximalistvip
· 07-26 06:12
Il est trop tard, le Big Data est déjà devenu la norme Web3.
Voir l'originalRépondre0
IntrovertMetaversevip
· 07-26 05:59
Qui collecte mes données, c'est le grand père !
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)