Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne, à travers les données, le stockage et le calcul ; tout en établissant un modèle open source et un marché décentralisé pour les agents IA.
L'IA est principalement utilisée dans l'industrie Web3 pour la finance en chaîne ( les paiements cryptographiques, le trading, l'analyse de données ) ainsi que pour assister le développement.
L'utilité de l'IA + Web3 se manifeste dans la complémentarité des deux : Web3 espère lutter contre la centralisation de l'IA, tandis que l'IA espère aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a été comme accéléré, cet effet papillon provoqué par Chatgpt a non seulement ouvert un nouveau monde d'intelligence artificielle générative, mais a également suscité un courant dans le domaine du Web3.
Sous l'impulsion du concept d'IA, le financement dans le marché des cryptomonnaies, qui ralentit, est clairement stimulé. Les médias rapportent que, rien qu'au premier semestre 2024, 64 projets Web3+IA ont réussi à lever des fonds, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a atteint un montant de financement record de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère, les données du site d'agrégation crypto Coingecko montrent qu'en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume de transactions de près de 8,6 milliards de dollars en 24 heures ; les avancées technologiques majeures en IA ont clairement apporté des bénéfices, après la publication du modèle de conversion de texte en vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'est également étendu à l'un des segments de collecte de fonds en cryptomonnaie, Meme : le premier concept de MemeCoin AI Agent, GOAT, a rapidement gagné en popularité avec une valorisation de 1,4 milliard de dollars, déclenchant avec succès un engouement pour les Memes AI.
La recherche et les sujets concernant l'IA + Web3 sont tout aussi chauds, passant de l'IA + Depin à l'IA Memecoin, puis aux agents IA et aux DAO IA actuels. L'émotion FOMO ne parvient déjà plus à suivre la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent chaud, de tendances et de fantasmes futurs, ne peut que être perçue comme un mariage arrangé par le capital, il semble que nous ayons du mal à distinguer sous cet habit somptueux, si c'est le terrain des spéculateurs ou la veille d'une explosion au lever du jour ?
Pour répondre à cette question, une réflexion clé pour les deux parties est : cela s'améliorera-t-il grâce à l'autre ? Peut-on bénéficier des modèles de l'autre ? Dans cet article, nous essayons également de nous appuyer sur les épaules des précédents pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?
Part.1 Quelles sont les opportunités de Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Exprimons tout le processus dans un langage plus simple : le « grand modèle » est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et qui doit observer et absorber une immense quantité d'informations provenant de son environnement pour comprendre le monde. C'est la phase de « collecte » des données. Comme les ordinateurs n'ont pas les sens de la vue, de l'ouïe et d'autres sens humains, avant l'entraînement, les vastes informations non étiquetées de l'extérieur doivent être transformées par un « prétraitement » en un format d'information que l'ordinateur peut comprendre et utiliser.
Après avoir entré les données, l'IA construit un modèle capable de comprendre et de prédire grâce à un « entraînement », ce qui peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle ressemblent aux capacités linguistiques d'un bébé qui s'ajustent continuellement au cours de l'apprentissage. Lorsque le contenu appris commence à être classé par matière, ou que des retours sont obtenus lors des échanges avec d'autres personnes et que des corrections sont apportées, cela entre dans la phase de « réglage fin » du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et leurs pensées dans de nouveaux dialogues. Cette phase est similaire au « raisonnement » des grands modèles d'IA, où le modèle peut prédire et analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs compétences linguistiques, ce qui est également comparable à l'application des grands modèles d'IA dans la phase de raisonnement après leur formation pour des tâches spécifiques telles que la classification d'images et la reconnaissance vocale.
L'Agent IA se rapproche de la prochaine forme des grands modèles - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de capacités de réflexion, mais aussi capable de mémoriser, de planifier et d'utiliser des outils pour interagir avec le monde.
Actuellement, en réponse aux points de douleur de l'IA dans diverses piles, Web3 a commencé à former un écosystème multi-niveaux et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
I. Couche de base : Airbnb pour la puissance de calcul et les données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100 GPU produits par NVIDIA(, qui est une unité de traitement graphique de premier plan conçue pour les charges de travail d'intelligence artificielle et de calcul haute performance.) La formation prend 30 jours. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel de calcul de 400 à 700 millions de dollars(GPU + puces réseau), tandis que l'entraînement mensuel nécessite 1,6 milliard de kilowattheures, avec des dépenses énergétiques de près de 20 millions de dollars par mois.
La décompression de la puissance de calcul AI est également l'un des premiers domaines de croisement entre Web3 et l'IA - DePin( réseau d'infrastructure physique décentralisé). Actuellement, le site de données DePin Ninja a déjà répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale est la suivante : la plateforme permet aux particuliers ou entités disposant de ressources GPU inutilisées de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, grâce à un marché en ligne entre acheteurs et vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient également de ressources de calcul efficaces à faible coût ; en même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle qualité ou des interruptions du réseau se produisent, les fournisseurs de ressources sont soumis à des sanctions appropriées.
Ses caractéristiques sont :
Rassembler les ressources GPU inutilisées : Les fournisseurs se composent principalement de centres de données indépendants de taille moyenne à petite, d'opérateurs de surplus de puissance de calcul de mines cryptographiques, etc., avec un mécanisme de consensus basé sur PoS pour le matériel de minage, tel que les machines de minage FileCoin et ETH. Actuellement, certains projets s'efforcent de lancer des équipements avec une barrière d'entrée plus basse, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc., pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Face au marché long de la puissance de calcul de l'IA:
a. « D'un point de vue technique », le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage des capacités de traitement de données offertes par des clusters GPU de très grande taille, tandis que l'inférence nécessite des performances de calcul GPU relativement faibles, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence AI.
b. Du point de vue de la demande, les petites et moyennes entreprises en matière de puissance de calcul ne formeront pas leurs propres grands modèles, mais choisiront plutôt d'optimiser et d'ajuster les quelques grands modèles principaux, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées distribuées.
Propriété décentralisée : la signification technique de la blockchain réside dans le fait que les propriétaires de ressources conservent toujours le contrôle sur leurs ressources, ajustent flexiblement en fonction de la demande et en tirent des bénéfices.
Données
Les données sont la fondation de l'IA. Sans données, le calcul est aussi inutile qu'une feuille de nénuphar flottant à la surface, et la relation entre les données et le modèle est comme l'adage "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de la sortie du modèle final. Pour l'entraînement des modèles d'IA actuels, les données déterminent la capacité linguistique du modèle, sa capacité de compréhension, voire ses valeurs et son expression humanisée. Actuellement, les difficultés de demande de données pour l'IA se concentrent principalement sur les quatre aspects suivants :
Faim de données : L'entraînement des modèles d'IA dépend de l'entrée d'une grande quantité de données. Les documents publics montrent que OpenAI a entraîné GPT-4 avec un nombre de paramètres atteignant le niveau des trillions.
Qualité des données : Avec la combinaison de l'IA et de divers secteurs, la pertinence des données, la diversité des données, la spécialisation des données sectorielles et l'intégration de nouvelles sources de données telles que les émotions sur les réseaux sociaux posent de nouvelles exigences pour leur qualité.
Problèmes de confidentialité et de conformité : Les pays et les entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et commencent à restreindre le crawling des ensembles de données.
Coûts de traitement des données élevés : grande quantité de données, processus de traitement complexe. Selon les données publiques, plus de 30 % des coûts de recherche et développement des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
Collecte de données : la disponibilité des données du monde réel pouvant être collectées gratuitement s'épuisent rapidement, les dépenses des entreprises d'IA pour les données augmentent chaque année. Mais en même temps, ces dépenses ne profitent pas vraiment aux véritables contributeurs de données, les plateformes profitent entièrement de la création de valeur générée par les données, comme une plateforme qui a réalisé un revenu total de 203 millions de dollars grâce à un contrat de licence de données signé avec une entreprise d'IA.
Permettre aux utilisateurs qui contribuent réellement de participer à la création de valeur générée par les données, ainsi que d'obtenir des données plus privées et plus précieuses à moindre coût grâce à un réseau distribué et à un mécanisme d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de faire fonctionner des nœuds Grass, de contribuer à la bande passante inutilisée et au relais de trafic pour capturer des données en temps réel sur l'ensemble d'Internet, et d'obtenir des récompenses en tokens;
Vana introduit un concept unique de pool de liquidité de données (DLP), où les utilisateurs peuvent télécharger leurs données privées ( telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc. ) dans un DLP spécifique, et choisir de manière flexible s'ils souhaitent autoriser l'utilisation de ces données par des tiers spécifiques ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI或#Web3 comme étiquette de classification sur les plateformes sociales et @PublicAI pour collecter des données.
Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées sont souvent bruyantes et contiennent des erreurs. Elles doivent être nettoyées et converties en un format utilisable avant d'entraîner le modèle, ce qui implique des tâches répétitives de normalisation, de filtrage et de traitement des valeurs manquantes. Cette étape est l'un des rares moments où l'intervention humaine est nécessaire dans le secteur de l'IA, ce qui a donné naissance à la profession de data labeler. Avec l'augmentation des exigences de qualité des données par les modèles, le seuil d'entrée pour les data labelers a également augmenté, et cette tâche convient naturellement au mécanisme d'incitation décentralisé de Web3.
Actuellement, Grass et OpenLayer envisagent d'intégrer cette étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de labellisation de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour gagner plus de points.
Confidentialité et sécurité des données : Il est nécessaire de clarifier que la confidentialité des données et la sécurité des données sont deux concepts différents. La confidentialité des données concerne le traitement des données sensibles, tandis que la sécurité des données protège les informations contre l'accès non autorisé, la destruction et le vol. Ainsi, les avantages des technologies de confidentialité Web3 et les scénarios d'application potentiels se manifestent de deux manières : (1) l'entraînement des données sensibles ; (2) collaboration des données : plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager leurs données brutes.
Les technologies de confidentialité les plus courantes dans le Web3 incluent :
Environnement d'exécution de confiance ( TEE ), par exemple Super Protocol;
Chiffrement homomorphe complet ( FHE ), par exemple BasedAI, Fhenix.io ou Inco Network;
Technologie de preuve à divulgation nulle d'information (zk), comme le protocole Reclaim qui utilise la technologie zkTLS, générant des preuves à divulgation nulle d'information pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des activités, des réputations et des données d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, ce domaine en est encore à ses débuts, la plupart des projets sont encore en phase d'exploration, un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :
Le cadre zkML EZKL nécessite environ 80 minutes pour générer une preuve pour un modèle 1M-nanoGPT.
Selon les données de Modulus Labs, les coûts de zkML sont plus de 1000 fois supérieurs à ceux du calcul pur.
Stockage des données : Une fois les données obtenues, il faut également un endroit pour stocker ces données sur la chaîne, ainsi que le LLM généré à partir de ces données. En se concentrant sur la disponibilité des données (DA), avant la mise à niveau Danksharding d'Ethereum, son débit était de 0,08 Mo. En parallèle, l'entraînement des modèles d'IA et l'inférence en temps réel nécessitent généralement un débit de données de 50 à 100 Go par seconde. Cet écart d'ordre de grandeur rend les chaînes existantes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
15 J'aime
Récompense
15
4
Partager
Commentaire
0/400
DeFiDoctor
· Il y a 8h
Les examens de santé des processus standardisés montrent que ces acquisitions AI+Web3 doivent d'abord observer la stabilité du code pendant trois mois.
Voir l'originalRépondre0
wrekt_but_learning
· Il y a 22h
Marché baissier aussi n'est pas réveillé.
Voir l'originalRépondre0
WenAirdrop
· Il y a 22h
gpt est plus fort que les humains, c'est vraiment injuste pour nous.
AI et Web3 se rencontrent : de la Puissance de calcul partagée aux nouvelles opportunités d'incitation des données
IA+Web3 : Tours et places
TL;DR
Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne, à travers les données, le stockage et le calcul ; tout en établissant un modèle open source et un marché décentralisé pour les agents IA.
L'IA est principalement utilisée dans l'industrie Web3 pour la finance en chaîne ( les paiements cryptographiques, le trading, l'analyse de données ) ainsi que pour assister le développement.
L'utilité de l'IA + Web3 se manifeste dans la complémentarité des deux : Web3 espère lutter contre la centralisation de l'IA, tandis que l'IA espère aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a été comme accéléré, cet effet papillon provoqué par Chatgpt a non seulement ouvert un nouveau monde d'intelligence artificielle générative, mais a également suscité un courant dans le domaine du Web3.
Sous l'impulsion du concept d'IA, le financement dans le marché des cryptomonnaies, qui ralentit, est clairement stimulé. Les médias rapportent que, rien qu'au premier semestre 2024, 64 projets Web3+IA ont réussi à lever des fonds, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a atteint un montant de financement record de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère, les données du site d'agrégation crypto Coingecko montrent qu'en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume de transactions de près de 8,6 milliards de dollars en 24 heures ; les avancées technologiques majeures en IA ont clairement apporté des bénéfices, après la publication du modèle de conversion de texte en vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'est également étendu à l'un des segments de collecte de fonds en cryptomonnaie, Meme : le premier concept de MemeCoin AI Agent, GOAT, a rapidement gagné en popularité avec une valorisation de 1,4 milliard de dollars, déclenchant avec succès un engouement pour les Memes AI.
La recherche et les sujets concernant l'IA + Web3 sont tout aussi chauds, passant de l'IA + Depin à l'IA Memecoin, puis aux agents IA et aux DAO IA actuels. L'émotion FOMO ne parvient déjà plus à suivre la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent chaud, de tendances et de fantasmes futurs, ne peut que être perçue comme un mariage arrangé par le capital, il semble que nous ayons du mal à distinguer sous cet habit somptueux, si c'est le terrain des spéculateurs ou la veille d'une explosion au lever du jour ?
Pour répondre à cette question, une réflexion clé pour les deux parties est : cela s'améliorera-t-il grâce à l'autre ? Peut-on bénéficier des modèles de l'autre ? Dans cet article, nous essayons également de nous appuyer sur les épaules des précédents pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?
Part.1 Quelles sont les opportunités de Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Exprimons tout le processus dans un langage plus simple : le « grand modèle » est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et qui doit observer et absorber une immense quantité d'informations provenant de son environnement pour comprendre le monde. C'est la phase de « collecte » des données. Comme les ordinateurs n'ont pas les sens de la vue, de l'ouïe et d'autres sens humains, avant l'entraînement, les vastes informations non étiquetées de l'extérieur doivent être transformées par un « prétraitement » en un format d'information que l'ordinateur peut comprendre et utiliser.
Après avoir entré les données, l'IA construit un modèle capable de comprendre et de prédire grâce à un « entraînement », ce qui peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle ressemblent aux capacités linguistiques d'un bébé qui s'ajustent continuellement au cours de l'apprentissage. Lorsque le contenu appris commence à être classé par matière, ou que des retours sont obtenus lors des échanges avec d'autres personnes et que des corrections sont apportées, cela entre dans la phase de « réglage fin » du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et leurs pensées dans de nouveaux dialogues. Cette phase est similaire au « raisonnement » des grands modèles d'IA, où le modèle peut prédire et analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs compétences linguistiques, ce qui est également comparable à l'application des grands modèles d'IA dans la phase de raisonnement après leur formation pour des tâches spécifiques telles que la classification d'images et la reconnaissance vocale.
L'Agent IA se rapproche de la prochaine forme des grands modèles - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de capacités de réflexion, mais aussi capable de mémoriser, de planifier et d'utiliser des outils pour interagir avec le monde.
Actuellement, en réponse aux points de douleur de l'IA dans diverses piles, Web3 a commencé à former un écosystème multi-niveaux et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
I. Couche de base : Airbnb pour la puissance de calcul et les données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100 GPU produits par NVIDIA(, qui est une unité de traitement graphique de premier plan conçue pour les charges de travail d'intelligence artificielle et de calcul haute performance.) La formation prend 30 jours. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel de calcul de 400 à 700 millions de dollars(GPU + puces réseau), tandis que l'entraînement mensuel nécessite 1,6 milliard de kilowattheures, avec des dépenses énergétiques de près de 20 millions de dollars par mois.
La décompression de la puissance de calcul AI est également l'un des premiers domaines de croisement entre Web3 et l'IA - DePin( réseau d'infrastructure physique décentralisé). Actuellement, le site de données DePin Ninja a déjà répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale est la suivante : la plateforme permet aux particuliers ou entités disposant de ressources GPU inutilisées de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, grâce à un marché en ligne entre acheteurs et vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient également de ressources de calcul efficaces à faible coût ; en même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle qualité ou des interruptions du réseau se produisent, les fournisseurs de ressources sont soumis à des sanctions appropriées.
Ses caractéristiques sont :
Rassembler les ressources GPU inutilisées : Les fournisseurs se composent principalement de centres de données indépendants de taille moyenne à petite, d'opérateurs de surplus de puissance de calcul de mines cryptographiques, etc., avec un mécanisme de consensus basé sur PoS pour le matériel de minage, tel que les machines de minage FileCoin et ETH. Actuellement, certains projets s'efforcent de lancer des équipements avec une barrière d'entrée plus basse, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc., pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Face au marché long de la puissance de calcul de l'IA:
a. « D'un point de vue technique », le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage des capacités de traitement de données offertes par des clusters GPU de très grande taille, tandis que l'inférence nécessite des performances de calcul GPU relativement faibles, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence AI.
b. Du point de vue de la demande, les petites et moyennes entreprises en matière de puissance de calcul ne formeront pas leurs propres grands modèles, mais choisiront plutôt d'optimiser et d'ajuster les quelques grands modèles principaux, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées distribuées.
Données
Les données sont la fondation de l'IA. Sans données, le calcul est aussi inutile qu'une feuille de nénuphar flottant à la surface, et la relation entre les données et le modèle est comme l'adage "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de la sortie du modèle final. Pour l'entraînement des modèles d'IA actuels, les données déterminent la capacité linguistique du modèle, sa capacité de compréhension, voire ses valeurs et son expression humanisée. Actuellement, les difficultés de demande de données pour l'IA se concentrent principalement sur les quatre aspects suivants :
Faim de données : L'entraînement des modèles d'IA dépend de l'entrée d'une grande quantité de données. Les documents publics montrent que OpenAI a entraîné GPT-4 avec un nombre de paramètres atteignant le niveau des trillions.
Qualité des données : Avec la combinaison de l'IA et de divers secteurs, la pertinence des données, la diversité des données, la spécialisation des données sectorielles et l'intégration de nouvelles sources de données telles que les émotions sur les réseaux sociaux posent de nouvelles exigences pour leur qualité.
Problèmes de confidentialité et de conformité : Les pays et les entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et commencent à restreindre le crawling des ensembles de données.
Coûts de traitement des données élevés : grande quantité de données, processus de traitement complexe. Selon les données publiques, plus de 30 % des coûts de recherche et développement des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
Permettre aux utilisateurs qui contribuent réellement de participer à la création de valeur générée par les données, ainsi que d'obtenir des données plus privées et plus précieuses à moindre coût grâce à un réseau distribué et à un mécanisme d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de faire fonctionner des nœuds Grass, de contribuer à la bande passante inutilisée et au relais de trafic pour capturer des données en temps réel sur l'ensemble d'Internet, et d'obtenir des récompenses en tokens;
Vana introduit un concept unique de pool de liquidité de données (DLP), où les utilisateurs peuvent télécharger leurs données privées ( telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc. ) dans un DLP spécifique, et choisir de manière flexible s'ils souhaitent autoriser l'utilisation de ces données par des tiers spécifiques ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI或#Web3 comme étiquette de classification sur les plateformes sociales et @PublicAI pour collecter des données.
Actuellement, Grass et OpenLayer envisagent d'intégrer cette étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de labellisation de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour gagner plus de points.
Les technologies de confidentialité les plus courantes dans le Web3 incluent :
Environnement d'exécution de confiance ( TEE ), par exemple Super Protocol;
Chiffrement homomorphe complet ( FHE ), par exemple BasedAI, Fhenix.io ou Inco Network;
Technologie de preuve à divulgation nulle d'information (zk), comme le protocole Reclaim qui utilise la technologie zkTLS, générant des preuves à divulgation nulle d'information pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des activités, des réputations et des données d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, ce domaine en est encore à ses débuts, la plupart des projets sont encore en phase d'exploration, un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :
Le cadre zkML EZKL nécessite environ 80 minutes pour générer une preuve pour un modèle 1M-nanoGPT.
Selon les données de Modulus Labs, les coûts de zkML sont plus de 1000 fois supérieurs à ceux du calcul pur.