Ера DataFi настала: у блокчейні дані приведуть до наступної революції в індустрії ШІ

Наступна революція в AI-індустрії: від обчислювальної потужності до революції даних

Штучний інтелект ( AI ) модельні параметри перевищують трильйон, обчислювальна потужність вимірюється в сотні мільярдів мільярдів ( FLOPS ), і один ігнорований основний вузький місце починає виходити на поверхню - дані. Наступна революція в AI-індустрії більше не буде зумовлена архітектурою моделі або обчислювальною потужністю чіпів, а залежатиме від того, як ми перетворюємо фрагментовані дані про людську поведінку в перевірений, структурований, готовий до AI капітал. Це спостереження не лише виявляє структурні суперечності сучасного розвитку AI, але й окреслює зовсім нову картину "Епохи даних" - в цю епоху дані більше не є побічним продуктом технологій, а стають основним виробничим фактором, який можна вимірювати, торгувати та підвищувати вартість, як електрику та обчислювальну потужність.

Від конкуренції обчислювальної потужності до голоду даних: структурні суперечності в індустрії ШІ

Розвиток ІІ довгий час керувався двома основними напрямками: "модель-Обчислювальна потужність". З моменту революції глибокого навчання параметри моделей зросли з мільйонів (, як у AlexNet 2012 року ), до трильйонів (, як у GPT-4), потреба в обчислювальній потужності зростає експоненційно. Вартість навчання сучасної великої мовної моделі перевищила 100 мільйонів доларів, з яких 90% витрачається на оренду кластерів GPU. Однак, коли галузь зосереджує увагу на "більших моделях" і "швидших чіпах", криза на стороні постачання даних тихо настає.

Генеровані людьми "органічні дані" досягли стелі зростання. Наприклад, якщо говорити про текстові дані, загальна кількість високоякісних текстів, доступних для парсингу в Інтернеті, таких як книги, статті, новини, становить приблизно 10^12 слів, тоді як для навчання моделі з 100 мільярдів параметрів потрібно витратити близько 10^13 слів — це означає, що існуючий пул даних може підтримати навчання лише 10 моделей однакового масштабу. Ще більш серйозною є ситуація, коли частка повторюваних даних та контенту низької якості перевищує 60%, що ще більше зменшує постачання ефективних даних. Коли моделі починають "поглинати" дані, які вони самі генерують, такі як статті, написані ШІ, або зображення, згенеровані ШІ, "забруднення даних" призводить до погіршення продуктивності моделей, що вже стало тривожним сигналом для галузі.

Ця суперечність має корінь у тому, що індустрія ШІ тривалий час розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потребує ретельного вирощування. Моделі та обчислювальна потужність вже сформували зрілу ринкову систему — обчислювальна потужність на хмарних платформах оцінюється за FLOPS, моделі мають API інтерфейси, які стягують плату за кількість викликів — але виробництво, очищення, верифікація та торгівля даними все ще перебувають у "дикунському часі". Наступні десять років для ШІ стануть десятиліттям "інфраструктури даних", а дані на ланцюгу криптовалют є ключовою ключкою для розв'язання цієї проблеми.

Дані на ланцюгу: "База даних людської поведінки", яка найбільше потрібна ШІ

На фоні голоду даних, онлайнові дані крипто мережі демонструють беззаперечну цінність. Порівняно з традиційними даними в Інтернеті (, такими як пости в соціальних мережах, коментарі електронної комерції ), онлайнові дані мають природну "узгодженість стимулів" — кожна транзакція, кожна взаємодія з контрактом, кожна дія гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Це "найбільш зосереджені дані про поведінку людей з узгодженням стимулів в Інтернеті", що конкретизується в трьох вимірах:

( Реальний світ "сигналів наміру"

Записи даних на блокчейні не є емоційними коментарями або випадковими кліками, а є рішеннями, за які проголосували справжніми грошима. Наприклад, активність гаманця при обміні активів на певному DEX, при заставі на платформі кредитування або при реєстрації домену безпосередньо відображає оцінку користувачем цінності проекту, його ризикові вподобання та стратегію розподілу капіталу. Ці дані, що "підтверджені капіталом", мають велику цінність для навчання рішень ШІ, таких як фінансове прогнозування, аналіз ринку ). На відміну від цього, традиційні інтернет-дані переповнені "шумом" — такими як фальшиві лайки в соціальних мережах чи накручування коментарів на платформах електронної комерції, які не лише не можуть навчити надійні моделі ШІ, але й можуть ввести в оману оцінку моделей.

( 可追溯на "ланцюг дій"

Прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій певної адреси гаманця, протоколи, з якими вона взаємодіяла, зміни в активі формують єдиний "ланцюг поведінки". Наприклад, аналізуючи операції певної адреси в DeFi-протоколах з 2020 року до сьогодні, ШІ може точно визначити, чи є вона "довгостроковим утримувачем", "арбітражним трейдером" чи "постачальником ліквідності", і на основі цього створити профіль користувача. Ці структуровані дані про поведінку є найбільш дефіцитними "зразками людського міркування" для сучасних моделей ШІ.

) Відкритий екосистеми "безліцензійний доступ"

На відміну від закритості традиційних корпоративних даних, таких як банківські транзакції, дані користувачів електронної комерції ###, дані на блокчейні є відкритими та не вимагають дозволу. Будь-який розробник може отримати вихідні дані за допомогою блокчейн-браузера або API даних, що забезпечує "безбар'єрне" джерело даних для навчання моделей ШІ. Проте ця відкритість також приносить виклики: дані на блокчейні існують у формі "журналів подій" (, таких як подія ERC-20 Transfer в Ethereum, подія Swap на деякому DEX ), що є неструктурованими "вихідними сигналами", які потрібно очистити, стандартизувати та зв'язати, щоб їх можна було використовувати в моделях ШІ. Наразі "структурований коефіцієнт перетворення" даних на блокчейні становить менше 5%, значна кількість цінних сигналів занурена в десятки мільярдів фрагментованих подій.

Hyperdata Network: "Операційна система" для даних на блокчейні

Для вирішення проблеми фрагментації даних в блокчейні з'явилася нова "розумна операційна система на блокчейні". Її основна мета полягає в перетворенні розподілених сигналів на блокчейні в структуровані, перевіряємi, готовi до AI дані в реальному часі.

Рукопис: Відкриті стандарти даних, щоб AI "зрозумів" світ на блокчейні

Одна з найбільших проблем даних в блокчейні – це "безлад у форматах" – різні блокчейни ###, такі як Ethereum, Solana, Avalanche (, мають різні формати журналів подій, а структура даних різних версій одного і того ж протоколу також може змінюватися. Manuscript, як відкритий стандарт схем даних, уніфікує визначення і спосіб опису даних у блокчейні. Наприклад, він стандартизує "поведінку користувачів щодо стейкінгу" в структуровані дані, що містять поля staker_address, protocol_id, amount, timestamp, reward_token тощо, що забезпечує можливість AI-моделям не підлаштовуватися під різні формати даних блокчейнів або протоколів, а безпосередньо "розуміти" бізнес-логіку, що стоїть за даними.

Ця стандартизована цінність полягає у зменшенні витрат на розробку ШІ. Припустимо, команда хоче навчити "Модель прогнозування поведінки користувачів DeFi"; традиційним способом потрібно підключити API кількох ланцюгів, таких як Ethereum, Polygon тощо, та написати різні скрипти для аналізу. Однак на основі Manuscript всі дані в ланцюзі вже попередньо оброблені за єдиним стандартом, тому розробники можуть безпосередньо звертатися до структурованих даних, таких як "Записи про заставу користувачів" "Записи про надання ліквідності" тощо, що значно скорочує час навчання моделі.

Основна вимога до даних моделей ШІ – це "достовірність" – якщо навчальні дані були змінені або забруднені, вихід моделі не матиме жодної цінності. Механізм AVS)Active Validator Set( на Ethereum може забезпечити справжність даних. AVS є розширеним компонентом рівня консенсусу Ethereum, що складається з понад 600 000 ETH, які закладені в вузли валідації, що відповідають за перевірку цілісності та точності даних на ланцюгу. Коли обробляється подія на ланцюгу, вузли AVS перехресно перевіряють хеш-значення даних, інформацію про підписи та стан на ланцюгу, щоб забезпечити, що вихідні структуровані дані повністю відповідають оригінальним даним на ланцюгу.

Цей механізм верифікації, що забезпечується "економікою криптографії", вирішує проблему довіри традиційної централізованої верифікації даних. Наприклад, якщо якась AI компанія використовує дані на блокчейні, надані централізованою установою, їй потрібно довіряти, що ця установа не підробила дані; натомість, використовуючи децентралізовану верифікацію, справжність даних підтверджується мережею децентралізованих верифікаторів, і будь-яка спроба підробки призведе до активації механізму покарання смарт-контракту, наприклад, за рахунок утримання заставленого ETH.

) Високопродуктивний рівень доступності даних

AI моделі, особливо для AI-додатків з реальним часом ###, таких як торгові роботи, розумні клієнтські служби (, потребують низької затримки та високої пропускної здатності даних. Оптимізуючи алгоритми стиснення даних і протоколи передачі, можна досягти обробки десятків тисяч подій на ланцюгу в реальному часі за секунду. Наприклад, коли на певному DEX відбувається велика угода, дані можуть бути витягнуті, стандартизовані і перевірені за 1 секунду, а структурований "сигнал великої угоди" відправлений підписаним AI моделям, щоб вони могли вчасно коригувати торгові стратегії.

Висока пропускна спроможність забезпечується модульною архітектурою – розділенням зберігання даних і обчислень, де зберігання даних здійснюється через мережу розподілених вузлів, а обчислення реалізуються за допомогою офлайн Rollup, що дозволяє уникнути вузьких місць у продуктивності самої блокчейн-технології. Такий дизайн дозволяє мережі даних підтримувати вимоги до реальних даних для великих AI-застосунків, таких як надання одночасного онлайн сервісу даних на ланцюзі для тисяч торгових агентів.

Епоха DataFi: коли дані стають торгівельним "капіталом"

Кінцева мета нової мережі даних – сприяти входженню індустрії штучного інтелекту в епоху DataFi – дані більше не є пасивним "матеріалом для тренування", а є активним "капіталом", який може бути оцінений, обміняний та прирощений. Як електроенергія оцінюється у кіловатах, Обчислювальна потужність оцінюється у FLOPS, так і дані повинні бути оцінені, проранжовані, проаналізовані. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:

) Структуроване: від "сирого сигналу" до "придатних активів"

Невідфільтровані дані в ланцюзі подібні до "сирої нафти", які потрібно переробити, щоб стати "бензином". Через стандартизацію їх можна перетворити на структуровані дані, наприклад, розбиваючи "адресу гаманця A в момент T вносить X токенів до протоколу B" на багатовимірні дані, що містять профіль користувача, атрибути протоколу, тип активу, мітку часу. Така структура даних дозволяє AI-моделям безпосередньо викликати їх, так само просто, як викликати API.

( Можна комбінувати: "Лего" даних

У Web3 "комбінаторність" сприяла вибуху DeFi ), як інновації комбінацій DEX + кредитування + агрегування прибутку (. Введення цієї концепції в сферу даних: структуровані дані можуть вільно комбінуватися, як LEGO. Наприклад, розробники можуть об'єднати "записи про заставу користувачів" ) з протоколу застави ### з "даними про коливання цін" ( з оракула ) та "обсягом згадок у соціальних мережах" ### з API соціальних платформ ###, щоб навчити "модель прогнозування настроїв на ринку DeFi". Ця комбінаторність значно розширила межі використання даних, дозволяючи інноваціям у сфері AI не обмежуватися єдиним джерелом даних.

( Можна перевірити: "кредитна підтримка" даних

Перевірені структуровані дані генерують унікальний "відбиток даних" ) хеш-значення (, яке зберігається в блокчейні. Будь-яке AI-додаток або розробник, який використовує ці дані, може підтвердити достовірність даних, перевіривши хеш-значення. Ця "перевірність" надає даним кредитні властивості — наприклад, набір даних, позначений як "високоякісний торговий сигнал", може бути відслідкований за історичною точністю через записи хешів у блокчейні, користувачі не повинні довіряти постачальнику набору даних, достатньо лише перевірити відбиток даних, щоб оцінити якість даних.

) 可monetize:даних "перетворення вартості"

В еру DataFi постачальники даних можуть безпосередньо монетизувати структуровані дані. Наприклад, команда, проаналізувавши дані з блокчейну, розробила "сигнал попередження про вразливість смарт-контрактів", який можна упакувати в API-сервіс і стягувати плату за кількість викликів; звичайні користувачі також можуть авторизувати спільне використання своїх анонімних даних з блокчейну, отримуючи винагороду у вигляді токенів даних. У екосистемі даних вартість даних визначається попитом і пропозицією на ринку — сигнали торгівлі з високою точністю можуть мати вищу ціну, тоді як базові дані про поведінку користувачів можуть обчислюватися по разу.

Висновок: Революція даних, наступне десятиліття ШІ

Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальності" моделі, ігноруючи "дані як ґрунт" для цього інтелекту. Нові типи мереж даних виявляють основну істину: еволюція ШІ по суті є еволюцією інфраструктури даних. Від "обмеженості" даних, створених людиною, до "виявлення вартості" даних на блокчейні, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" DataFi, це все переосмислює базову логіку індустрії ШІ.

У цю еру DataFi дані стануть мостом, що з'єднує AI та реальний світ — торгові агенти сприймають ринкові емоції через дані на блокчейні, автономні dApp оптимізують послуги на основі даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід, ділячись даними. Як електрична мережа спричинила промислову революцію, Обчислювальна потужність мережа спричинила інтернет-революцію, так і мережа даних викликає "революцію даних" AI.

Наступне покоління AI-native додатків потребує не лише моделей або гаманців, але й даних, які не потребують довіри, є програмованими та мають високий сигнал. Коли дані нарешті отримають належну цінність, AI зможе по-справжньому звільнити силу, що змінює світ.

ETH2.19%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Репост
  • Поділіться
Прокоментувати
0/400
GasGrillMastervip
· 07-27 18:02
Це ж просто збирання даних.
Переглянути оригіналвідповісти на0
PuzzledScholarvip
· 07-26 22:29
Дані також мають бути капіталізовані, дуже втомився.
Переглянути оригіналвідповісти на0
MEVHunterXvip
· 07-26 06:24
Все ще недостатньо швидко Дані повільні, їх потрібно зменшити
Переглянути оригіналвідповісти на0
consensus_failurevip
· 07-26 06:23
Схоже, що революція даних незабаром настане... торгівля зоною DataFi
Переглянути оригіналвідповісти на0
AirdropworkerZhangvip
· 07-26 06:13
Схоже, що знову починається внутрішня конкуренція.
Переглянути оригіналвідповісти на0
TrustlessMaximalistvip
· 07-26 06:12
Занадто пізно, великий дані вже стали стандартом Web3.
Переглянути оригіналвідповісти на0
IntrovertMetaversevip
· 07-26 05:59
Хто збирає мої дані, той і є великий батько!
Переглянути оригіналвідповісти на0
  • Закріпити