الثورة القادمة في صناعة الذكاء الاصطناعي: من قوة الحوسبة إلى ثورة البيانات
تجاوز حجم معلمات نموذج الذكاء الاصطناعي ( AI ) تريليون، بينما تبلغ قدرة الحوسبة ( FLOPS ) بمعدل مئات المليارات من العمليات في الثانية، يظهر فجأة عنق الزجاجة الأساسي الذي تم تجاهله - البيانات. الثورة القادمة في صناعة الذكاء الاصطناعي لن تقودها بنية النماذج أو قوة الحوسبة، بل ستعتمد على كيفية تحويل بيانات سلوك البشر المتناثرة إلى رأس مال يمكن التحقق منه ومنظم وجاهز للذكاء الاصطناعي. هذه الرؤية لا تكشف فقط عن التناقض الهيكلي الحالي في تطور الذكاء الاصطناعي، بل ترسم أيضًا صورة جديدة لمرحلة "DataFi" - في هذه المرحلة، لم تعد البيانات منتجًا جانبيًا للتكنولوجيا، بل أصبحت عنصر الإنتاج الأساسي الذي يمكن قياسه وتداوله وزيادة قيمته مثل الكهرباء وقوة الحوسبة.
من قوة الحوسبة إلى مجاعة البيانات: التناقضات الهيكلية في صناعة الذكاء الاصطناعي
تم دفع تطوير الذكاء الاصطناعي لفترة طويلة بواسطة "نموذج - قوة الحوسبة". منذ ثورة التعلم العميق، قفز عدد معلمات النموذج من مئات الآلاف ( كما في AlexNet عام 2012 إلى تريليونات ) كما في GPT-4 (، مما أدى إلى زيادة الطلب على قوة الحوسبة بشكل أسي. لقد تجاوزت تكلفة تدريب نموذج لغة كبير متقدم 100 مليون دولار، حيث يُستخدم 90% منها لتأجير مجموعات GPU. ومع ذلك، عندما يركز القطاع على "نموذج أكبر" و"شرائح أسرع"، فإن أزمة جانب العرض للبيانات تقترب بهدوء.
لقد وصلت "البيانات العضوية" التي ينتجها البشر إلى سقف نموها. على سبيل المثال، في حالة بيانات النصوص، يبلغ إجمالي كمية النصوص عالية الجودة المتاحة على الإنترنت والتي يمكن الزحف إليها مثل الكتب، والأبحاث، والأخبار حوالي 10^12 كلمة، بينما يتطلب تدريب نموذج مكون من مائة مليار معلمة حوالي 10^13 كلمة من البيانات - مما يعني أن حوض البيانات الحالي يدعم فقط تدريب 10 نماذج بنفس الحجم. والأكثر خطورة هو أن نسبة البيانات المكررة والمحتوى منخفض الجودة تتجاوز 60%، مما يضغط أكثر على إمدادات البيانات الفعالة. عندما يبدأ النموذج في "ابتلاع" البيانات التي ينتجها بنفسه مثل المقالات التي تكتبها الذكاء الاصطناعي، والصور التي تولدها الذكاء الاصطناعي، فإن "تلوث البيانات" الناتج يؤدي إلى تدهور أداء النموذج، مما أصبح مصدر قلق في الصناعة.
تعود جذور هذه التناقضات إلى أن صناعة الذكاء الاصطناعي طالما اعتبرت البيانات "موارد مجانية"، بدلاً من "أصول استراتيجية" تحتاج إلى تربية دقيقة. لقد شكلت النماذج وقوة الحوسبة نظام سوق ناضج - حيث يتم تسعير قوة الحوسبة على منصات السحابة حسب FLOPS، ويتم فرض رسوم على واجهات برمجة التطبيقات حسب عدد الاستدعاءات - لكن إنتاج البيانات وتنظيفها والتحقق منها وتداولها لا يزال في "عصر الهمجية". ستكون السنوات العشر القادمة للذكاء الاصطناعي "عقد البنية التحتية للبيانات"، وبيانات الشبكة المشفرة على السلسلة هي المفتاح لحل هذه المعضلة.
بيانات البلوكشين: "قاعدة بيانات السلوك البشري" الأكثر احتياجًا للذكاء الاصطناعي
في ظل نقص البيانات، تظهر البيانات على السلسلة في الشبكات المشفرة قيمة لا يمكن الاستغناء عنها. مقارنةً ببيانات الإنترنت التقليدي ) مثل منشورات وسائل التواصل الاجتماعي، وتعليقات التجارة الإلكترونية (، تتمتع البيانات على السلسلة بموثوقية "محاذاة الحوافز" بشكل طبيعي - كل معاملة، كل تفاعل عقد، وكل تصرف لعنوان محفظة، مرتبط مباشرة برأس المال الحقيقي، وغير قابلة للتلاعب. هذه هي "أكثر بيانات سلوك محاذاة الحوافز البشرية تركيزًا على الإنترنت"، مما يتجلى في ثلاثة أبعاد:
) إشارات "النية" في العالم الحقيقي
تسجل البيانات على السلسلة ليس التعليقات العاطفية أو النقرات العشوائية، بل هي سلوكيات اتخاذ قرارات تصوت بالمال الحقيقي. على سبيل المثال، فإن تبادل الأصول لمحفظة ما على أحد منصات DEX، أو إقراض الأموال على منصة إقراض، أو تسجيل اسم نطاق، تعكس مباشرةً حكم المستخدم على قيمة المشروع، وتفضيلات المخاطر، واستراتيجيات تخصيص الأموال. هذه البيانات "المدعومة برأس المال" لها قيمة عالية في تدريب قدرات اتخاذ القرار للذكاء الاصطناعي ( مثل التنبؤات المالية، وتحليل السوق ). بالمقابل، تعج البيانات التقليدية على الإنترنت بـ "الضوضاء" - مثل الإعجابات الزائفة على وسائل التواصل الاجتماعي، والتعليقات المزيفة على منصات التجارة الإلكترونية، هذه البيانات لا تستطيع فقط تدريب نماذج الذكاء الاصطناعي الموثوقة، بل قد تضلل النموذج في الحكم.
( سلسلة السلوك القابلة للتعقب
تتيح شفافية blockchain تتبع سلوك المستخدمين بشكل كامل. تشكل المعاملات التاريخية لعنوان المحفظة، والبروتوكولات التي تم التفاعل معها، والتغييرات في الأصول المحتفظ بها سلسلة مترابطة من "سلوكيات". على سبيل المثال، من خلال تحليل العمليات التي تمت على عنوان معين في بروتوكولات DeFi منذ عام 2020 حتى الآن، يمكن للذكاء الاصطناعي تحديد بدقة ما إذا كان "مستثمرًا طويل الأجل" أو "متداولًا في الأرباح" أو "موفر سيولة"، وبناء صورة مستخدم بناءً على ذلك. هذه البيانات السلوكية المنظمة هي "عينات الاستدلال البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.
) وصول "بدون إذن" في النظام البيئي المفتوح
على عكس الخصوصية في بيانات الشركات التقليدية مثل سجلات معاملات البنوك وبيانات مستخدمي التجارة الإلكترونية، فإن البيانات على السلسلة مفتوحة ولا تتطلب إذنًا. يمكن لأي مطور الحصول على البيانات الأصلية من خلال متصفح البلوكتشين أو واجهة برمجة التطبيقات الخاصة بالبيانات، مما يوفر مصدر بيانات "بدون حواجز" لتدريب نماذج الذكاء الاصطناعي. ومع ذلك، فإن هذه الانفتاحية تجلب أيضًا تحديات: توجد البيانات على السلسلة في شكل "سجلات الأحداث" مثل أحداث تحويل ERC-20 على الإيثريوم، وأحداث التبادل في بعض DEX، وهي "إشارات خام" غير منظمة تتطلب التنظيف والمعايرة والربط لتكون قابلة للاستخدام من قبل نماذج الذكاء الاصطناعي. حاليًا، معدل "التحويل الهيكلي" للبيانات على السلسلة أقل من 5%، حيث يتم دفن عدد كبير من الإشارات ذات القيمة العالية في مليارات من الأحداث المجزأة.
شبكة البيانات الفائقة: "نظام التشغيل" للبيانات على السلسلة
لحل مشكلة تجزئة البيانات على السلسلة، تم تطوير نوع جديد من "نظام التشغيل الذكي على السلسلة". الهدف الأساسي له هو تحويل الإشارات الموزعة على السلسلة إلى بيانات جاهزة للذكاء الاصطناعي منظمة وقابلة للتحقق وقابلة للتجميع في الوقت الفعلي.
Manuscript:معيار البيانات المفتوحة، ليتمكن الذكاء الاصطناعي من "فهم" عالم البلوك تشين
أحد أكبر نقاط الألم في بيانات السلسلة هو "فوضى التنسيق" - حيث تختلف تنسيقات سجلات الأحداث عبر سلاسل الكتل المختلفة ( مثل إيثريوم وسولانا وأفالانش )، وقد تتغير بنية البيانات للإصدارات المختلفة من نفس البروتوكول. Manuscript كمعيار مفتوح لبيانات السكيما، قام بتوحيد تعريف البيانات على السلسلة وطريقة وصفها. على سبيل المثال، لقد قام بتوحيد "سلوك المراهنة من قبل المستخدم" ليصبح بيانات هيكلية تحتوي على حقول مثل staker_address و protocol_id و amount و timestamp و reward_token، مما يضمن أن نماذج الذكاء الاصطناعي لا تحتاج إلى التكيف مع تنسيقات بيانات سلاسل الكتل أو البروتوكولات المختلفة، بل يمكنها "فهم" المنطق التجاري وراء البيانات مباشرة.
تتمثل القيمة المعيارية هذه في تقليل تكاليف الاحتكاك في تطوير الذكاء الاصطناعي. افترض أن فريقًا ما يحتاج إلى تدريب "نموذج توقع سلوك مستخدمي DeFi"، حيث تتطلب الطريقة التقليدية الاتصال بواجهات برمجة التطبيقات لمجموعة من السلاسل مثل إيثريوم وPolygon، وكتابة نصوص تحليلية مختلفة؛ بينما استنادًا إلى Manuscript، تم معالجة جميع بيانات السلاسل وفقًا لمعايير موحدة، ويمكن للمطورين استدعاء "سجلات الرهن الخاصة بالمستخدمين" و"سجلات تقديم السيولة" وغيرها من البيانات الهيكلية مباشرة، مما يقلل بشكل كبير من فترة تدريب النموذج.
المتطلبات الأساسية لنموذج الذكاء الاصطناعي للبيانات هي "موثوق بها" - إذا تم العبث ببيانات التدريب أو تلويثها، ستكون مخرجات النموذج بلا قيمة. من خلال آلية مجموعة المدققين النشطين AVS### على إيثريوم، يمكن ضمان صحة البيانات. AVS هو مكون موسع لطبقة إجماع إيثريوم، ويتكون من أكثر من 600 ألف عقدة مدقق تم رهنها بـ ETH، وهذه العقد مسؤولة عن التحقق من سلامة ودقة البيانات على السلسلة. عند معالجة حدث على السلسلة، تقوم عقد AVS بالتحقق المتقاطع لقيم تجزئة البيانات، ومعلومات التوقيع، وحالة السلسلة، لضمان أن البيانات الهيكلية الناتجة تتطابق تمامًا مع البيانات الأصلية على السلسلة.
تعمل آلية التحقق من "ضمان الاقتصاد المشفر" هذه على حل مشكلة الثقة في التحقق المركزي التقليدي للبيانات. على سبيل المثال، إذا كانت هناك شركة AI تستخدم بيانات على السلسلة مقدمة من وكالة مركزية، فسيتعين عليها الوثوق بأن الوكالة لم تغير البيانات؛ بينما باستخدام التحقق اللامركزي، يتم تأييد صحة البيانات من قبل شبكة من المدققين اللامركزية، وأي سلوك تعديل سيؤدي إلى تفعيل آلية العقوبة للعقد الذكي ### مثل خصم ETH المرهونة (.
) طبقة توفر البيانات عالية الإنتاجية
نموذج الذكاء الاصطناعي، وخاصة تطبيقات الذكاء الاصطناعي التفاعلية في الوقت الحقيقي ( مثل الروبوتات التجارية، وخدمة العملاء الذكية )، تحتاج إلى إمدادات بيانات ذات زمن انتقال منخفض وسعة معالجة عالية. من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، يمكن تحقيق معالجة الأحداث على السلسلة في الوقت الحقيقي بمعدل مئات الآلاف من الأحداث في الثانية. على سبيل المثال، عندما تحدث صفقة كبيرة في أحد منصات التداول اللامركزية (DEX)، يمكن إكمال استخراج البيانات والتوحيد والتحقق منها في غضون ثانية واحدة، ودفع "إشارة الصفقة الكبيرة" المهيكلة إلى نماذج الذكاء الاصطناعي المشتركين، مما يمكنها من تعديل استراتيجيات التداول في الوقت المناسب.
خلف معدل نقل البيانات العالي هو الهيكلية المعيارية - حيث يتم فصل تخزين البيانات عن الحساب، ويتولى شبكة من العقد الموزعة تخزين البيانات، بينما يتم تنفيذ الحساب من خلال Rollup خارج السلسلة، مما يتجنب عنق الزجاجة في أداء blockchain نفسه. يسمح هذا التصميم لشبكة البيانات بدعم احتياجات البيانات في الوقت الفعلي لتطبيقات الذكاء الاصطناعي واسعة النطاق، مثل توفير خدمات البيانات على السلسلة عبر الإنترنت في نفس الوقت لآلاف من وكلاء التداول.
عصر DataFi: عندما تصبح البيانات "رأس المال" القابل للتداول
الهدف النهائي للشبكة الجديدة للبيانات هو دفع صناعة الذكاء الاصطناعي إلى عصر DataFi - حيث لم تعد البيانات "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشط يمكن تسعيره وتداوله وزيادة قيمته. مثلما يتم تسعير الكهرباء بالكيلووات، يتم تسعير قوة الحوسبة بـ FLOPS، يجب أيضًا تقييم البيانات وتصنيفها وتقدير قيمتها. تعتمد تحقيق هذه الرؤية على تحويل البيانات إلى أربع خصائص أساسية:
هيكلية: من "إشارة أولية" إلى "أصول قابلة للاستخدام"
البيانات غير المعالجة على السلسلة تشبه "النفط الخام"، تحتاج إلى التكرير لتصبح "البنزين". من خلال التوحيد، يمكن تحويلها إلى بيانات هيكلية، مثل تحليل "العنوان المحفظة A في الوقت T أودع X من الرموز في البروتوكول B" إلى بيانات متعددة الأبعاد تتضمن صورة المستخدم، خصائص البروتوكول، نوع الأصول، وطابع زمني. هذه الهيكلة تجعل البيانات قابلة للاستخدام مباشرة بواسطة نماذج الذكاء الاصطناعي، تمامًا كما هو بسيط مثل استدعاء واجهة برمجة التطبيقات.
( قابلة للتجميع: "ليغو البيانات"
في Web3، أدت "القابلية للتجميع" إلى انفجار DeFi ) من خلال الابتكارات التركيبية مثل DEX + الإقراض + تجميع العائدات (. إدخال هذه الفكرة في مجال البيانات: يمكن أن تتجمع البيانات الهيكلية بحرية مثل قطع ليغو. على سبيل المثال، يمكن للمطورين دمج "سجلات الرهان الخاصة بالمستخدمين" ) من بروتوكول الرهان ( مع "بيانات تقلب الأسعار" ) من الأوراكل ### و"عدد الإشارات الاجتماعية" ( من واجهة برمجة تطبيقات منصة وسائل التواصل الاجتماعي )، لتدريب "نموذج توقع مشاعر سوق DeFi". هذه القابلية للتجميع توسع بشكل كبير حدود تطبيق البيانات، مما يجعل الابتكار في الذكاء الاصطناعي غير محدود بمصدر بيانات واحد.
قابل للتحقق: "تأييد الائتمان" للبيانات
من خلال البيانات الهيكلية التي تم التحقق منها، سيتم إنشاء "بصمة بيانات" فريدة ### قيمة هاش (، وتخزينها على البلوك تشين. يمكن لأي تطبيق ذكاء اصطناعي أو مطور يستخدم هذه البيانات تأكيد صحة البيانات من خلال التحقق من قيمة الهاش. هذه "القابلية للتحقق" تمنح البيانات خصائص الائتمان - على سبيل المثال، مجموعة بيانات مصنفة على أنها "إشارات تداول عالية الجودة"، يمكن تتبع دقتها التاريخية من خلال سجلات الهاش على البلوك تشين، لا يحتاج المستخدمون إلى الثقة بمزود مجموعة البيانات، بل يكفي التحقق من بصمة البيانات لتحديد جودة البيانات.
) يمكن monetization: "تحويل قيمة البيانات"
في عصر DataFi، يمكن لمقدمي البيانات تحويل البيانات المهيكلة مباشرة إلى عائدات. على سبيل المثال، فريق ما طور "إشارات تحذيرية من ثغرات العقود الذكية" من خلال تحليل البيانات على السلسلة، ويمكنه تغليف هذه الإشارة كخدمة API، وفرض رسوم حسب عدد الاستدعاءات؛ ويمكن للمستخدمين العاديين أيضًا تفويض مشاركة بياناتهم على السلسلة بشكل مجهول، والحصول على مكافآت رمزية. في النظام البيئي للبيانات، تحدد قيمة البيانات من خلال العرض والطلب في السوق - قد تكون إشارات التداول ذات الدقة العالية ذات تسعير أعلى، بينما قد يتم تسعير بيانات سلوك المستخدم الأساسية حسب الاستخدام.
الخاتمة: ثورة البيانات، العقد القادم للذكاء الاصطناعي
عندما نتحدث عن مستقبل الذكاء الاصطناعي، غالبًا ما نركز على "مستوى الذكاء" للنماذج، متجاهلين "التربة البيانية" التي تدعم الذكاء. تكشف الشبكات البيانية الجديدة عن حقيقة أساسية: تطور الذكاء الاصطناعي هو في جوهره تطور البنية التحتية البيانية. من "الحدود" للبيانات التي يولدها البشر إلى "اكتشاف القيمة" للبيانات على السلسلة، من "الفوضى" للإشارات المجزأة إلى "النظام" للبيانات المهيكلة، من "الموارد المجانية" للبيانات إلى "الأصول الرأسمالية" لـ DataFi، يتم إعادة تشكيل المنطق الأساسي لصناعة الذكاء الاصطناعي.
في عهد DataFi هذا، ستصبح البيانات جسرًا يربط بين الذكاء الاصطناعي والعالم الحقيقي - حيث يدرك وكلاء التداول مشاعر السوق من خلال البيانات على السلسلة، وتقوم dApp المستقلة بتحسين الخدمات من خلال بيانات سلوك المستخدم، بينما يحصل المستخدمون العاديون على دخل مستمر من خلال مشاركة البيانات. تمامًا كما أدت شبكة الكهرباء إلى الثورة الصناعية، فإن قوة الحوسبة قد أدت إلى ثورة الإنترنت، فإن شبكة البيانات تقوم الآن بإحداث "ثورة البيانات" في الذكاء الاصطناعي.
تطبيقات الجيل التالي المولدة بواسطة الذكاء الاصطناعي لا تحتاج فقط إلى نماذج أو محافظ، بل تحتاج أيضًا إلى بيانات قابلة للبرمجة، موثوقة، وعالية الإشارة. عندما يتم أخيرًا منح البيانات القيمة التي تستحقها، يمكن للذكاء الاصطناعي أن يطلق العنان للقوة التي تغير العالم.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 16
أعجبني
16
9
إعادة النشر
مشاركة
تعليق
0/400
GasGrillMaster
· 07-27 18:02
أليس مجرد تجميع البيانات؟
شاهد النسخة الأصليةرد0
PuzzledScholar
· 07-26 22:29
يجب أن يتم تقليل البيانات إلى رأس المال. أنا متعب جداً.
شاهد النسخة الأصليةرد0
MEVHunterX
· 07-26 06:24
لا يزال غير سريع بما فيه الكفاية، البيانات بطيئة وستتعرض للضغط.
شاهد النسخة الأصليةرد0
consensus_failure
· 07-26 06:23
يبدو أن ثورة البيانات قادمة... تداول منطقة DataFi
شاهد النسخة الأصليةرد0
AirdropworkerZhang
· 07-26 06:13
يبدو أننا سنبدأ في التنافس مرة أخرى ها
شاهد النسخة الأصليةرد0
TrustlessMaximalist
· 07-26 06:12
لقد فات الأوان، فقد أصبحت البيانات الضخمة معيار Web3.
عصر DataFi قادم: البيانات داخل السلسلة ستقود الثورة القادمة في صناعة الذكاء الاصطناعي
الثورة القادمة في صناعة الذكاء الاصطناعي: من قوة الحوسبة إلى ثورة البيانات
تجاوز حجم معلمات نموذج الذكاء الاصطناعي ( AI ) تريليون، بينما تبلغ قدرة الحوسبة ( FLOPS ) بمعدل مئات المليارات من العمليات في الثانية، يظهر فجأة عنق الزجاجة الأساسي الذي تم تجاهله - البيانات. الثورة القادمة في صناعة الذكاء الاصطناعي لن تقودها بنية النماذج أو قوة الحوسبة، بل ستعتمد على كيفية تحويل بيانات سلوك البشر المتناثرة إلى رأس مال يمكن التحقق منه ومنظم وجاهز للذكاء الاصطناعي. هذه الرؤية لا تكشف فقط عن التناقض الهيكلي الحالي في تطور الذكاء الاصطناعي، بل ترسم أيضًا صورة جديدة لمرحلة "DataFi" - في هذه المرحلة، لم تعد البيانات منتجًا جانبيًا للتكنولوجيا، بل أصبحت عنصر الإنتاج الأساسي الذي يمكن قياسه وتداوله وزيادة قيمته مثل الكهرباء وقوة الحوسبة.
من قوة الحوسبة إلى مجاعة البيانات: التناقضات الهيكلية في صناعة الذكاء الاصطناعي
تم دفع تطوير الذكاء الاصطناعي لفترة طويلة بواسطة "نموذج - قوة الحوسبة". منذ ثورة التعلم العميق، قفز عدد معلمات النموذج من مئات الآلاف ( كما في AlexNet عام 2012 إلى تريليونات ) كما في GPT-4 (، مما أدى إلى زيادة الطلب على قوة الحوسبة بشكل أسي. لقد تجاوزت تكلفة تدريب نموذج لغة كبير متقدم 100 مليون دولار، حيث يُستخدم 90% منها لتأجير مجموعات GPU. ومع ذلك، عندما يركز القطاع على "نموذج أكبر" و"شرائح أسرع"، فإن أزمة جانب العرض للبيانات تقترب بهدوء.
لقد وصلت "البيانات العضوية" التي ينتجها البشر إلى سقف نموها. على سبيل المثال، في حالة بيانات النصوص، يبلغ إجمالي كمية النصوص عالية الجودة المتاحة على الإنترنت والتي يمكن الزحف إليها مثل الكتب، والأبحاث، والأخبار حوالي 10^12 كلمة، بينما يتطلب تدريب نموذج مكون من مائة مليار معلمة حوالي 10^13 كلمة من البيانات - مما يعني أن حوض البيانات الحالي يدعم فقط تدريب 10 نماذج بنفس الحجم. والأكثر خطورة هو أن نسبة البيانات المكررة والمحتوى منخفض الجودة تتجاوز 60%، مما يضغط أكثر على إمدادات البيانات الفعالة. عندما يبدأ النموذج في "ابتلاع" البيانات التي ينتجها بنفسه مثل المقالات التي تكتبها الذكاء الاصطناعي، والصور التي تولدها الذكاء الاصطناعي، فإن "تلوث البيانات" الناتج يؤدي إلى تدهور أداء النموذج، مما أصبح مصدر قلق في الصناعة.
تعود جذور هذه التناقضات إلى أن صناعة الذكاء الاصطناعي طالما اعتبرت البيانات "موارد مجانية"، بدلاً من "أصول استراتيجية" تحتاج إلى تربية دقيقة. لقد شكلت النماذج وقوة الحوسبة نظام سوق ناضج - حيث يتم تسعير قوة الحوسبة على منصات السحابة حسب FLOPS، ويتم فرض رسوم على واجهات برمجة التطبيقات حسب عدد الاستدعاءات - لكن إنتاج البيانات وتنظيفها والتحقق منها وتداولها لا يزال في "عصر الهمجية". ستكون السنوات العشر القادمة للذكاء الاصطناعي "عقد البنية التحتية للبيانات"، وبيانات الشبكة المشفرة على السلسلة هي المفتاح لحل هذه المعضلة.
بيانات البلوكشين: "قاعدة بيانات السلوك البشري" الأكثر احتياجًا للذكاء الاصطناعي
في ظل نقص البيانات، تظهر البيانات على السلسلة في الشبكات المشفرة قيمة لا يمكن الاستغناء عنها. مقارنةً ببيانات الإنترنت التقليدي ) مثل منشورات وسائل التواصل الاجتماعي، وتعليقات التجارة الإلكترونية (، تتمتع البيانات على السلسلة بموثوقية "محاذاة الحوافز" بشكل طبيعي - كل معاملة، كل تفاعل عقد، وكل تصرف لعنوان محفظة، مرتبط مباشرة برأس المال الحقيقي، وغير قابلة للتلاعب. هذه هي "أكثر بيانات سلوك محاذاة الحوافز البشرية تركيزًا على الإنترنت"، مما يتجلى في ثلاثة أبعاد:
) إشارات "النية" في العالم الحقيقي
تسجل البيانات على السلسلة ليس التعليقات العاطفية أو النقرات العشوائية، بل هي سلوكيات اتخاذ قرارات تصوت بالمال الحقيقي. على سبيل المثال، فإن تبادل الأصول لمحفظة ما على أحد منصات DEX، أو إقراض الأموال على منصة إقراض، أو تسجيل اسم نطاق، تعكس مباشرةً حكم المستخدم على قيمة المشروع، وتفضيلات المخاطر، واستراتيجيات تخصيص الأموال. هذه البيانات "المدعومة برأس المال" لها قيمة عالية في تدريب قدرات اتخاذ القرار للذكاء الاصطناعي ( مثل التنبؤات المالية، وتحليل السوق ). بالمقابل، تعج البيانات التقليدية على الإنترنت بـ "الضوضاء" - مثل الإعجابات الزائفة على وسائل التواصل الاجتماعي، والتعليقات المزيفة على منصات التجارة الإلكترونية، هذه البيانات لا تستطيع فقط تدريب نماذج الذكاء الاصطناعي الموثوقة، بل قد تضلل النموذج في الحكم.
( سلسلة السلوك القابلة للتعقب
تتيح شفافية blockchain تتبع سلوك المستخدمين بشكل كامل. تشكل المعاملات التاريخية لعنوان المحفظة، والبروتوكولات التي تم التفاعل معها، والتغييرات في الأصول المحتفظ بها سلسلة مترابطة من "سلوكيات". على سبيل المثال، من خلال تحليل العمليات التي تمت على عنوان معين في بروتوكولات DeFi منذ عام 2020 حتى الآن، يمكن للذكاء الاصطناعي تحديد بدقة ما إذا كان "مستثمرًا طويل الأجل" أو "متداولًا في الأرباح" أو "موفر سيولة"، وبناء صورة مستخدم بناءً على ذلك. هذه البيانات السلوكية المنظمة هي "عينات الاستدلال البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.
) وصول "بدون إذن" في النظام البيئي المفتوح
على عكس الخصوصية في بيانات الشركات التقليدية مثل سجلات معاملات البنوك وبيانات مستخدمي التجارة الإلكترونية، فإن البيانات على السلسلة مفتوحة ولا تتطلب إذنًا. يمكن لأي مطور الحصول على البيانات الأصلية من خلال متصفح البلوكتشين أو واجهة برمجة التطبيقات الخاصة بالبيانات، مما يوفر مصدر بيانات "بدون حواجز" لتدريب نماذج الذكاء الاصطناعي. ومع ذلك، فإن هذه الانفتاحية تجلب أيضًا تحديات: توجد البيانات على السلسلة في شكل "سجلات الأحداث" مثل أحداث تحويل ERC-20 على الإيثريوم، وأحداث التبادل في بعض DEX، وهي "إشارات خام" غير منظمة تتطلب التنظيف والمعايرة والربط لتكون قابلة للاستخدام من قبل نماذج الذكاء الاصطناعي. حاليًا، معدل "التحويل الهيكلي" للبيانات على السلسلة أقل من 5%، حيث يتم دفن عدد كبير من الإشارات ذات القيمة العالية في مليارات من الأحداث المجزأة.
شبكة البيانات الفائقة: "نظام التشغيل" للبيانات على السلسلة
لحل مشكلة تجزئة البيانات على السلسلة، تم تطوير نوع جديد من "نظام التشغيل الذكي على السلسلة". الهدف الأساسي له هو تحويل الإشارات الموزعة على السلسلة إلى بيانات جاهزة للذكاء الاصطناعي منظمة وقابلة للتحقق وقابلة للتجميع في الوقت الفعلي.
Manuscript:معيار البيانات المفتوحة، ليتمكن الذكاء الاصطناعي من "فهم" عالم البلوك تشين
أحد أكبر نقاط الألم في بيانات السلسلة هو "فوضى التنسيق" - حيث تختلف تنسيقات سجلات الأحداث عبر سلاسل الكتل المختلفة ( مثل إيثريوم وسولانا وأفالانش )، وقد تتغير بنية البيانات للإصدارات المختلفة من نفس البروتوكول. Manuscript كمعيار مفتوح لبيانات السكيما، قام بتوحيد تعريف البيانات على السلسلة وطريقة وصفها. على سبيل المثال، لقد قام بتوحيد "سلوك المراهنة من قبل المستخدم" ليصبح بيانات هيكلية تحتوي على حقول مثل staker_address و protocol_id و amount و timestamp و reward_token، مما يضمن أن نماذج الذكاء الاصطناعي لا تحتاج إلى التكيف مع تنسيقات بيانات سلاسل الكتل أو البروتوكولات المختلفة، بل يمكنها "فهم" المنطق التجاري وراء البيانات مباشرة.
تتمثل القيمة المعيارية هذه في تقليل تكاليف الاحتكاك في تطوير الذكاء الاصطناعي. افترض أن فريقًا ما يحتاج إلى تدريب "نموذج توقع سلوك مستخدمي DeFi"، حيث تتطلب الطريقة التقليدية الاتصال بواجهات برمجة التطبيقات لمجموعة من السلاسل مثل إيثريوم وPolygon، وكتابة نصوص تحليلية مختلفة؛ بينما استنادًا إلى Manuscript، تم معالجة جميع بيانات السلاسل وفقًا لمعايير موحدة، ويمكن للمطورين استدعاء "سجلات الرهن الخاصة بالمستخدمين" و"سجلات تقديم السيولة" وغيرها من البيانات الهيكلية مباشرة، مما يقلل بشكل كبير من فترة تدريب النموذج.
المتطلبات الأساسية لنموذج الذكاء الاصطناعي للبيانات هي "موثوق بها" - إذا تم العبث ببيانات التدريب أو تلويثها، ستكون مخرجات النموذج بلا قيمة. من خلال آلية مجموعة المدققين النشطين AVS### على إيثريوم، يمكن ضمان صحة البيانات. AVS هو مكون موسع لطبقة إجماع إيثريوم، ويتكون من أكثر من 600 ألف عقدة مدقق تم رهنها بـ ETH، وهذه العقد مسؤولة عن التحقق من سلامة ودقة البيانات على السلسلة. عند معالجة حدث على السلسلة، تقوم عقد AVS بالتحقق المتقاطع لقيم تجزئة البيانات، ومعلومات التوقيع، وحالة السلسلة، لضمان أن البيانات الهيكلية الناتجة تتطابق تمامًا مع البيانات الأصلية على السلسلة.
تعمل آلية التحقق من "ضمان الاقتصاد المشفر" هذه على حل مشكلة الثقة في التحقق المركزي التقليدي للبيانات. على سبيل المثال، إذا كانت هناك شركة AI تستخدم بيانات على السلسلة مقدمة من وكالة مركزية، فسيتعين عليها الوثوق بأن الوكالة لم تغير البيانات؛ بينما باستخدام التحقق اللامركزي، يتم تأييد صحة البيانات من قبل شبكة من المدققين اللامركزية، وأي سلوك تعديل سيؤدي إلى تفعيل آلية العقوبة للعقد الذكي ### مثل خصم ETH المرهونة (.
) طبقة توفر البيانات عالية الإنتاجية
نموذج الذكاء الاصطناعي، وخاصة تطبيقات الذكاء الاصطناعي التفاعلية في الوقت الحقيقي ( مثل الروبوتات التجارية، وخدمة العملاء الذكية )، تحتاج إلى إمدادات بيانات ذات زمن انتقال منخفض وسعة معالجة عالية. من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، يمكن تحقيق معالجة الأحداث على السلسلة في الوقت الحقيقي بمعدل مئات الآلاف من الأحداث في الثانية. على سبيل المثال، عندما تحدث صفقة كبيرة في أحد منصات التداول اللامركزية (DEX)، يمكن إكمال استخراج البيانات والتوحيد والتحقق منها في غضون ثانية واحدة، ودفع "إشارة الصفقة الكبيرة" المهيكلة إلى نماذج الذكاء الاصطناعي المشتركين، مما يمكنها من تعديل استراتيجيات التداول في الوقت المناسب.
خلف معدل نقل البيانات العالي هو الهيكلية المعيارية - حيث يتم فصل تخزين البيانات عن الحساب، ويتولى شبكة من العقد الموزعة تخزين البيانات، بينما يتم تنفيذ الحساب من خلال Rollup خارج السلسلة، مما يتجنب عنق الزجاجة في أداء blockchain نفسه. يسمح هذا التصميم لشبكة البيانات بدعم احتياجات البيانات في الوقت الفعلي لتطبيقات الذكاء الاصطناعي واسعة النطاق، مثل توفير خدمات البيانات على السلسلة عبر الإنترنت في نفس الوقت لآلاف من وكلاء التداول.
عصر DataFi: عندما تصبح البيانات "رأس المال" القابل للتداول
الهدف النهائي للشبكة الجديدة للبيانات هو دفع صناعة الذكاء الاصطناعي إلى عصر DataFi - حيث لم تعد البيانات "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشط يمكن تسعيره وتداوله وزيادة قيمته. مثلما يتم تسعير الكهرباء بالكيلووات، يتم تسعير قوة الحوسبة بـ FLOPS، يجب أيضًا تقييم البيانات وتصنيفها وتقدير قيمتها. تعتمد تحقيق هذه الرؤية على تحويل البيانات إلى أربع خصائص أساسية:
هيكلية: من "إشارة أولية" إلى "أصول قابلة للاستخدام"
البيانات غير المعالجة على السلسلة تشبه "النفط الخام"، تحتاج إلى التكرير لتصبح "البنزين". من خلال التوحيد، يمكن تحويلها إلى بيانات هيكلية، مثل تحليل "العنوان المحفظة A في الوقت T أودع X من الرموز في البروتوكول B" إلى بيانات متعددة الأبعاد تتضمن صورة المستخدم، خصائص البروتوكول، نوع الأصول، وطابع زمني. هذه الهيكلة تجعل البيانات قابلة للاستخدام مباشرة بواسطة نماذج الذكاء الاصطناعي، تمامًا كما هو بسيط مثل استدعاء واجهة برمجة التطبيقات.
( قابلة للتجميع: "ليغو البيانات"
في Web3، أدت "القابلية للتجميع" إلى انفجار DeFi ) من خلال الابتكارات التركيبية مثل DEX + الإقراض + تجميع العائدات (. إدخال هذه الفكرة في مجال البيانات: يمكن أن تتجمع البيانات الهيكلية بحرية مثل قطع ليغو. على سبيل المثال، يمكن للمطورين دمج "سجلات الرهان الخاصة بالمستخدمين" ) من بروتوكول الرهان ( مع "بيانات تقلب الأسعار" ) من الأوراكل ### و"عدد الإشارات الاجتماعية" ( من واجهة برمجة تطبيقات منصة وسائل التواصل الاجتماعي )، لتدريب "نموذج توقع مشاعر سوق DeFi". هذه القابلية للتجميع توسع بشكل كبير حدود تطبيق البيانات، مما يجعل الابتكار في الذكاء الاصطناعي غير محدود بمصدر بيانات واحد.
قابل للتحقق: "تأييد الائتمان" للبيانات
من خلال البيانات الهيكلية التي تم التحقق منها، سيتم إنشاء "بصمة بيانات" فريدة ### قيمة هاش (، وتخزينها على البلوك تشين. يمكن لأي تطبيق ذكاء اصطناعي أو مطور يستخدم هذه البيانات تأكيد صحة البيانات من خلال التحقق من قيمة الهاش. هذه "القابلية للتحقق" تمنح البيانات خصائص الائتمان - على سبيل المثال، مجموعة بيانات مصنفة على أنها "إشارات تداول عالية الجودة"، يمكن تتبع دقتها التاريخية من خلال سجلات الهاش على البلوك تشين، لا يحتاج المستخدمون إلى الثقة بمزود مجموعة البيانات، بل يكفي التحقق من بصمة البيانات لتحديد جودة البيانات.
) يمكن monetization: "تحويل قيمة البيانات"
في عصر DataFi، يمكن لمقدمي البيانات تحويل البيانات المهيكلة مباشرة إلى عائدات. على سبيل المثال، فريق ما طور "إشارات تحذيرية من ثغرات العقود الذكية" من خلال تحليل البيانات على السلسلة، ويمكنه تغليف هذه الإشارة كخدمة API، وفرض رسوم حسب عدد الاستدعاءات؛ ويمكن للمستخدمين العاديين أيضًا تفويض مشاركة بياناتهم على السلسلة بشكل مجهول، والحصول على مكافآت رمزية. في النظام البيئي للبيانات، تحدد قيمة البيانات من خلال العرض والطلب في السوق - قد تكون إشارات التداول ذات الدقة العالية ذات تسعير أعلى، بينما قد يتم تسعير بيانات سلوك المستخدم الأساسية حسب الاستخدام.
الخاتمة: ثورة البيانات، العقد القادم للذكاء الاصطناعي
عندما نتحدث عن مستقبل الذكاء الاصطناعي، غالبًا ما نركز على "مستوى الذكاء" للنماذج، متجاهلين "التربة البيانية" التي تدعم الذكاء. تكشف الشبكات البيانية الجديدة عن حقيقة أساسية: تطور الذكاء الاصطناعي هو في جوهره تطور البنية التحتية البيانية. من "الحدود" للبيانات التي يولدها البشر إلى "اكتشاف القيمة" للبيانات على السلسلة، من "الفوضى" للإشارات المجزأة إلى "النظام" للبيانات المهيكلة، من "الموارد المجانية" للبيانات إلى "الأصول الرأسمالية" لـ DataFi، يتم إعادة تشكيل المنطق الأساسي لصناعة الذكاء الاصطناعي.
في عهد DataFi هذا، ستصبح البيانات جسرًا يربط بين الذكاء الاصطناعي والعالم الحقيقي - حيث يدرك وكلاء التداول مشاعر السوق من خلال البيانات على السلسلة، وتقوم dApp المستقلة بتحسين الخدمات من خلال بيانات سلوك المستخدم، بينما يحصل المستخدمون العاديون على دخل مستمر من خلال مشاركة البيانات. تمامًا كما أدت شبكة الكهرباء إلى الثورة الصناعية، فإن قوة الحوسبة قد أدت إلى ثورة الإنترنت، فإن شبكة البيانات تقوم الآن بإحداث "ثورة البيانات" في الذكاء الاصطناعي.
تطبيقات الجيل التالي المولدة بواسطة الذكاء الاصطناعي لا تحتاج فقط إلى نماذج أو محافظ، بل تحتاج أيضًا إلى بيانات قابلة للبرمجة، موثوقة، وعالية الإشارة. عندما يتم أخيرًا منح البيانات القيمة التي تستحقها، يمكن للذكاء الاصطناعي أن يطلق العنان للقوة التي تغير العالم.