Thời đại DataFi đã đến: Dữ liệu trên chuỗi sẽ dẫn dắt cuộc cách mạng tiếp theo của ngành AI.

Cuộc cách mạng tiếp theo của ngành AI: Từ cuộc đua khả năng tính toán đến cuộc cách mạng dữ liệu

Trí tuệ nhân tạo ( AI ) mô hình có quy mô tham số vượt qua hàng nghìn tỷ, khả năng tính toán đạt hàng tỷ tỷ phép toán mỗi giây ( FLOPS ), một nút thắt chính bị bỏ qua đang nổi lên - dữ liệu. Cuộc cách mạng tiếp theo trong ngành AI sẽ không còn được thúc đẩy bởi cấu trúc mô hình hoặc khả năng tính toán của chip, mà phụ thuộc vào cách chúng ta biến đổi dữ liệu hành vi con người phân mảnh thành vốn có thể xác minh, có cấu trúc và sẵn sàng cho AI. Quan điểm này không chỉ tiết lộ mâu thuẫn cấu trúc của sự phát triển AI hiện tại, mà còn phác thảo một bức tranh hoàn toàn mới về "Thời đại DataFi" - trong thời đại này, dữ liệu không còn là sản phẩm phụ của công nghệ, mà là yếu tố sản xuất cốt lõi có thể đo lường, giao dịch và gia tăng giá trị như điện, khả năng tính toán.

Từ cuộc cạnh tranh khả năng tính toán đến cơn đói dữ liệu: Mâu thuẫn cấu trúc của ngành công nghiệp AI

Sự phát triển của AI lâu nay được thúc đẩy bởi "mô hình - Khả năng tính toán". Kể từ cuộc cách mạng học sâu, tham số mô hình đã tăng từ hàng triệu ( như AlexNet năm 2012 lên hàng triệu tỷ ) như GPT-4(, nhu cầu về khả năng tính toán đã tăng trưởng theo cấp số nhân. Chi phí để huấn luyện một mô hình ngôn ngữ lớn tiên tiến đã vượt quá 100 triệu USD, trong đó 90% được sử dụng cho việc thuê cụm GPU. Tuy nhiên, khi ngành công nghiệp tập trung vào "mô hình lớn hơn" và "chip nhanh hơn", khủng hoảng cung cấp dữ liệu đang âm thầm đến.

"Dữ liệu hữu cơ" do con người tạo ra đã chạm đến trần tăng trưởng. Lấy dữ liệu văn bản làm ví dụ, tổng lượng văn bản chất lượng cao có thể thu thập công khai trên internet như sách, bài báo, tin tức ) khoảng 10^12 từ, trong khi việc đào tạo một mô hình với hàng trăm tỷ tham số cần tiêu tốn khoảng 10^13 từ - điều này có nghĩa là lượng dữ liệu hiện có chỉ có thể hỗ trợ việc đào tạo 10 mô hình cùng quy mô. Thực trạng nghiêm trọng hơn là tỷ lệ dữ liệu trùng lặp và nội dung chất lượng thấp chiếm hơn 60%, càng làm thu hẹp nguồn cung dữ liệu hiệu quả. Khi các mô hình bắt đầu "nuốt" dữ liệu do chính mình tạo ra như bài viết do AI viết, hình ảnh do AI tạo ra (, sự suy giảm hiệu suất của mô hình do "ô nhiễm dữ liệu" đã trở thành mối lo ngại trong ngành.

Nguồn gốc của mâu thuẫn này nằm ở chỗ: Ngành công nghiệp AI lâu nay xem dữ liệu là "tài nguyên miễn phí", chứ không phải là "tài sản chiến lược" cần được nuôi dưỡng cẩn thận. Mô hình và khả năng tính toán đã hình thành một hệ thống thị trường trưởng thành - khả năng tính toán được định giá theo FLOPS trên nền tảng đám mây, mô hình có giao diện API tính phí theo số lần gọi - nhưng việc sản xuất, làm sạch, xác minh, và giao dịch dữ liệu vẫn đang ở "thời kỳ hoang dã". Mười năm tới của AI sẽ là mười năm của "hạ tầng dữ liệu", và dữ liệu trên chuỗi của mạng mã hóa chính là chìa khóa để mở nút thắt này.

Dữ liệu trên chuỗi: "Cơ sở dữ liệu hành vi con người" cần thiết nhất cho AI

Trong bối cảnh thiếu dữ liệu, dữ liệu trên chuỗi của mạng lưới tiền mã hóa đang thể hiện giá trị không thể thay thế. So với dữ liệu của internet truyền thống ) như bài đăng trên mạng xã hội, bình luận thương mại điện tử (, dữ liệu trên chuỗi tự nhiên có tính chân thực của "khả năng tính toán" - mỗi giao dịch, mỗi tương tác hợp đồng, mỗi hành vi của địa chỉ ví đều gắn liền với vốn thực và không thể bị thay đổi. Đây là "dữ liệu về hành vi khuyến khích con người tập trung nhất trên internet", cụ thể được thể hiện qua ba chiều:

) tín hiệu "ý định" của thế giới thực

Dữ liệu trên chuỗi không ghi lại những bình luận mang tính cảm xúc hoặc những cú nhấp chuột tùy ý, mà là hành vi quyết định được bỏ phiếu bằng tiền thật. Ví dụ, hành vi của một ví trong việc trao đổi tài sản trên một DEX, thế chấp và vay mượn trên nền tảng cho vay, hoặc đăng ký tên miền, phản ánh trực tiếp sự đánh giá giá trị của dự án, sở thích rủi ro và chiến lược phân bổ vốn của người dùng. Dữ liệu "được bảo chứng bằng vốn" này có giá trị cực cao cho khả năng ra quyết định của AI trong việc dự đoán tài chính, phân tích thị trường (. Ngược lại, dữ liệu trên internet truyền thống tràn ngập "nhiễu" - như những lượt thích giả trên mạng xã hội, bình luận gian lận trên các nền tảng thương mại điện tử, những dữ liệu này không chỉ không thể huấn luyện ra các mô hình AI đáng tin cậy, mà còn có thể dẫn đến những sai lầm trong việc đánh giá của mô hình.

) Chuỗi hành vi có thể truy xuất

Tính minh bạch của blockchain cho phép hành vi của người dùng được truy vết hoàn chỉnh. Lịch sử giao dịch của một địa chỉ ví, các giao thức đã tương tác, sự thay đổi tài sản nắm giữ tạo thành một "chuỗi hành vi" liên kết. Ví dụ, thông qua việc phân tích các hoạt động của một địa chỉ từ năm 2020 đến nay trong các giao thức DeFi, AI có thể nhận diện chính xác liệu nó là "người nắm giữ lâu dài", "nhà giao dịch chênh lệch giá" hay "người cung cấp thanh khoản", và từ đó xây dựng hồ sơ người dùng. Dữ liệu hành vi có cấu trúc này chính là "mẫu suy luận con người" hiếm hoi nhất hiện nay của các mô hình AI.

Truy cập "không cần giấy phép" trong hệ sinh thái mở

Khác với tính chất đóng cửa của dữ liệu doanh nghiệp truyền thống ( như hồ sơ giao dịch ngân hàng, dữ liệu người dùng thương mại điện tử ), dữ liệu trên chuỗi là mở và không cần xin phép. Bất kỳ nhà phát triển nào cũng có thể truy cập dữ liệu gốc thông qua trình duyệt blockchain hoặc API dữ liệu, điều này cung cấp nguồn dữ liệu "không có rào cản" cho việc đào tạo mô hình AI. Tuy nhiên, tính mở này cũng mang lại thách thức: dữ liệu trên chuỗi tồn tại dưới dạng "nhật ký sự kiện" ### như sự kiện chuyển ERC-20 của Ethereum, sự kiện hoán đổi của một DEX ###, là "tín hiệu gốc" không có cấu trúc, cần phải được làm sạch, chuẩn hóa và liên kết để có thể được sử dụng bởi mô hình AI. Hiện tại, "tỷ lệ chuyển đổi cấu trúc" của dữ liệu trên chuỗi chưa đến 5%, rất nhiều tín hiệu có giá trị cao bị chôn vùi trong hàng tỷ sự kiện phân mảnh.

Hyperdata Network: "Hệ điều hành" cho dữ liệu trên chuỗi

Để giải quyết vấn đề phân mảnh dữ liệu trên chuỗi, một loại "hệ điều hành thông minh trên chuỗi" mới đã ra đời. Mục tiêu cốt lõi của nó là chuyển đổi các tín hiệu phân tán trên chuỗi thành dữ liệu có cấu trúc, có thể xác minh và có thể kết hợp theo thời gian thực, sẵn sàng cho AI.

( Bản thảo:Tiêu chuẩn dữ liệu mở, để AI "hiểu" thế giới trên chuỗi

Một trong những điểm đau lớn nhất của dữ liệu trên chuỗi là "định dạng hỗn độn" - các định dạng nhật ký sự kiện của các chuỗi khối khác nhau như Ethereum, Solana, Avalanche ) đều khác nhau, cấu trúc dữ liệu của các phiên bản khác nhau của cùng một giao thức cũng có thể thay đổi. Manuscript, như một tiêu chuẩn schema dữ liệu mở, đã thống nhất định nghĩa và cách mô tả dữ liệu trên chuỗi. Ví dụ, nó đã chuẩn hóa "hành vi staking của người dùng" thành dữ liệu có cấu trúc bao gồm các trường như staker_address, protocol_id, amount, timestamp, reward_token, đảm bảo rằng mô hình AI không cần phải thích ứng với định dạng dữ liệu của các chuỗi hoặc giao thức khác nhau, mà có thể "hiểu" trực tiếp logic kinh doanh ẩn sau dữ liệu.

Giá trị được chuẩn hóa này nằm ở việc giảm thiểu chi phí ma sát trong việc phát triển AI. Giả sử một đội ngũ cần huấn luyện "Mô hình dự đoán hành vi người dùng DeFi", phương pháp truyền thống yêu cầu kết nối API của nhiều chuỗi như Ethereum, Polygon, và viết các kịch bản phân tích khác nhau; trong khi đó, dựa trên Manuscript, tất cả dữ liệu trên chuỗi đã được xử lý trước theo tiêu chuẩn thống nhất, các nhà phát triển có thể trực tiếp gọi các dữ liệu có cấu trúc như "Bản ghi đặt cọc của người dùng" và "Bản ghi cung cấp thanh khoản", từ đó rút ngắn đáng kể thời gian huấn luyện mô hình.

Yêu cầu cốt lõi của mô hình AI đối với dữ liệu là "đáng tin cậy" - nếu dữ liệu huấn luyện bị can thiệp hoặc ô nhiễm, đầu ra của mô hình sẽ không có giá trị. Cơ chế AVS(Active Validator Set) trên Ethereum có thể đảm bảo tính xác thực của dữ liệu. AVS là thành phần mở rộng của lớp đồng thuận Ethereum, bao gồm hơn 600.000 nút xác thực được đặt cọc ETH, những nút này chịu trách nhiệm xác thực tính toàn vẹn và độ chính xác của dữ liệu trên chuỗi. Khi xử lý một sự kiện trên chuỗi, các nút AVS sẽ xác thực chéo giá trị băm dữ liệu, thông tin chữ ký và trạng thái trên chuỗi, đảm bảo rằng dữ liệu có cấu trúc đầu ra hoàn toàn nhất quán với dữ liệu gốc trên chuỗi.

Cơ chế xác thực "bảo đảm kinh tế học mã hóa" này giải quyết vấn đề niềm tin trong xác thực dữ liệu tập trung truyền thống. Ví dụ, nếu một công ty AI sử dụng dữ liệu trên chuỗi do tổ chức tập trung cung cấp, họ cần tin tưởng rằng tổ chức đó không làm sai lệch dữ liệu; trong khi đó, với xác thực phi tập trung, tính xác thực của dữ liệu được mạng lưới những người xác thực phi tập trung bảo chứng, và bất kỳ hành vi làm sai lệch nào cũng sẽ kích hoạt cơ chế trừng phạt của hợp đồng thông minh như việc trừ ETH đã ký quỹ.

Lớp khả năng tính toán dữ liệu có lưu lượng cao

Mô hình AI, đặc biệt là các ứng dụng AI tương tác thời gian thực ( như robot giao dịch, dịch vụ khách hàng thông minh ), cần nguồn cung cấp dữ liệu với độ trễ thấp và thông lượng cao. Bằng cách tối ưu hóa thuật toán nén dữ liệu và giao thức truyền tải, có thể thực hiện xử lý thời gian thực hàng trăm nghìn sự kiện trên chuỗi mỗi giây. Ví dụ, khi xảy ra một giao dịch lớn trên một DEX, có thể hoàn thành việc trích xuất dữ liệu, chuẩn hóa và xác thực trong vòng 1 giây, và đẩy "tín hiệu giao dịch lớn" đã được cấu trúc đến mô hình AI đã đăng ký, cho phép nó điều chỉnh chiến lược giao dịch kịp thời.

Đằng sau khả năng thông lượng cao là kiến trúc mô-đun - tách biệt lưu trữ dữ liệu và tính toán, lưu trữ dữ liệu được thực hiện bởi mạng nút phân tán, trong khi tính toán được thực hiện thông qua Rollup ngoài chuỗi, tránh được những nút thắt về hiệu suất của blockchain. Thiết kế này cho phép mạng dữ liệu hỗ trợ nhu cầu dữ liệu thời gian thực cho các ứng dụng AI quy mô lớn, như cung cấp dịch vụ dữ liệu trên chuỗi cho hàng ngàn đại lý giao dịch trực tuyến cùng một lúc.

Thời đại DataFi: Khi dữ liệu trở thành "vốn" có thể giao dịch

Mục tiêu cuối cùng của mạng dữ liệu mới là thúc đẩy ngành công nghiệp AI bước vào kỷ nguyên DataFi - dữ liệu không còn là "vật liệu đào tạo" thụ động nữa, mà là "vốn" chủ động, có thể được định giá, giao dịch và gia tăng giá trị. Giống như điện được định giá theo kilowatt, khả năng tính toán được định giá theo FLOPS, dữ liệu cũng phải được đánh giá, xếp hạng và định giá. Việc hiện thực hóa tầm nhìn này phụ thuộc vào việc chuyển đổi dữ liệu thành bốn thuộc tính cốt lõi:

( Cấu trúc: Từ "tín hiệu gốc" đến "tài sản có thể sử dụng"

Dữ liệu trên chuỗi chưa qua xử lý giống như "dầu thô", cần được tinh chế để trở thành "xăng". Thông qua việc chuẩn hóa, chúng được chuyển đổi thành dữ liệu có cấu trúc, chẳng hạn như việc tách "địa chỉ ví A vào thời gian T gửi X mã thông báo cho giao thức B" thành dữ liệu đa chiều bao gồm hồ sơ người dùng, thuộc tính giao thức, loại tài sản và dấu thời gian. Cấu trúc này cho phép dữ liệu có thể được mô hình AI gọi trực tiếp, giống như việc gọi API đơn giản.

) Có thể kết hợp: "Khối Lego" của dữ liệu

Trong Web3, "khả năng kết hợp" đã thúc đẩy sự bùng nổ của DeFi ( với các đổi mới kết hợp như DEX + cho vay + tổng hợp lợi nhuận ). Áp dụng ý tưởng này vào lĩnh vực dữ liệu: dữ liệu có cấu trúc có thể được kết hợp tự do như các khối Lego. Ví dụ, các nhà phát triển có thể kết hợp "bản ghi thế chấp của người dùng" ### từ giao thức thế chấp ( với "dữ liệu biến động giá" ) từ oracle ###, "số lượng đề cập trên mạng xã hội" ### từ API của nền tảng mạng xã hội ( để huấn luyện "mô hình dự đoán tâm lý thị trường DeFi". Khả năng kết hợp này đã mở rộng đáng kể ranh giới ứng dụng của dữ liệu, giúp đổi mới AI không còn bị giới hạn bởi một nguồn dữ liệu đơn lẻ.

) Có thể xác minh: "bảo lãnh tín dụng" của dữ liệu

Dữ liệu có cấu trúc đã được xác thực sẽ tạo ra một "dấu vân tay dữ liệu" ( giá trị băm ) và được lưu trữ trên blockchain. Bất kỳ ứng dụng AI hoặc nhà phát triển nào sử dụng dữ liệu này đều có thể xác thực giá trị băm để xác nhận tính xác thực của dữ liệu. Sự "có thể xác thực" này khiến dữ liệu có thuộc tính tín nhiệm - ví dụ, một tập dữ liệu được gán nhãn là "tín hiệu giao dịch chất lượng cao" có thể truy ngược độ chính xác lịch sử của nó thông qua các bản ghi giá trị băm trên blockchain, người dùng không cần tin tưởng vào nhà cung cấp tập dữ liệu, chỉ cần xác thực dấu vân tay dữ liệu để đánh giá chất lượng dữ liệu.

( có thể monetize: "biến giá trị dữ liệu"

Trong thời đại DataFi, người cung cấp dữ liệu có thể biến đổi dữ liệu có cấu trúc thành tiền mặt trực tiếp. Ví dụ, một nhóm đã phát triển "tín hiệu cảnh báo lỗ hổng hợp đồng thông minh" thông qua việc phân tích dữ liệu trên chuỗi, có thể đóng gói tín hiệu đó thành dịch vụ API và thu phí theo số lần gọi; người dùng thông thường cũng có thể ủy quyền chia sẻ dữ liệu chuỗi ẩn danh của mình để nhận phần thưởng bằng mã thông báo dữ liệu. Trong hệ sinh thái dữ liệu, giá trị của dữ liệu được xác định bởi cung và cầu trên thị trường - tín hiệu giao dịch có độ chính xác cao có thể được định giá cao hơn, trong khi dữ liệu hành vi người dùng cơ bản có thể được tính phí theo lần.

Kết luận: Cuộc cách mạng dữ liệu, mười năm tiếp theo của AI

Khi chúng ta nói về tương lai của AI, thường thì chúng ta tập trung vào "mức độ thông minh" của mô hình, mà bỏ qua "mảnh đất dữ liệu" hỗ trợ cho sự thông minh đó. Mạng lưới dữ liệu mới đã tiết lộ một sự thật cốt lõi: sự tiến hóa của AI, về bản chất, là sự tiến hóa của cơ sở hạ tầng dữ liệu. Từ "hạn chế" trong việc tạo ra dữ liệu của con người đến "khám phá giá trị" của dữ liệu trên chuỗi, từ "hỗn loạn" của tín hiệu phân mảnh đến "có trật tự" của dữ liệu có cấu trúc, từ "tài nguyên miễn phí" của dữ liệu đến "tài sản vốn" của DataFi, đang tái định hình logic cơ bản của ngành công nghiệp AI.

Trong thời đại DataFi này, dữ liệu sẽ trở thành cầu nối giữa AI và thế giới thực - các đại lý giao dịch cảm nhận tâm lý thị trường thông qua dữ liệu trên chuỗi, dApp tự chủ tối ưu hóa dịch vụ thông qua dữ liệu hành vi của người dùng, trong khi người dùng thông thường nhận được lợi ích liên tục thông qua việc chia sẻ dữ liệu. Giống như mạng lưới điện đã tạo ra cuộc cách mạng công nghiệp, khả năng tính toán đã tạo ra cuộc cách mạng internet, thì mạng lưới dữ liệu đang tạo ra "cách mạng dữ liệu" của AI.

Các ứng dụng AI-native thế hệ tiếp theo không chỉ cần mô hình hoặc ví, mà còn cần dữ liệu không cần tin tưởng, có thể lập trình và có tín hiệu cao. Khi dữ liệu cuối cùng được trao giá trị xứng đáng, AI mới có thể thực sự giải phóng sức mạnh để thay đổi thế giới.

ETH1.21%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
GasGrillMastervip
· 07-27 18:02
Không phải chỉ là cuộn dữ liệu sao?
Xem bản gốcTrả lời0
PuzzledScholarvip
· 07-26 22:29
Dữ liệu cũng phải được vốn hóa, thật mệt mỏi.
Xem bản gốcTrả lời0
MEVHunterXvip
· 07-26 06:24
Vẫn chưa đủ nhanh, dữ liệu chậm sẽ bị mỏng.
Xem bản gốcTrả lời0
consensus_failurevip
· 07-26 06:23
Cách mạng dữ liệu có vẻ sắp đến... giao dịch vùng DataFi
Xem bản gốcTrả lời0
AirdropworkerZhangvip
· 07-26 06:13
Có vẻ như lại sắp phải cạnh tranh rồi ha
Xem bản gốcTrả lời0
TrustlessMaximalistvip
· 07-26 06:12
Quá muộn rồi, Big Data đã trở thành tiêu chuẩn Web3 từ lâu.
Xem bản gốcTrả lời0
IntrovertMetaversevip
· 07-26 05:59
Ai thu thập dữ liệu của tôi thì người đó là đại gia!
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)