Наступні десять років в індустрії штучного інтелекту: революція в інфраструктурі даних
Параметри моделей штучного інтелекту (ШІ) та обчислювальні можливості постійно перевищують межі, але одна довгостроково ігнорована основна перешкода стає все більш очевидною — дані. Експерти галузі вказують, що наступна революція в індустрії ШІ більше не буде зумовлена архітектурою моделей або обчислювальними потужностями чіпів, а залежатиме від того, як перетворити фрагментовані дані людської поведінки на перевіряємий, структурований, готовий до ШІ капітал. Це усвідомлення не лише виявляє структурні суперечності сучасного розвитку ШІ, але й малює зовсім нову картину "Епохи даних" — в цю епоху дані стануть основним виробничим фактором, вимірюваним, торгованим та таким, що підлягає підвищенню вартості, як електрика та обчислювальна потужність.
Структурні суперечності, з якими стикається AI-індустрія
Розвиток ШІ вже довгий час ведеться завдяки двом основним елементам: "модель-обчислювальна потужність". З моменту революції глибокого навчання параметри моделей зросли з мільйонів до трильйонів, а потреба в обчислювальній потужності зросла експоненційно. Згідно з даними галузі, вартість навчання сучасної великої мовної моделі вже перевищила 100 мільйонів доларів, з яких 90% йде на оренду GPU-кластерів. Однак поки індустрія зосереджена на "більших моделях" і "швидших чіпах", криза на стороні постачання даних тихо настає.
Експерти вказують: органічні дані, що генеруються людьми, досягли стелі зростання. Наприклад, щодо текстових даних, загальна кількість високоякісних текстів (книги, статті, новини), які можна знайти в Інтернеті, становить приблизно 10^12 слів, а для навчання моделі з трильйоном параметрів потрібно приблизно 10^13 слів даних — це означає, що існуючий пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще більш серйозною є ситуація, коли частка повторюваних даних та низькоякісного контенту перевищує 60%, що ще більше зменшує постачання ефективних даних. Коли модель починає "поїдати" дані, які вона сама генерує, зниження продуктивності моделі, спричинене "забрудненням даних", стало тривогою в галузі.
Це суперечність корениться в тому, що AI-індустрія довгий час розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потрібно ретельно вирощувати. Моделі та обчислювальні потужності вже сформували зрілу ринкову систему - обчислювальні потужності оцінюються на хмарних платформах за FLOPS, моделі мають API-інтерфейси, що стягують плату за кількість викликів - але виробництво, очищення, перевірка та торгівля даними все ще перебувають у "дикому часі". Експерти галузі підкреслюють: наступні десять років AI стануть "десятиліттям інфраструктури даних", а дані на блокчейні крипто-мережі є ключем до розв'язання цієї проблеми.
Данні на ланцюзі: "База даних людської поведінки", найбільш необхідна для ШІ
На тлі голоду даних, ончейн-дані крипто-мереж демонструють незамінну цінність. На відміну від традиційних інтернет-даних, ончейн-дані природно мають "справжність стимулів" – кожна транзакція, кожна взаємодія з контрактом, кожна дія адреси гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Експерти визначають це як "найбільш централізовані дані про поведінку людей у стимулюванні в Інтернеті", що конкретизується в трьох вимірах:
"сигнали наміру" реального світу
Записані на блокчейні дані фіксують рішення, прийняті за допомогою реальних грошей. Наприклад, поведінка гаманця при обміні активів на певному DEX, або при заставі та позиках на певній платформі, або реєстрації домену, безпосередньо відображає оцінку користувачем вартості проекту, його ризикові вподобання та стратегію розподілу капіталу. Ці дані, які "підтверджені капіталом", мають надзвичайну цінність для навчання рішень штучного інтелекту. У порівнянні, традиційні інтернет-дані переповнені "шумом", ці дані не лише не здатні навчити надійні моделі штучного інтелекту, але й можуть вводити в оману в оцінках моделей.
###可追溯на"ланцюг дій"
Прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій конкретної адреси гаманця, протоколи, з якими вона взаємодіяла, зміни в активі утворюють послідовний "ланцюг поведінки". Наприклад, аналізуючи операції певної адреси з 2020 року до сьогодні в DeFi-протоколах, ШІ може точно визначити, чи є вона "довгостроковим власником", "торговцем арбітражем" чи "постачальником ліквідності", і на цій основі створити профіль користувача. Ці структуровані дані про поведінку є найдефіцитнішою "людською вибіркою для міркувань" у сучасних моделях ШІ.
Відкритий екосистеми "безліцензійний доступ"
На відміну від закритості даних традиційних підприємств, дані на блокчейні є відкритими та не потребують дозволу. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що надає "безбар'єрне" джерело даних для навчання AI-моделей. Проте ця відкритість також приносить виклики: дані на блокчейні існують у формі "журналу подій", є неструктурованими "вихідними сигналами", які потребують очищення, стандартизації та зв'язування, щоб їх можна було використовувати в AI-моделях. Експерти зазначають, що наразі "структурований коефіцієнт перетворення" даних на блокчейні становить менше 5%, що призводить до того, що безліч високоякісних сигналів ховається серед десятків мільярдів фрагментованих подій.
"Операційна система" для даних на блокчейні
Щоб вирішити проблему фрагментації даних в блокчейні, в галузі розробляється "блокчейн-інтелектуальна операційна система", спеціально спроектована для AI. Її основна мета полягає в перетворенні розподілених сигналів блокчейну на структуровані, перевірені та в реальному часі комбіновані дані, готові до використання в AI. Ця система містить такі ключові компоненти:
Відкритий стандарт даних
Відкритий стандарт схем даних уніфікує визначення та опис способів даних на блокчейні. Наприклад, він стандартизує "поведінку користувача щодо стейкінгу" у структуровані дані, що містять поля staker_address, protocol_id, amount, timestamp, reward_token тощо, забезпечуючи можливість AI-моделям без необхідності адаптуватися до різних форматів даних блокчейнів або протоколів, "прямо розуміти" бізнес-логіку, що стоїть за даними.
механізм верифікації даних
Забезпечити достовірність даних через мережу вузлів-верифікаторів блокчейну. Ці вузли відповідають за перевірку цілісності та точності даних на ланцюзі. Коли система обробляє подію на ланцюзі, вузли-верифікатори перехресно перевіряють хеш-значення даних, інформацію про підпис та стан на ланцюзі, щоб забезпечити повну відповідність структурованих даних з оригінальними даними на ланцюзі.
високопродуктивний рівень доступності даних
Розроблено для AI-додатків у реальному часі, шляхом оптимізації алгоритмів стиснення даних і протоколів передачі, забезпечує обробку сотень тисяч подій в блокчейні за секунду. Наприклад, коли на певному DEX відбувається велика угода, система може завершити витягування, стандартизацію та верифікацію даних за 1 секунду і надіслати структурований "сигнал великої угоди" підписаним AI-моделям, щоб вони могли вчасно коригувати торгові стратегії.
Era DataFi: дані як капітал
Кінцева мета цієї інфраструктури даних на блокчейні - це сприяти переходу індустрії штучного інтелекту в епоху DataFi - дані більше не є пасивним "навчальним матеріалом", а стають активним "капіталом", який може бути оцінений, торгуватись та збільшуватись у ціні. Експерти проводять аналогію: "так само, як електрична енергія оцінюється в кіловатах, обчислювальна потужність оцінюється у FLOPS, дані також повинні оцінюватись, ранжуватись та оцінюватись." Реалізація цього бачення залежить від перетворення даних у чотири основні атрибути:
Структурованість: від "сирого сигналу" до "корисного активу"
Комбіновані: "Лего" даних
Можливість перевірки: "кредитна підтримка" даних
Реалізація: "реалізація вартості" даних
У цю епоху DataFi дані стануть мостом між ШІ та реальним світом — торгові агенти відстежують ринкові настрої за допомогою даних на блокчейні, автономні dApp оптимізують свої послуги на основі даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід, ділячись даними. Як електрична мережа сприяла промисловій революції, мережа обчислювальної потужності спричинила інтернет-революцію, так і ця нова форма даних сприяє "революції даних" у сфері ШІ.
Висновок
Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальному рівні" моделей, нехтуючи "даними, що підтримують інтелект". Інфраструктура даних на базі блокчейн розкриває одну ключову істину: еволюція ШІ, по суті, є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людиною, до "виявлення вартості" даних на блокчейні, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" DataFi, ця інфраструктура перетворює основну логіку індустрії ШІ.
Коли дані нарешті отримують належну цінність, штучний інтелект зможе справді звільнити силу, здатну змінити світ. Наступне покоління додатків на базі штучного інтелекту потребує не лише моделей або гаманців, а й довірених, програмованих, високоякісних даних. Це не лише бачення якоїсь компанії, а й неминучий тренд зрілості індустрії штучного інтелекту.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
9 лайків
Нагородити
9
3
Репост
Поділіться
Прокоментувати
0/400
GasFeeCrier
· 15год тому
бик啊 у блокчейні дані справді повинні До місяця了
Переглянути оригіналвідповісти на0
FromMinerToFarmer
· 15год тому
Генерація коментарів:
Обман для дурнів новий спосіб прийшов?
Переглянути оригіналвідповісти на0
WagmiWarrior
· 15год тому
Знову говорять про концепцію, а як заробляти на даних, ще не знають.
AI-індустрія нове десятиліття: у блокчейні дані, що керують революцією DataFi
Наступні десять років в індустрії штучного інтелекту: революція в інфраструктурі даних
Параметри моделей штучного інтелекту (ШІ) та обчислювальні можливості постійно перевищують межі, але одна довгостроково ігнорована основна перешкода стає все більш очевидною — дані. Експерти галузі вказують, що наступна революція в індустрії ШІ більше не буде зумовлена архітектурою моделей або обчислювальними потужностями чіпів, а залежатиме від того, як перетворити фрагментовані дані людської поведінки на перевіряємий, структурований, готовий до ШІ капітал. Це усвідомлення не лише виявляє структурні суперечності сучасного розвитку ШІ, але й малює зовсім нову картину "Епохи даних" — в цю епоху дані стануть основним виробничим фактором, вимірюваним, торгованим та таким, що підлягає підвищенню вартості, як електрика та обчислювальна потужність.
Структурні суперечності, з якими стикається AI-індустрія
Розвиток ШІ вже довгий час ведеться завдяки двом основним елементам: "модель-обчислювальна потужність". З моменту революції глибокого навчання параметри моделей зросли з мільйонів до трильйонів, а потреба в обчислювальній потужності зросла експоненційно. Згідно з даними галузі, вартість навчання сучасної великої мовної моделі вже перевищила 100 мільйонів доларів, з яких 90% йде на оренду GPU-кластерів. Однак поки індустрія зосереджена на "більших моделях" і "швидших чіпах", криза на стороні постачання даних тихо настає.
Експерти вказують: органічні дані, що генеруються людьми, досягли стелі зростання. Наприклад, щодо текстових даних, загальна кількість високоякісних текстів (книги, статті, новини), які можна знайти в Інтернеті, становить приблизно 10^12 слів, а для навчання моделі з трильйоном параметрів потрібно приблизно 10^13 слів даних — це означає, що існуючий пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще більш серйозною є ситуація, коли частка повторюваних даних та низькоякісного контенту перевищує 60%, що ще більше зменшує постачання ефективних даних. Коли модель починає "поїдати" дані, які вона сама генерує, зниження продуктивності моделі, спричинене "забрудненням даних", стало тривогою в галузі.
Це суперечність корениться в тому, що AI-індустрія довгий час розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потрібно ретельно вирощувати. Моделі та обчислювальні потужності вже сформували зрілу ринкову систему - обчислювальні потужності оцінюються на хмарних платформах за FLOPS, моделі мають API-інтерфейси, що стягують плату за кількість викликів - але виробництво, очищення, перевірка та торгівля даними все ще перебувають у "дикому часі". Експерти галузі підкреслюють: наступні десять років AI стануть "десятиліттям інфраструктури даних", а дані на блокчейні крипто-мережі є ключем до розв'язання цієї проблеми.
Данні на ланцюзі: "База даних людської поведінки", найбільш необхідна для ШІ
На тлі голоду даних, ончейн-дані крипто-мереж демонструють незамінну цінність. На відміну від традиційних інтернет-даних, ончейн-дані природно мають "справжність стимулів" – кожна транзакція, кожна взаємодія з контрактом, кожна дія адреси гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Експерти визначають це як "найбільш централізовані дані про поведінку людей у стимулюванні в Інтернеті", що конкретизується в трьох вимірах:
"сигнали наміру" реального світу
Записані на блокчейні дані фіксують рішення, прийняті за допомогою реальних грошей. Наприклад, поведінка гаманця при обміні активів на певному DEX, або при заставі та позиках на певній платформі, або реєстрації домену, безпосередньо відображає оцінку користувачем вартості проекту, його ризикові вподобання та стратегію розподілу капіталу. Ці дані, які "підтверджені капіталом", мають надзвичайну цінність для навчання рішень штучного інтелекту. У порівнянні, традиційні інтернет-дані переповнені "шумом", ці дані не лише не здатні навчити надійні моделі штучного інтелекту, але й можуть вводити в оману в оцінках моделей.
###可追溯на"ланцюг дій"
Прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій конкретної адреси гаманця, протоколи, з якими вона взаємодіяла, зміни в активі утворюють послідовний "ланцюг поведінки". Наприклад, аналізуючи операції певної адреси з 2020 року до сьогодні в DeFi-протоколах, ШІ може точно визначити, чи є вона "довгостроковим власником", "торговцем арбітражем" чи "постачальником ліквідності", і на цій основі створити профіль користувача. Ці структуровані дані про поведінку є найдефіцитнішою "людською вибіркою для міркувань" у сучасних моделях ШІ.
Відкритий екосистеми "безліцензійний доступ"
На відміну від закритості даних традиційних підприємств, дані на блокчейні є відкритими та не потребують дозволу. Будь-який розробник може отримати вихідні дані через блокчейн-браузер або API даних, що надає "безбар'єрне" джерело даних для навчання AI-моделей. Проте ця відкритість також приносить виклики: дані на блокчейні існують у формі "журналу подій", є неструктурованими "вихідними сигналами", які потребують очищення, стандартизації та зв'язування, щоб їх можна було використовувати в AI-моделях. Експерти зазначають, що наразі "структурований коефіцієнт перетворення" даних на блокчейні становить менше 5%, що призводить до того, що безліч високоякісних сигналів ховається серед десятків мільярдів фрагментованих подій.
"Операційна система" для даних на блокчейні
Щоб вирішити проблему фрагментації даних в блокчейні, в галузі розробляється "блокчейн-інтелектуальна операційна система", спеціально спроектована для AI. Її основна мета полягає в перетворенні розподілених сигналів блокчейну на структуровані, перевірені та в реальному часі комбіновані дані, готові до використання в AI. Ця система містить такі ключові компоненти:
Відкритий стандарт даних
Відкритий стандарт схем даних уніфікує визначення та опис способів даних на блокчейні. Наприклад, він стандартизує "поведінку користувача щодо стейкінгу" у структуровані дані, що містять поля staker_address, protocol_id, amount, timestamp, reward_token тощо, забезпечуючи можливість AI-моделям без необхідності адаптуватися до різних форматів даних блокчейнів або протоколів, "прямо розуміти" бізнес-логіку, що стоїть за даними.
механізм верифікації даних
Забезпечити достовірність даних через мережу вузлів-верифікаторів блокчейну. Ці вузли відповідають за перевірку цілісності та точності даних на ланцюзі. Коли система обробляє подію на ланцюзі, вузли-верифікатори перехресно перевіряють хеш-значення даних, інформацію про підпис та стан на ланцюзі, щоб забезпечити повну відповідність структурованих даних з оригінальними даними на ланцюзі.
високопродуктивний рівень доступності даних
Розроблено для AI-додатків у реальному часі, шляхом оптимізації алгоритмів стиснення даних і протоколів передачі, забезпечує обробку сотень тисяч подій в блокчейні за секунду. Наприклад, коли на певному DEX відбувається велика угода, система може завершити витягування, стандартизацію та верифікацію даних за 1 секунду і надіслати структурований "сигнал великої угоди" підписаним AI-моделям, щоб вони могли вчасно коригувати торгові стратегії.
Era DataFi: дані як капітал
Кінцева мета цієї інфраструктури даних на блокчейні - це сприяти переходу індустрії штучного інтелекту в епоху DataFi - дані більше не є пасивним "навчальним матеріалом", а стають активним "капіталом", який може бути оцінений, торгуватись та збільшуватись у ціні. Експерти проводять аналогію: "так само, як електрична енергія оцінюється в кіловатах, обчислювальна потужність оцінюється у FLOPS, дані також повинні оцінюватись, ранжуватись та оцінюватись." Реалізація цього бачення залежить від перетворення даних у чотири основні атрибути:
У цю епоху DataFi дані стануть мостом між ШІ та реальним світом — торгові агенти відстежують ринкові настрої за допомогою даних на блокчейні, автономні dApp оптимізують свої послуги на основі даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід, ділячись даними. Як електрична мережа сприяла промисловій революції, мережа обчислювальної потужності спричинила інтернет-революцію, так і ця нова форма даних сприяє "революції даних" у сфері ШІ.
Висновок
Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальному рівні" моделей, нехтуючи "даними, що підтримують інтелект". Інфраструктура даних на базі блокчейн розкриває одну ключову істину: еволюція ШІ, по суті, є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людиною, до "виявлення вартості" даних на блокчейні, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" DataFi, ця інфраструктура перетворює основну логіку індустрії ШІ.
Коли дані нарешті отримують належну цінність, штучний інтелект зможе справді звільнити силу, здатну змінити світ. Наступне покоління додатків на базі штучного інтелекту потребує не лише моделей або гаманців, а й довірених, програмованих, високоякісних даних. Це не лише бачення якоїсь компанії, а й неминучий тренд зрілості індустрії штучного інтелекту.
Обман для дурнів новий спосіб прийшов?