Недавнее развитие отрасли искусственного интеллекта некоторые рассматривают как четвертую промышленную революцию. Появление больших моделей значительно повысило эффективность в различных отраслях; по сообщениям, GPT увеличил рабочую эффективность в США примерно на 20%. В то же время способность к обобщению, которую приносят большие модели, считается новой парадигмой программного дизайна. В отличие от прошлого, когда код проектировался с высокой точностью, нынешний программный дизайн больше фокусируется на встраивании обобщающих больших моделей в программное обеспечение, что позволяет ему демонстрировать лучшую производительность и поддерживать более широкий спектр входных и выходных модальностей. Технологии глубокого обучения действительно принесли четвертой бум в индустрию ИИ, и эта волна также распространилась на рынок криптовалют.
Данный отчет подробно рассмотрит историю развития AI-индустрии, классификацию технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и их текущее состояние и тенденции. После этого будет подробно обсуждено отношение между криптовалютами и AI-индустрией, а также будет систематизирована структура AI-цепочки поставок, связанная с криптовалютами.
Искусственный интеллект начал развиваться с 50-х годов XX века. Для реализации видения искусственного интеллекта академическая и промышленная сферы в разные эпохи и с разных научных фонов разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в задачах. Основные этапы включают в себя передачу данных в алгоритм, обучение модели с использованием этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существует три основных направления: соединительная теория, символическая теория и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время, нейронные сети, представляющие собой соединительный подход, доминируют (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но множество скрытых слоев. Как только количество слоев и нейронов ( и параметры ) становятся достаточно большими, появляется возможность подгонки сложных универсальных задач. Вводя данные, можно постоянно настраивать параметры нейронов, и после обработки множества данных этот нейрон достигает оптимального состояния ( параметры ), что и называется "усердие творит чудеса", и именно от этого происходит слово "глубокий" - достаточно количество слоев и нейронов.
Например, можно просто понять, что мы создали функцию, в которую мы вводим X=2, тогда Y=3; когда X=3, Y=5. Если мы хотим, чтобы эта функция подходила для всех X, то необходимо постоянно добавлять степень функции и ее параметры. Например, в данный момент я могу построить функцию, удовлетворяющую этому условию, как Y = 2X -1. Но если есть данные X=2, Y=11, то необходимо перестроить функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, обнаруживается, что Y = X2 -3X +5, что достаточно подходит, однако не обязательно полностью совпадать с данными, нужно лишь соблюдать баланс и выдавать приблизительно схожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В этот момент, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итеративно настраивать параметры, чтобы адаптироваться к новым данным. Таким образом, мы сможем адаптироваться ко всем данным.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как самые ранние нейронные сети, сети с прямой связью, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как используемая в GPT технология Transformer. Технология Transformer - это лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т.д. ) в соответствующие числовые значения. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, тем самым достигая мультимодальности.
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологии ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и человеко-машинного диалога. В то же время возникли экспертные системы, одна из которых была создана под руководством Стэнфордского университета в NASA — экспертная система DENRAL. Эта система обладает очень глубокими знаниями в области химии и использует вопросы для вывода ответов, аналогичных ответам химического эксперта. Эта химическая экспертная система может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильский американский ученый и философ Иудея Перл ( Judea Pearl ) предложил байесовские сети, которые также называют сетями веры. В то же время Брукс предложил робототехнику на основе поведения, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова со счетом 3.5:2.5. Эта победа считается вехой в области искусственного интеллекта, и технологии ИИ пережили вторую волну развития.
Третья волна технологий искусственного интеллекта произошла в 2006 году. Три гиганта глубокого обучения Yann LeCun, Geoffrey Hinton и Yoshua Bengio предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN и GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью технологическую волну, и это также был расцвет ассоциативного подхода.
Многие знаковые события также постепенно появляются в процессе исследования и эволюции технологий глубокого обучения, включая:
В 2011 году IBM Watson( победил человека и стал чемпионом в викторине «Jeopardy)».
В 2014 году Гудфеллоу предложил GAN( генеративные состязательные сети, Generative Adversarial Network), которые могут генерировать фальшивые фотографии, заставляя две нейронные сети учиться через игру друг с другом. Также Гудфеллоу написал книгу «Deep Learning», известную как "цветочная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. в журнале «Природа» представили алгоритм глубокого обучения, который сразу же вызвал огромный резонанс в академических кругах и в промышленности.
В 2015 году OpenAI была создана, и Маск, президент Y Combinator Алтман, ангел-инвестор Питер Тиль ( Peter Thiel ) и другие объявили о совместном вложении 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, провел матч по го против чемпион мира и профессионального игрока девятого дана Ли Седоля, выиграв со счётом 4:1.
В 2017 году гонконгская компания Hanson Robotics, разработавшая гуманоидного робота Софию, стала первой в истории, получившей статус полноценного гражданина, обладающего разнообразными выражениями лица и способностью понимать человеческий язык.
В 2017 году Google, обладающий богатым кадровым и технологическим потенциалом в области искусственного интеллекта, опубликовал статью «Attention is all you need», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году OpenAI выпустила GPT( Генеративный Предобученный Трансформер), построенный на основе алгоритма Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году команда Google Deepmind представила AlphaGo на основе глубокого обучения, способную предсказывать структуру белков, что считается огромным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, модель с 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, которая имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в различных задачах NLP(, таких как ответы на вопросы, перевод и написание статей).
В 2021 году OpenAI выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было выпущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI представит GPT-4 omni.
Примечание: Поскольку существует множество научных работ по искусственному интеллекту, множество направлений и различные эволюции технологий, здесь в основном следуют истории развития глубокого обучения или коннекционизма, другие направления и технологии все еще находятся на этапе быстрого развития.
В настоящее время для больших языковых моделей используются методы глубокого обучения на основе нейронных сетей. Модели, возглавляемые GPT, вызвали волну интереса к искусственному интеллекту, и на этот рынок хлынули многочисленные игроки. Мы также обнаружили, что рынок испытывает огромный спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем промышленную цепочку алгоритмов глубокого обучения. В AI-индустрии, доминируемой алгоритмами глубокого обучения, каковы составные части ее верхнего и нижнего звена, а также каковы текущее состояние и взаимосвязь спроса и предложения, и перспективы их развития.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs( на основе технологии Transformer с использованием GPT), процесс делится на три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Токенизация". После этого эти числовые значения называются токенами. По общему правилу один английский слово или символ можно грубо считать одним токеном, в то время как каждый китайский иероглиф можно грубо считать двумя токенами. Это также является основной единицей, используемой для оценки GPT.
Первый шаг — предобучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первой части отчета примеру (X,Y), мы ищем оптимальные параметры для различных нейронов в данной модели. В это время требуется много данных, и этот процесс также является самым ресурсоемким, так как необходимо многократно итеративно тестировать различные параметры нейронов. После завершения обучения на одной партии данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Второй шаг, дообучение. Дообучение — это использование небольшого, но очень качественного набора данных для тренировки, такое изменение позволит повысить качество вывода модели, так как предварительное обучение требует больших объемов данных, но многие данные могут содержать ошибки или быть низкого качества. Шаг дообучения может улучшить качество модели за счет высококачественных данных.
Третий шаг - обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста - это сортировка результатов вывода, поэтому реализация этой модели будет довольно простой, поскольку бизнес-сценарий довольно узкий. Затем эта модель будет использоваться для определения, является ли вывод нашего большого модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Но иногда также требуется человеческое участие для оценки качества вывода модели ).
Короче говоря, во время обучения больших моделей предобучение требует очень большого объема данных, а необходимая вычислительная мощность GPU также максимальна, в то время как дообучение требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если рассмотреть пример с функцией Y = aX + b, то на самом деле есть два нейрона X и X0, поэтому, как бы ни изменялись параметры, данные, которые можно подогнать, крайне ограничены, так как по своей сути это все равно прямая линия. Если нейронов больше, то можно итерационно подгонять больше параметров, и таким образом подгонять больше данных. Вот почему большие модели творят чудеса, и именно поэтому их называют большими моделями. По сути, это огромное количество нейронов и параметров, а также огромное количество данных, одновременно требующее огромных вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n(, рассчитываемый по количеству токенов), тогда мы можем рассчитать необходимую вычислительную мощность с помощью общих эмпирических правил, таким образом.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
6
Репост
Поделиться
комментарий
0/400
AirdropChaser
· 22ч назад
Будут играть для лохов снова.
Посмотреть ОригиналОтветить0
gas_fee_therapy
· 23ч назад
Слишком активно играли вверх и вниз.
Посмотреть ОригиналОтветить0
RektRecovery
· 08-15 09:41
типичный цикл хайпа... назвал этот предсказуемый ландшафт уязвимостей несколько месяцев назад, смх
ИИ и Криптоактивы: от технологической эволюции до панорамного анализа индустриальной экосистемы
AI x Crypto: от нуля до вершины
Введение
Недавнее развитие отрасли искусственного интеллекта некоторые рассматривают как четвертую промышленную революцию. Появление больших моделей значительно повысило эффективность в различных отраслях; по сообщениям, GPT увеличил рабочую эффективность в США примерно на 20%. В то же время способность к обобщению, которую приносят большие модели, считается новой парадигмой программного дизайна. В отличие от прошлого, когда код проектировался с высокой точностью, нынешний программный дизайн больше фокусируется на встраивании обобщающих больших моделей в программное обеспечение, что позволяет ему демонстрировать лучшую производительность и поддерживать более широкий спектр входных и выходных модальностей. Технологии глубокого обучения действительно принесли четвертой бум в индустрию ИИ, и эта волна также распространилась на рынок криптовалют.
Данный отчет подробно рассмотрит историю развития AI-индустрии, классификацию технологий, а также влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и их текущее состояние и тенденции. После этого будет подробно обсуждено отношение между криптовалютами и AI-индустрией, а также будет систематизирована структура AI-цепочки поставок, связанная с криптовалютами.
! Новичок в науке丨AI x Crypto: от нуля до пика
История развития отрасли ИИ
Искусственный интеллект начал развиваться с 50-х годов XX века. Для реализации видения искусственного интеллекта академическая и промышленная сферы в разные эпохи и с разных научных фонов разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в задачах. Основные этапы включают в себя передачу данных в алгоритм, обучение модели с использованием этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существует три основных направления: соединительная теория, символическая теория и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время, нейронные сети, представляющие собой соединительный подход, доминируют (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но множество скрытых слоев. Как только количество слоев и нейронов ( и параметры ) становятся достаточно большими, появляется возможность подгонки сложных универсальных задач. Вводя данные, можно постоянно настраивать параметры нейронов, и после обработки множества данных этот нейрон достигает оптимального состояния ( параметры ), что и называется "усердие творит чудеса", и именно от этого происходит слово "глубокий" - достаточно количество слоев и нейронов.
Например, можно просто понять, что мы создали функцию, в которую мы вводим X=2, тогда Y=3; когда X=3, Y=5. Если мы хотим, чтобы эта функция подходила для всех X, то необходимо постоянно добавлять степень функции и ее параметры. Например, в данный момент я могу построить функцию, удовлетворяющую этому условию, как Y = 2X -1. Но если есть данные X=2, Y=11, то необходимо перестроить функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, обнаруживается, что Y = X2 -3X +5, что достаточно подходит, однако не обязательно полностью совпадать с данными, нужно лишь соблюдать баланс и выдавать приблизительно схожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В этот момент, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итеративно настраивать параметры, чтобы адаптироваться к новым данным. Таким образом, мы сможем адаптироваться ко всем данным.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как самые ранние нейронные сети, сети с прямой связью, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как используемая в GPT технология Transformer. Технология Transformer - это лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т.д. ) в соответствующие числовые значения. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, тем самым достигая мультимодальности.
! Новичок в популярной науке丨AI x Crypto: от нуля до пика
Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологии ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и человеко-машинного диалога. В то же время возникли экспертные системы, одна из которых была создана под руководством Стэнфордского университета в NASA — экспертная система DENRAL. Эта система обладает очень глубокими знаниями в области химии и использует вопросы для вывода ответов, аналогичных ответам химического эксперта. Эта химическая экспертная система может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильский американский ученый и философ Иудея Перл ( Judea Pearl ) предложил байесовские сети, которые также называют сетями веры. В то же время Брукс предложил робототехнику на основе поведения, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова со счетом 3.5:2.5. Эта победа считается вехой в области искусственного интеллекта, и технологии ИИ пережили вторую волну развития.
Третья волна технологий искусственного интеллекта произошла в 2006 году. Три гиганта глубокого обучения Yann LeCun, Geoffrey Hinton и Yoshua Bengio предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN и GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью технологическую волну, и это также был расцвет ассоциативного подхода.
Многие знаковые события также постепенно появляются в процессе исследования и эволюции технологий глубокого обучения, включая:
В 2011 году IBM Watson( победил человека и стал чемпионом в викторине «Jeopardy)».
В 2014 году Гудфеллоу предложил GAN( генеративные состязательные сети, Generative Adversarial Network), которые могут генерировать фальшивые фотографии, заставляя две нейронные сети учиться через игру друг с другом. Также Гудфеллоу написал книгу «Deep Learning», известную как "цветочная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. в журнале «Природа» представили алгоритм глубокого обучения, который сразу же вызвал огромный резонанс в академических кругах и в промышленности.
В 2015 году OpenAI была создана, и Маск, президент Y Combinator Алтман, ангел-инвестор Питер Тиль ( Peter Thiel ) и другие объявили о совместном вложении 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, провел матч по го против чемпион мира и профессионального игрока девятого дана Ли Седоля, выиграв со счётом 4:1.
В 2017 году гонконгская компания Hanson Robotics, разработавшая гуманоидного робота Софию, стала первой в истории, получившей статус полноценного гражданина, обладающего разнообразными выражениями лица и способностью понимать человеческий язык.
В 2017 году Google, обладающий богатым кадровым и технологическим потенциалом в области искусственного интеллекта, опубликовал статью «Attention is all you need», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году OpenAI выпустила GPT( Генеративный Предобученный Трансформер), построенный на основе алгоритма Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году команда Google Deepmind представила AlphaGo на основе глубокого обучения, способную предсказывать структуру белков, что считается огромным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, модель с 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, которая имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в различных задачах NLP(, таких как ответы на вопросы, перевод и написание статей).
В 2021 году OpenAI выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было выпущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI представит GPT-4 omni.
Примечание: Поскольку существует множество научных работ по искусственному интеллекту, множество направлений и различные эволюции технологий, здесь в основном следуют истории развития глубокого обучения или коннекционизма, другие направления и технологии все еще находятся на этапе быстрого развития.
! Newcomer Science丨AI x Crypto: от нуля до пика
Цепочка поставок глубинного обучения
В настоящее время для больших языковых моделей используются методы глубокого обучения на основе нейронных сетей. Модели, возглавляемые GPT, вызвали волну интереса к искусственному интеллекту, и на этот рынок хлынули многочисленные игроки. Мы также обнаружили, что рынок испытывает огромный спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем промышленную цепочку алгоритмов глубокого обучения. В AI-индустрии, доминируемой алгоритмами глубокого обучения, каковы составные части ее верхнего и нижнего звена, а также каковы текущее состояние и взаимосвязь спроса и предложения, и перспективы их развития.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs( на основе технологии Transformer с использованием GPT), процесс делится на три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Токенизация". После этого эти числовые значения называются токенами. По общему правилу один английский слово или символ можно грубо считать одним токеном, в то время как каждый китайский иероглиф можно грубо считать двумя токенами. Это также является основной единицей, используемой для оценки GPT.
Первый шаг — предобучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первой части отчета примеру (X,Y), мы ищем оптимальные параметры для различных нейронов в данной модели. В это время требуется много данных, и этот процесс также является самым ресурсоемким, так как необходимо многократно итеративно тестировать различные параметры нейронов. После завершения обучения на одной партии данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Второй шаг, дообучение. Дообучение — это использование небольшого, но очень качественного набора данных для тренировки, такое изменение позволит повысить качество вывода модели, так как предварительное обучение требует больших объемов данных, но многие данные могут содержать ошибки или быть низкого качества. Шаг дообучения может улучшить качество модели за счет высококачественных данных.
Третий шаг - обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста - это сортировка результатов вывода, поэтому реализация этой модели будет довольно простой, поскольку бизнес-сценарий довольно узкий. Затем эта модель будет использоваться для определения, является ли вывод нашего большого модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Но иногда также требуется человеческое участие для оценки качества вывода модели ).
Короче говоря, во время обучения больших моделей предобучение требует очень большого объема данных, а необходимая вычислительная мощность GPU также максимальна, в то время как дообучение требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если рассмотреть пример с функцией Y = aX + b, то на самом деле есть два нейрона X и X0, поэтому, как бы ни изменялись параметры, данные, которые можно подогнать, крайне ограничены, так как по своей сути это все равно прямая линия. Если нейронов больше, то можно итерационно подгонять больше параметров, и таким образом подгонять больше данных. Вот почему большие модели творят чудеса, и именно поэтому их называют большими моделями. По сути, это огромное количество нейронов и параметров, а также огромное количество данных, одновременно требующее огромных вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n(, рассчитываемый по количеству токенов), тогда мы можем рассчитать необходимую вычислительную мощность с помощью общих эмпирических правил, таким образом.