O recente desenvolvimento da indústria de inteligência artificial é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em várias indústrias, e foi relatado que o GPT aumentou a eficiência do trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; em comparação com o design de código preciso do passado, o design de software atual é mais sobre incorporar estruturas de grandes modelos generalizados no software, permitindo que o software tenha um desempenho melhor e suporte uma gama mais ampla de entradas e saídas modal. A tecnologia de aprendizado profundo realmente trouxe uma quarta prosperidade para a indústria de IA, e essa onda também se espalhou para a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos profundamente a cadeia de suprimentos e demanda da indústria de aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado atual e tendências. Depois, discutiremos essencialmente a relação entre criptomoeda e a indústria de IA, e organizaremos o panorama da cadeia de suprimentos relacionada à IA em criptomoedas.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para realizar a visão da inteligência artificial, o meio acadêmico e a indústria, em diferentes épocas e contextos disciplinares, desenvolveram várias correntes para a realização da inteligência artificial.
As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizado de máquina". A ideia dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema por meio de iterações repetidas com base em dados nas tarefas. As principais etapas incluem enviar dados para o algoritmo, treinar o modelo com esses dados, testar e implantar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem de máquina tem três principais correntes, nomeadamente o conexionismo, o simbolismo e o comportamentalismo, que imitam o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, domina ( também conhecido como aprendizado profundo ), principalmente porque essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios ( parâmetros ) se torna suficientemente grande, há oportunidades suficientes para ajustar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados, e após passar por muitos dados, esse neurônio alcançará um estado ótimo ( parâmetros ), o que é conhecido como "grande esforço, grandes milagres", e é a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender simplesmente como a construção de uma função, onde, se inserirmos X=2, obtemos Y=3; se X=3, obtemos Y=5. Se quisermos que essa função funcione para todos os X, será necessário continuar adicionando o grau da função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X -1, mas se houver um dado onde X=2 e Y=11, será necessário reestruturar uma função que se adeque a esses três pontos de dados. Usando GPU para força bruta, descobri que Y = X2 -3X +5 é bastante adequado, mas não é necessário que coincida exatamente com os dados, apenas precisa respeitar o equilíbrio e fornecer uma saída aproximadamente semelhante. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
E a tecnologia de aprendizado profundo baseada em redes neurais também teve várias iterações e evoluções tecnológicas, como as primeiras redes neurais, redes neurais feedforward, RNN, CNN, GAN, que evoluíram para os modernos grandes modelos como o GPT, que usam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que codifica todos os modos (, como áudio, vídeo, imagens, etc., em valores numéricos correspondentes para representação. Depois, esses valores são inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, implementando multimodalidade.
![Novato Introdução丨IA x Cripto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA, e foi impulsionada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Ao mesmo tempo, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford. Este sistema possui um conhecimento químico muito forte, inferindo respostas semelhantes às de um especialista em química a partir de perguntas. Esse sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl ) propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória foi vista como um marco para a inteligência artificial, marcando um novo auge no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo que utiliza redes neurais artificiais como estrutura para o aprendizado de representação de dados. Desde então, os algoritmos de deep learning evoluíram gradualmente, de RNN e GAN a Transformer e Stable Diffusion; esses dois algoritmos moldaram conjuntamente essa terceira onda tecnológica, e este também foi o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de quiz "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende através da competição entre duas redes neurais, sendo capaz de gerar fotos que parecem reais. Ao mesmo tempo, Goodfellow escreveu um livro chamado "Deep Learning", conhecido como o livro das flores, que é um dos principais livros introdutórios na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram um algoritmo de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou uma enorme repercussão tanto na academia quanto na indústria.
Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor anjo Peter Thiel ( Peter Thiel ) e outros anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo por 4 a 1 no total.
Em 2017, a empresa de tecnologia de robótica Hanson Robotics, localizada em Hong Kong, desenvolveu o robô humanoide Sophia, que é conhecido como o primeiro robô na história a obter cidadania de primeira classe, possuindo uma rica variedade de expressões faciais e habilidades de compreensão da linguagem humana.
Em 2017, a Google, que possui uma rica reserva de talentos e tecnologia na área de inteligência artificial, publicou o artigo "Attention is all you need" propondo o algoritmo Transformer, e modelos de linguagem em larga escala começaram a surgir.
Em 2018, a OpenAI lançou o GPT( Generative Pre-trained Transformer), construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI possui 175 bilhões de parâmetros, 100 vezes mais que a versão anterior GPT-2. O modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP(, incluindo resposta a perguntas, tradução e redação de artigos).
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes maior que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Nota: Devido ao grande número de artigos sobre inteligência artificial, à diversidade de correntes e à evolução das técnicas, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras correntes e técnicas ainda estão em processo de evolução rápida.
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, atraindo muitos jogadores para este setor. Também percebemos que a demanda do mercado por dados e capacidade computacional explodiu, portanto, nesta parte do relatório, estamos principalmente explorando a cadeia industrial dos algoritmos de aprendizado profundo. No setor de IA dominado por algoritmos de aprendizado profundo, como é composta a sua cadeia de suprimentos, e qual é a situação atual e a relação de oferta e demanda nas etapas superiores e inferiores, bem como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT baseado na tecnologia Transformer, (, dividimos o processo em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em números, esse processo é chamado de "Tokenization". Depois, esses números são chamados de Token. Sob uma regra geral, uma palavra ou caractere em inglês pode ser grosso modo considerado um Token, enquanto cada caractere chinês pode ser considerado grosso modo como dois Tokens. Esta também é a unidade básica utilizada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer à camada de entrada um número suficiente de pares de dados, semelhante ao exemplo fornecido na primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros de cada neurônio sob este modelo, é necessário um grande volume de dados, e este processo também é o mais exigente em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando várias configurações de parâmetros. Após o término do treinamento de um lote de pares de dados, geralmente a mesma série de dados é usada para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino é dado por um conjunto de dados menor, mas de qualidade muito alta, para treinar, essa mudança fará com que a saída do modelo tenha uma qualidade mais alta, pois o pré-treinamento requer muitos dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados de saída. Portanto, a implementação deste modelo será relativamente simples, uma vez que o cenário de negócios é bastante vertical. Após isso, utilizaremos esse modelo para determinar se a saída do nosso grande modelo é de alta qualidade, permitindo assim que um modelo de recompensa itere automaticamente os parâmetros do grande modelo. ) No entanto, às vezes também é necessária a participação humana para avaliar a qualidade da saída do modelo. (
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento exige uma quantidade muito alta de dados, e a potência de cálculo da GPU necessária é também a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade, existem dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois sua essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo o ajuste de mais dados. Esta é a razão pela qual grandes modelos produzem resultados surpreendentes e também é por isso que o nome popular "grande modelo" foi escolhido, que se resume a uma quantidade massiva de neurônios e parâmetros, além de uma quantidade massiva de dados, exigindo também uma quantidade massiva de poder computacional.
Assim, o desempenho dos grandes modelos é determinado principalmente por três aspectos: a quantidade de parâmetros, a quantidade e qualidade dos dados e a capacidade computacional. Suponhamos que a quantidade de parâmetros seja p, a quantidade de dados seja n) calculada em número de Tokens(, então podemos calcular a quantidade de computação necessária através de uma regra geral.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
13 gostos
Recompensa
13
6
Republicar
Partilhar
Comentar
0/400
AirdropChaser
· 22h atrás
Ser enganado por idiotas de novo
Ver originalResponder0
gas_fee_therapy
· 23h atrás
Jogaram muito forte em cima e em baixo.
Ver originalResponder0
RektRecovery
· 08-15 09:41
ciclo de hype típico... chamei este cenário de vulnerabilidade previsível há meses atrás smh
IA e ativos de criptografia: uma análise panorâmica da evolução tecnológica à ecologia industrial
AI x Crypto: Do zero ao auge
Introdução
O recente desenvolvimento da indústria de inteligência artificial é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em várias indústrias, e foi relatado que o GPT aumentou a eficiência do trabalho nos Estados Unidos em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; em comparação com o design de código preciso do passado, o design de software atual é mais sobre incorporar estruturas de grandes modelos generalizados no software, permitindo que o software tenha um desempenho melhor e suporte uma gama mais ampla de entradas e saídas modal. A tecnologia de aprendizado profundo realmente trouxe uma quarta prosperidade para a indústria de IA, e essa onda também se espalhou para a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da invenção da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos profundamente a cadeia de suprimentos e demanda da indústria de aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda, bem como seu estado atual e tendências. Depois, discutiremos essencialmente a relação entre criptomoeda e a indústria de IA, e organizaremos o panorama da cadeia de suprimentos relacionada à IA em criptomoedas.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para realizar a visão da inteligência artificial, o meio acadêmico e a indústria, em diferentes épocas e contextos disciplinares, desenvolveram várias correntes para a realização da inteligência artificial.
As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizado de máquina". A ideia dessa tecnologia é permitir que as máquinas melhorem o desempenho do sistema por meio de iterações repetidas com base em dados nas tarefas. As principais etapas incluem enviar dados para o algoritmo, treinar o modelo com esses dados, testar e implantar o modelo, e usar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem de máquina tem três principais correntes, nomeadamente o conexionismo, o simbolismo e o comportamentalismo, que imitam o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, domina ( também conhecido como aprendizado profundo ), principalmente porque essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios ( parâmetros ) se torna suficientemente grande, há oportunidades suficientes para ajustar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados, e após passar por muitos dados, esse neurônio alcançará um estado ótimo ( parâmetros ), o que é conhecido como "grande esforço, grandes milagres", e é a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender simplesmente como a construção de uma função, onde, se inserirmos X=2, obtemos Y=3; se X=3, obtemos Y=5. Se quisermos que essa função funcione para todos os X, será necessário continuar adicionando o grau da função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X -1, mas se houver um dado onde X=2 e Y=11, será necessário reestruturar uma função que se adeque a esses três pontos de dados. Usando GPU para força bruta, descobri que Y = X2 -3X +5 é bastante adequado, mas não é necessário que coincida exatamente com os dados, apenas precisa respeitar o equilíbrio e fornecer uma saída aproximadamente semelhante. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
E a tecnologia de aprendizado profundo baseada em redes neurais também teve várias iterações e evoluções tecnológicas, como as primeiras redes neurais, redes neurais feedforward, RNN, CNN, GAN, que evoluíram para os modernos grandes modelos como o GPT, que usam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que codifica todos os modos (, como áudio, vídeo, imagens, etc., em valores numéricos correspondentes para representação. Depois, esses valores são inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, implementando multimodalidade.
![Novato Introdução丨IA x Cripto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, dez anos após a proposta da tecnologia de IA, e foi impulsionada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Ao mesmo tempo, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA pela Universidade de Stanford. Este sistema possui um conhecimento químico muito forte, inferindo respostas semelhantes às de um especialista em química a partir de perguntas. Esse sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl ) propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks propôs a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória foi vista como um marco para a inteligência artificial, marcando um novo auge no desenvolvimento da tecnologia de IA.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo que utiliza redes neurais artificiais como estrutura para o aprendizado de representação de dados. Desde então, os algoritmos de deep learning evoluíram gradualmente, de RNN e GAN a Transformer e Stable Diffusion; esses dois algoritmos moldaram conjuntamente essa terceira onda tecnológica, e este também foi o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o Watson( da IBM venceu humanos e conquistou o campeonato no programa de quiz "Jeopardy)".
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende através da competição entre duas redes neurais, sendo capaz de gerar fotos que parecem reais. Ao mesmo tempo, Goodfellow escreveu um livro chamado "Deep Learning", conhecido como o livro das flores, que é um dos principais livros introdutórios na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram um algoritmo de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou uma enorme repercussão tanto na academia quanto na indústria.
Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor anjo Peter Thiel ( Peter Thiel ) e outros anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo por 4 a 1 no total.
Em 2017, a empresa de tecnologia de robótica Hanson Robotics, localizada em Hong Kong, desenvolveu o robô humanoide Sophia, que é conhecido como o primeiro robô na história a obter cidadania de primeira classe, possuindo uma rica variedade de expressões faciais e habilidades de compreensão da linguagem humana.
Em 2017, a Google, que possui uma rica reserva de talentos e tecnologia na área de inteligência artificial, publicou o artigo "Attention is all you need" propondo o algoritmo Transformer, e modelos de linguagem em larga escala começaram a surgir.
Em 2018, a OpenAI lançou o GPT( Generative Pre-trained Transformer), construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a equipe do Google Deepmind lançou o AlphaGo, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI possui 175 bilhões de parâmetros, 100 vezes mais que a versão anterior GPT-2. O modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP(, incluindo resposta a perguntas, tradução e redação de artigos).
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes maior que o GPT-3.
Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, e em março o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Nota: Devido ao grande número de artigos sobre inteligência artificial, à diversidade de correntes e à evolução das técnicas, aqui seguimos principalmente a história do desenvolvimento do aprendizado profundo ou do conexionismo, enquanto outras correntes e técnicas ainda estão em processo de evolução rápida.
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, atraindo muitos jogadores para este setor. Também percebemos que a demanda do mercado por dados e capacidade computacional explodiu, portanto, nesta parte do relatório, estamos principalmente explorando a cadeia industrial dos algoritmos de aprendizado profundo. No setor de IA dominado por algoritmos de aprendizado profundo, como é composta a sua cadeia de suprimentos, e qual é a situação atual e a relação de oferta e demanda nas etapas superiores e inferiores, bem como o desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT baseado na tecnologia Transformer, (, dividimos o processo em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em números, esse processo é chamado de "Tokenization". Depois, esses números são chamados de Token. Sob uma regra geral, uma palavra ou caractere em inglês pode ser grosso modo considerado um Token, enquanto cada caractere chinês pode ser considerado grosso modo como dois Tokens. Esta também é a unidade básica utilizada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer à camada de entrada um número suficiente de pares de dados, semelhante ao exemplo fornecido na primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros de cada neurônio sob este modelo, é necessário um grande volume de dados, e este processo também é o mais exigente em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando várias configurações de parâmetros. Após o término do treinamento de um lote de pares de dados, geralmente a mesma série de dados é usada para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino é dado por um conjunto de dados menor, mas de qualidade muito alta, para treinar, essa mudança fará com que a saída do modelo tenha uma qualidade mais alta, pois o pré-treinamento requer muitos dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um novo modelo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples: classificar os resultados de saída. Portanto, a implementação deste modelo será relativamente simples, uma vez que o cenário de negócios é bastante vertical. Após isso, utilizaremos esse modelo para determinar se a saída do nosso grande modelo é de alta qualidade, permitindo assim que um modelo de recompensa itere automaticamente os parâmetros do grande modelo. ) No entanto, às vezes também é necessária a participação humana para avaliar a qualidade da saída do modelo. (
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento exige uma quantidade muito alta de dados, e a potência de cálculo da GPU necessária é também a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da capacidade de generalização. Por exemplo, no caso da função Y = aX + b, na verdade, existem dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, pois sua essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo o ajuste de mais dados. Esta é a razão pela qual grandes modelos produzem resultados surpreendentes e também é por isso que o nome popular "grande modelo" foi escolhido, que se resume a uma quantidade massiva de neurônios e parâmetros, além de uma quantidade massiva de dados, exigindo também uma quantidade massiva de poder computacional.
Assim, o desempenho dos grandes modelos é determinado principalmente por três aspectos: a quantidade de parâmetros, a quantidade e qualidade dos dados e a capacidade computacional. Suponhamos que a quantidade de parâmetros seja p, a quantidade de dados seja n) calculada em número de Tokens(, então podemos calcular a quantidade de computação necessária através de uma regra geral.