A batalha das cem modelos no campo da IA: da inovação tecnológica à prática de engenharia
No mês passado, a indústria de IA foi agitada por uma intensa competição de modelos.
De um lado, há um grande modelo de linguagem de código aberto lançado por um gigante da tecnologia, que é muito apreciado pelos desenvolvedores devido à sua natureza aberta. Uma empresa japonesa, após estudar os artigos e o código-fonte desse modelo, desenvolveu rapidamente um sistema de IA de diálogo em japonês, resolvendo o gargalo do desenvolvimento de IA no Japão.
O outro lado é um grande modelo chamado "Falcon". Em maio deste ano, o Falcon-40B foi lançado, superando os concorrentes e conquistando o primeiro lugar no ranking de LLMs de código aberto.
Este ranking foi criado por uma comunidade de modelos de código aberto, que fornece um conjunto de padrões para avaliar a capacidade de LLM. A classificação é basicamente ocupada alternadamente por estes dois modelos.
No início de setembro, "Falcão" lançou a versão 180B, alcançando novamente uma classificação mais alta. Curiosamente, os desenvolvedores do "Falcão" não são uma empresa de tecnologia, mas sim uma instituição de pesquisa localizada nos Emirados Árabes Unidos. Funcionários dos Emirados Árabes Unidos afirmaram que eles estão participando desta competição para quebrar o status quo.
Hoje, o campo da IA entrou numa fase de intensa concorrência. Qualquer país ou empresa com algum poder financeiro está a planear desenvolver um sistema de IA de diálogo local. Apenas na região do Golfo, há mais de um jogador a fazer planos. Em agosto, a Arábia Saudita adquiriu milhares de chips de IA de alta gama para universidades locais, para treinar grandes modelos de linguagem.
Um investidor famoso lamentou nas redes sociais: "Naquela época, não dava valor à inovação do modelo de negócios da internet, achava que não havia barreiras. Não esperava que o empreendedorismo em modelos de grandes tecnologias ainda fosse uma batalha de centenas de modelos..."
Como é que a chamada tecnologia de ponta de alta dificuldade se transformou numa corrida em que os países competem entre si para se posicionar?
O algoritmo Transformer desencadeia a revolução da IA
Quer se trate de startups americanas, gigantes da tecnologia chineses ou magnatas do petróleo do Médio Oriente, a capacidade de se dedicar ao desenvolvimento de grandes modelos deve-se ao famoso artigo: "Attention Is All You Need".
Em 2017, oito cientistas do Google tornaram público para o mundo o algoritmo Transformer neste artigo. Este artigo é atualmente o terceiro mais citado na área de IA, e o surgimento do Transformer provocou esta onda atual de entusiasmo em IA.
Atualmente, vários grandes modelos, independentemente da nacionalidade, incluindo a famosa série GPT, são construídos sobre a base do Transformer.
Até agora, "ensinar máquinas a ler" tem sido um problema acadêmico reconhecido. Ao contrário do reconhecimento de imagem, a leitura humana não se concentra apenas nas palavras e frases atuais, mas também combina o contexto para entender. As entradas das primeiras redes neurais eram independentes umas das outras, dificultando a compreensão de textos longos ou até mesmo de um artigo inteiro, resultando frequentemente em erros de tradução engraçados.
Até 2014, um cientista da computação usou redes neurais recorrentes (RNN) para processar linguagem natural, melhorando significativamente o desempenho de um determinado sistema de tradução. O RNN propôs um "design recorrente", permitindo que cada neurônio aceitasse tanto a entrada atual quanto a entrada do momento anterior, adquirindo assim a capacidade de "compreender o contexto".
A chegada das RNNs acendeu o entusiasmo de pesquisa na academia, e um dos autores do artigo sobre Transformer também se deixou levar por isso. No entanto, os desenvolvedores logo perceberam que as RNNs tinham sérias limitações: o algoritmo utiliza cálculos sequenciais, embora resolva o problema de contexto, a eficiência de execução não é alta e é difícil lidar com um grande número de parâmetros.
O design complicado das RNNs rapidamente cansou os pesquisadores. A partir de 2015, um grupo de cientistas com interesses semelhantes começou a desenvolver alternativas para as RNNs, e o resultado final foi o Transformer.
Comparado ao RNN, o Transformer possui duas grandes inovações: a primeira é a substituição do design cíclico por codificação de posição, permitindo o cálculo em paralelo, aumentando significativamente a eficiência do treinamento e levando a IA à era dos grandes modelos; a segunda é o fortalecimento da capacidade de compreender o contexto.
O Transformer resolveu muitos problemas de uma só vez, tornando-se gradualmente a solução mainstream para o processamento de linguagem natural. Até os criadores do RNN se juntaram ao campo do Transformer. Pode-se dizer que o Transformer é a base de todos os grandes modelos atuais, transformando a pesquisa teórica em um problema de engenharia.
Em 2019, uma empresa de IA desenvolveu o GPT-2 com base no Transformer, surpreendendo o mundo acadêmico. Em resposta, um gigante da tecnologia lançou rapidamente um sistema de IA com desempenho superior. Comparado ao GPT-2, este sistema não trouxe inovações algorítmicas, apenas aumentou drasticamente os parâmetros de treinamento e a capacidade computacional. Os autores do artigo sobre o Transformer ficaram profundamente chocados com essa "acumulação violenta" e escreveram um memorando para registrar suas impressões.
O surgimento do Transformer fez com que a inovação em algoritmos de base na academia desacelerasse. Elementos de engenharia como engenharia de dados, escala de poder computacional e arquitetura de modelos tornaram-se cada vez mais cruciais nas competições de IA. Qualquer empresa com um certo nível de capacidade técnica pode desenvolver grandes modelos.
Portanto, um renomado especialista em IA afirmou em uma palestra: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e IA generativa. Estas são tecnologias gerais, semelhantes à eletricidade e à internet."
Embora uma certa empresa de IA ainda seja um marco para modelos de linguagem de grande escala, a análise da indústria acredita que sua competitividade provém principalmente de soluções de engenharia. Se for open source, qualquer concorrente poderá copiá-la rapidamente. Alguns analistas preveem que em breve outras grandes empresas de tecnologia também poderão desenvolver modelos de grande escala com desempenho equivalente.
Desafios enfrentados pelas competições de grandes modelos
Atualmente, a "Batalha dos Cem Modelos" já não é uma retórica, mas sim uma realidade objetiva.
Relatórios relacionados mostram que, até julho deste ano, o número de grandes modelos na China atingiu 130, superando os 114 dos Estados Unidos. Além da China e dos Estados Unidos, alguns países mais ricos também começaram a implementar o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, também estão o Bhashini, liderado pelo governo da Índia, e o HyperClova X, desenvolvido por uma empresa de internet da Coreia do Sul.
Este cenário assemelha-se à exuberância do período da bolha da internet, quando o capital fluía em massa.
Como mencionado anteriormente, o Transformer transformou os grandes modelos em um problema de engenharia; desde que haja talento, capital e hardware, o restante é deixado para a otimização de parâmetros. No entanto, a redução da barreira de entrada não significa que todos possam se tornar gigantes na era da IA.
O "conflito dos modelos" mencionado no início do artigo é um exemplo típico: embora um determinado modelo esteja à frente no ranking, é difícil afirmar o quanto isso impactou um gigante tecnológico.
É bem sabido que as empresas abrem suas pesquisas para compartilhar os benefícios tecnológicos com a sociedade, na esperança de aproveitar a sabedoria coletiva. À medida que diferentes setores continuam a usar e melhorar um determinado modelo de código aberto, a empresa-mãe pode aplicar esses resultados em seus próprios produtos.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva.
Uma grande plataforma de redes sociais estabeleceu uma estratégia de código aberto quando formou seu laboratório de IA em 2015; seu fundador entende bem o "caminho para manter relações comunitárias". Em outubro deste ano, a empresa lançou uma iniciativa chamada "Incentivo a Criadores de IA": desenvolvedores que utilizarem seu modelo de código aberto para resolver problemas sociais, como educação e meio ambiente, terão a oportunidade de receber um financiamento de 500 mil dólares.
Atualmente, a série de modelos de código aberto da empresa tornou-se um padrão da indústria. Até o início de outubro, 8 dos 10 primeiros modelos em um ranking de modelos de código aberto eram baseados nessa série. Apenas nesta plataforma, mais de 1500 modelos foram criados usando seu protocolo de código aberto.
Claro, melhorar o desempenho do modelo não é uma má ideia, mas atualmente a maioria dos modelos no mercado ainda apresenta uma diferença evidente em relação aos sistemas de IA de topo.
Por exemplo, recentemente, um sistema de IA conquistou o primeiro lugar no teste AgentBench com uma pontuação de 4,41. O AgentBench foi lançado por várias universidades renomadas e é utilizado para avaliar a capacidade de raciocínio e tomada de decisões de grandes modelos em ambientes abertos multidimensionais, com conteúdo de teste que inclui sistemas operacionais, bancos de dados, grafos de conhecimento, jogos de cartas e outras 8 tarefas.
Os resultados dos testes mostram que o segundo lugar ficou a apenas 2,77 pontos, com uma diferença evidente. Quanto aos modelos de código aberto que têm grande repercussão, os resultados dos testes estão geralmente em torno de 1 ponto, ainda menos de um quarto do campeão.
É importante saber que o sistema de IA mais poderoso foi lançado em março deste ano, resultado de mais de meio ano de concorrência global. A diferença deve-se à equipa de investigação de alto nível da empresa e à experiência acumulada ao longo do tempo, que a mantém sempre na vanguarda.
Em outras palavras, a principal vantagem dos grandes modelos não é a quantidade de parâmetros, mas sim a construção do ecossistema ( a rota de código aberto ) ou a capacidade de inferência pura ( a rota de código fechado ).
Com a crescente atividade da comunidade de código aberto, o desempenho de vários modelos pode convergir, pois todos estão usando arquiteturas e conjuntos de dados semelhantes.
Outro desafio mais realista é: além de algumas exceções, parece que nenhum grande modelo conseguiu ser rentável.
Pressão econômica enfrentada pelos grandes modelos
Em agosto deste ano, um artigo intitulado "Uma empresa de IA pode declarar falência no final de 2024" chamou a atenção. A essência do artigo pode ser resumida em uma frase: a velocidade de gastos da empresa é excessiva.
O texto menciona que, desde o desenvolvimento de um determinado sistema de IA de diálogo, as perdas da empresa se ampliaram rapidamente, com um prejuízo de cerca de 540 milhões de dólares apenas em 2022, dependendo apenas do apoio dos investidores.
Embora o título do artigo seja exagerado, reflete a situação de muitos provedores de grandes modelos: um sério desequilíbrio entre custos e receitas.
Os altos custos significam que, atualmente, apenas alguns fabricantes de chips conseguem lucrar verdadeiramente com a IA.
De acordo com estimativas de uma consultoria, um gigante dos chips vendeu mais de 300 mil chips de IA de alto desempenho no segundo trimestre deste ano. Este é um chip com uma eficiência de treinamento de IA extremamente alta, com empresas de tecnologia e instituições de pesquisa em todo o mundo competindo para comprá-lo. Se os chips vendidos fossem empilhados, o peso seria equivalente a 4,5 aviões Boeing 747.
A performance da empresa de chips disparou, com um crescimento de receita de 854% em relação ao ano anterior, surpreendendo Wall Street. Vale a pena mencionar que este chip já foi especulado no mercado de segunda mão a 40-50 mil dólares, enquanto seu custo é de apenas cerca de 3000 dólares.
O alto custo da capacidade de cálculo tem, até certo ponto, impedido o desenvolvimento da indústria. Uma conhecida instituição de investimento estimou que as empresas de tecnologia em todo o mundo devem investir anualmente cerca de 200 bilhões de dólares na construção de infraestrutura para grandes modelos; em comparação, os grandes modelos podem gerar no máximo 75 bilhões de dólares em receita por ano, o que resulta em uma lacuna de pelo menos 125 bilhões de dólares.
Além disso, com exceção de alguns casos isolados, a maioria das empresas de software, após investir grandes somas, ainda não encontrou um modelo de lucro claro. Mesmo as empresas líderes do setor enfrentam dificuldades.
Uma ferramenta de geração de código desenvolvida em colaboração entre um gigante da tecnologia e uma empresa de IA, embora custe 10 dólares por mês, está a ter uma perda mensal de 20 dólares devido aos custos de infraestrutura, e utilizadores intensivos podem fazer com que a empresa perca até 80 dólares por mês. Assim, pode-se supor que um serviço de assistente de IA com um preço de 30 dólares possa ter perdas ainda maiores.
Da mesma forma, uma certa gigante de software que acaba de lançar ferramentas de IA rapidamente implementou um sistema de pontos, limitando o uso excessivo pelos usuários para evitar perdas para a empresa. Assim que os usuários ultrapassam os pontos alocados mensalmente, a empresa reduz a velocidade do serviço.
Estas duas empresas já têm cenários de negócios claros e uma grande quantidade de utilizadores pagantes. E a maioria dos modelos de parâmetros de grande escala ainda tem como principal cenário de aplicação o diálogo.
É inegável que, se não fosse pela emergência de determinada empresa de IA e seu sistema de diálogo, esta revolução da IA poderia não ter ocorrido. No entanto, atualmente, o valor criado pelo treinamento de grandes modelos ainda é discutível.
Além disso, com o aumento da concorrência homogeneizada e a crescente disponibilidade de modelos de código aberto, as empresas que simplesmente oferecem serviços de grandes modelos podem enfrentar uma pressão maior.
Assim como o sucesso de um smartphone não se deve ao seu processador avançado, mas sim à sua capacidade de executar uma variedade de aplicativos populares, o valor de um grande modelo deve, em última análise, ser refletido em cenários de aplicação concretos.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
10 gostos
Recompensa
10
7
Republicar
Partilhar
Comentar
0/400
Whale_Whisperer
· 2h atrás
As instituições estão todas se esforçando, eu só estou me deixando levar.
Ver originalResponder0
ChainBrain
· 17h atrás
Deve estar quase uma bagunça, não?
Ver originalResponder0
GasFeeVictim
· 17h atrás
Queimar mais uma carrinha de GPUs.
Ver originalResponder0
blocksnark
· 17h atrás
Aproveitar ao máximo o capital
Ver originalResponder0
Rekt_Recovery
· 17h atrás
não vou mentir, esta coisa do falcão está me dando grandes ptsd de mercado em alta... parece outra armadilha de alavancagem esperando para acontecer
Ver originalResponder0
GasFeeLady
· 17h atrás
assim como as taxas de gás no eth... esses modelos de IA continuam pumpando e descartando lmao
Ver originalResponder0
HashBrownies
· 17h atrás
Os modelos competem para ver quem tem mais parâmetros
Competição de grandes modelos de IA: um debate vibrante entre a inovação acadêmica e a prática de engenharia.
A batalha das cem modelos no campo da IA: da inovação tecnológica à prática de engenharia
No mês passado, a indústria de IA foi agitada por uma intensa competição de modelos.
De um lado, há um grande modelo de linguagem de código aberto lançado por um gigante da tecnologia, que é muito apreciado pelos desenvolvedores devido à sua natureza aberta. Uma empresa japonesa, após estudar os artigos e o código-fonte desse modelo, desenvolveu rapidamente um sistema de IA de diálogo em japonês, resolvendo o gargalo do desenvolvimento de IA no Japão.
O outro lado é um grande modelo chamado "Falcon". Em maio deste ano, o Falcon-40B foi lançado, superando os concorrentes e conquistando o primeiro lugar no ranking de LLMs de código aberto.
Este ranking foi criado por uma comunidade de modelos de código aberto, que fornece um conjunto de padrões para avaliar a capacidade de LLM. A classificação é basicamente ocupada alternadamente por estes dois modelos.
No início de setembro, "Falcão" lançou a versão 180B, alcançando novamente uma classificação mais alta. Curiosamente, os desenvolvedores do "Falcão" não são uma empresa de tecnologia, mas sim uma instituição de pesquisa localizada nos Emirados Árabes Unidos. Funcionários dos Emirados Árabes Unidos afirmaram que eles estão participando desta competição para quebrar o status quo.
Hoje, o campo da IA entrou numa fase de intensa concorrência. Qualquer país ou empresa com algum poder financeiro está a planear desenvolver um sistema de IA de diálogo local. Apenas na região do Golfo, há mais de um jogador a fazer planos. Em agosto, a Arábia Saudita adquiriu milhares de chips de IA de alta gama para universidades locais, para treinar grandes modelos de linguagem.
Um investidor famoso lamentou nas redes sociais: "Naquela época, não dava valor à inovação do modelo de negócios da internet, achava que não havia barreiras. Não esperava que o empreendedorismo em modelos de grandes tecnologias ainda fosse uma batalha de centenas de modelos..."
Como é que a chamada tecnologia de ponta de alta dificuldade se transformou numa corrida em que os países competem entre si para se posicionar?
O algoritmo Transformer desencadeia a revolução da IA
Quer se trate de startups americanas, gigantes da tecnologia chineses ou magnatas do petróleo do Médio Oriente, a capacidade de se dedicar ao desenvolvimento de grandes modelos deve-se ao famoso artigo: "Attention Is All You Need".
Em 2017, oito cientistas do Google tornaram público para o mundo o algoritmo Transformer neste artigo. Este artigo é atualmente o terceiro mais citado na área de IA, e o surgimento do Transformer provocou esta onda atual de entusiasmo em IA.
Atualmente, vários grandes modelos, independentemente da nacionalidade, incluindo a famosa série GPT, são construídos sobre a base do Transformer.
Até agora, "ensinar máquinas a ler" tem sido um problema acadêmico reconhecido. Ao contrário do reconhecimento de imagem, a leitura humana não se concentra apenas nas palavras e frases atuais, mas também combina o contexto para entender. As entradas das primeiras redes neurais eram independentes umas das outras, dificultando a compreensão de textos longos ou até mesmo de um artigo inteiro, resultando frequentemente em erros de tradução engraçados.
Até 2014, um cientista da computação usou redes neurais recorrentes (RNN) para processar linguagem natural, melhorando significativamente o desempenho de um determinado sistema de tradução. O RNN propôs um "design recorrente", permitindo que cada neurônio aceitasse tanto a entrada atual quanto a entrada do momento anterior, adquirindo assim a capacidade de "compreender o contexto".
A chegada das RNNs acendeu o entusiasmo de pesquisa na academia, e um dos autores do artigo sobre Transformer também se deixou levar por isso. No entanto, os desenvolvedores logo perceberam que as RNNs tinham sérias limitações: o algoritmo utiliza cálculos sequenciais, embora resolva o problema de contexto, a eficiência de execução não é alta e é difícil lidar com um grande número de parâmetros.
O design complicado das RNNs rapidamente cansou os pesquisadores. A partir de 2015, um grupo de cientistas com interesses semelhantes começou a desenvolver alternativas para as RNNs, e o resultado final foi o Transformer.
Comparado ao RNN, o Transformer possui duas grandes inovações: a primeira é a substituição do design cíclico por codificação de posição, permitindo o cálculo em paralelo, aumentando significativamente a eficiência do treinamento e levando a IA à era dos grandes modelos; a segunda é o fortalecimento da capacidade de compreender o contexto.
O Transformer resolveu muitos problemas de uma só vez, tornando-se gradualmente a solução mainstream para o processamento de linguagem natural. Até os criadores do RNN se juntaram ao campo do Transformer. Pode-se dizer que o Transformer é a base de todos os grandes modelos atuais, transformando a pesquisa teórica em um problema de engenharia.
Em 2019, uma empresa de IA desenvolveu o GPT-2 com base no Transformer, surpreendendo o mundo acadêmico. Em resposta, um gigante da tecnologia lançou rapidamente um sistema de IA com desempenho superior. Comparado ao GPT-2, este sistema não trouxe inovações algorítmicas, apenas aumentou drasticamente os parâmetros de treinamento e a capacidade computacional. Os autores do artigo sobre o Transformer ficaram profundamente chocados com essa "acumulação violenta" e escreveram um memorando para registrar suas impressões.
O surgimento do Transformer fez com que a inovação em algoritmos de base na academia desacelerasse. Elementos de engenharia como engenharia de dados, escala de poder computacional e arquitetura de modelos tornaram-se cada vez mais cruciais nas competições de IA. Qualquer empresa com um certo nível de capacidade técnica pode desenvolver grandes modelos.
Portanto, um renomado especialista em IA afirmou em uma palestra: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e IA generativa. Estas são tecnologias gerais, semelhantes à eletricidade e à internet."
Embora uma certa empresa de IA ainda seja um marco para modelos de linguagem de grande escala, a análise da indústria acredita que sua competitividade provém principalmente de soluções de engenharia. Se for open source, qualquer concorrente poderá copiá-la rapidamente. Alguns analistas preveem que em breve outras grandes empresas de tecnologia também poderão desenvolver modelos de grande escala com desempenho equivalente.
Desafios enfrentados pelas competições de grandes modelos
Atualmente, a "Batalha dos Cem Modelos" já não é uma retórica, mas sim uma realidade objetiva.
Relatórios relacionados mostram que, até julho deste ano, o número de grandes modelos na China atingiu 130, superando os 114 dos Estados Unidos. Além da China e dos Estados Unidos, alguns países mais ricos também começaram a implementar o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, também estão o Bhashini, liderado pelo governo da Índia, e o HyperClova X, desenvolvido por uma empresa de internet da Coreia do Sul.
Este cenário assemelha-se à exuberância do período da bolha da internet, quando o capital fluía em massa.
Como mencionado anteriormente, o Transformer transformou os grandes modelos em um problema de engenharia; desde que haja talento, capital e hardware, o restante é deixado para a otimização de parâmetros. No entanto, a redução da barreira de entrada não significa que todos possam se tornar gigantes na era da IA.
O "conflito dos modelos" mencionado no início do artigo é um exemplo típico: embora um determinado modelo esteja à frente no ranking, é difícil afirmar o quanto isso impactou um gigante tecnológico.
É bem sabido que as empresas abrem suas pesquisas para compartilhar os benefícios tecnológicos com a sociedade, na esperança de aproveitar a sabedoria coletiva. À medida que diferentes setores continuam a usar e melhorar um determinado modelo de código aberto, a empresa-mãe pode aplicar esses resultados em seus próprios produtos.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva.
Uma grande plataforma de redes sociais estabeleceu uma estratégia de código aberto quando formou seu laboratório de IA em 2015; seu fundador entende bem o "caminho para manter relações comunitárias". Em outubro deste ano, a empresa lançou uma iniciativa chamada "Incentivo a Criadores de IA": desenvolvedores que utilizarem seu modelo de código aberto para resolver problemas sociais, como educação e meio ambiente, terão a oportunidade de receber um financiamento de 500 mil dólares.
Atualmente, a série de modelos de código aberto da empresa tornou-se um padrão da indústria. Até o início de outubro, 8 dos 10 primeiros modelos em um ranking de modelos de código aberto eram baseados nessa série. Apenas nesta plataforma, mais de 1500 modelos foram criados usando seu protocolo de código aberto.
Claro, melhorar o desempenho do modelo não é uma má ideia, mas atualmente a maioria dos modelos no mercado ainda apresenta uma diferença evidente em relação aos sistemas de IA de topo.
Por exemplo, recentemente, um sistema de IA conquistou o primeiro lugar no teste AgentBench com uma pontuação de 4,41. O AgentBench foi lançado por várias universidades renomadas e é utilizado para avaliar a capacidade de raciocínio e tomada de decisões de grandes modelos em ambientes abertos multidimensionais, com conteúdo de teste que inclui sistemas operacionais, bancos de dados, grafos de conhecimento, jogos de cartas e outras 8 tarefas.
Os resultados dos testes mostram que o segundo lugar ficou a apenas 2,77 pontos, com uma diferença evidente. Quanto aos modelos de código aberto que têm grande repercussão, os resultados dos testes estão geralmente em torno de 1 ponto, ainda menos de um quarto do campeão.
É importante saber que o sistema de IA mais poderoso foi lançado em março deste ano, resultado de mais de meio ano de concorrência global. A diferença deve-se à equipa de investigação de alto nível da empresa e à experiência acumulada ao longo do tempo, que a mantém sempre na vanguarda.
Em outras palavras, a principal vantagem dos grandes modelos não é a quantidade de parâmetros, mas sim a construção do ecossistema ( a rota de código aberto ) ou a capacidade de inferência pura ( a rota de código fechado ).
Com a crescente atividade da comunidade de código aberto, o desempenho de vários modelos pode convergir, pois todos estão usando arquiteturas e conjuntos de dados semelhantes.
Outro desafio mais realista é: além de algumas exceções, parece que nenhum grande modelo conseguiu ser rentável.
Pressão econômica enfrentada pelos grandes modelos
Em agosto deste ano, um artigo intitulado "Uma empresa de IA pode declarar falência no final de 2024" chamou a atenção. A essência do artigo pode ser resumida em uma frase: a velocidade de gastos da empresa é excessiva.
O texto menciona que, desde o desenvolvimento de um determinado sistema de IA de diálogo, as perdas da empresa se ampliaram rapidamente, com um prejuízo de cerca de 540 milhões de dólares apenas em 2022, dependendo apenas do apoio dos investidores.
Embora o título do artigo seja exagerado, reflete a situação de muitos provedores de grandes modelos: um sério desequilíbrio entre custos e receitas.
Os altos custos significam que, atualmente, apenas alguns fabricantes de chips conseguem lucrar verdadeiramente com a IA.
De acordo com estimativas de uma consultoria, um gigante dos chips vendeu mais de 300 mil chips de IA de alto desempenho no segundo trimestre deste ano. Este é um chip com uma eficiência de treinamento de IA extremamente alta, com empresas de tecnologia e instituições de pesquisa em todo o mundo competindo para comprá-lo. Se os chips vendidos fossem empilhados, o peso seria equivalente a 4,5 aviões Boeing 747.
A performance da empresa de chips disparou, com um crescimento de receita de 854% em relação ao ano anterior, surpreendendo Wall Street. Vale a pena mencionar que este chip já foi especulado no mercado de segunda mão a 40-50 mil dólares, enquanto seu custo é de apenas cerca de 3000 dólares.
O alto custo da capacidade de cálculo tem, até certo ponto, impedido o desenvolvimento da indústria. Uma conhecida instituição de investimento estimou que as empresas de tecnologia em todo o mundo devem investir anualmente cerca de 200 bilhões de dólares na construção de infraestrutura para grandes modelos; em comparação, os grandes modelos podem gerar no máximo 75 bilhões de dólares em receita por ano, o que resulta em uma lacuna de pelo menos 125 bilhões de dólares.
Além disso, com exceção de alguns casos isolados, a maioria das empresas de software, após investir grandes somas, ainda não encontrou um modelo de lucro claro. Mesmo as empresas líderes do setor enfrentam dificuldades.
Uma ferramenta de geração de código desenvolvida em colaboração entre um gigante da tecnologia e uma empresa de IA, embora custe 10 dólares por mês, está a ter uma perda mensal de 20 dólares devido aos custos de infraestrutura, e utilizadores intensivos podem fazer com que a empresa perca até 80 dólares por mês. Assim, pode-se supor que um serviço de assistente de IA com um preço de 30 dólares possa ter perdas ainda maiores.
Da mesma forma, uma certa gigante de software que acaba de lançar ferramentas de IA rapidamente implementou um sistema de pontos, limitando o uso excessivo pelos usuários para evitar perdas para a empresa. Assim que os usuários ultrapassam os pontos alocados mensalmente, a empresa reduz a velocidade do serviço.
Estas duas empresas já têm cenários de negócios claros e uma grande quantidade de utilizadores pagantes. E a maioria dos modelos de parâmetros de grande escala ainda tem como principal cenário de aplicação o diálogo.
É inegável que, se não fosse pela emergência de determinada empresa de IA e seu sistema de diálogo, esta revolução da IA poderia não ter ocorrido. No entanto, atualmente, o valor criado pelo treinamento de grandes modelos ainda é discutível.
Além disso, com o aumento da concorrência homogeneizada e a crescente disponibilidade de modelos de código aberto, as empresas que simplesmente oferecem serviços de grandes modelos podem enfrentar uma pressão maior.
Assim como o sucesso de um smartphone não se deve ao seu processador avançado, mas sim à sua capacidade de executar uma variedade de aplicativos populares, o valor de um grande modelo deve, em última análise, ser refletido em cenários de aplicação concretos.