La guerra de los cien modelos en el campo de la IA: de la innovación tecnológica a la práctica de la ingeniería
El mes pasado, la industria de la IA desató una intensa competencia de modelos.
Por un lado, está el modelo de lenguaje grande de código abierto lanzado por un gigante tecnológico, que es muy apreciado por los desarrolladores debido a su naturaleza abierta. Una empresa en Japón, después de investigar los documentos y el código fuente de este modelo, desarrolló rápidamente un sistema de IA conversacional en japonés, resolviendo así el cuello de botella en el desarrollo de IA en Japón.
El otro lado es un modelo grande llamado "Falcon". En mayo de este año, Falcon-40B fue lanzado, superando a sus competidores y alcanzando el primer lugar en la clasificación de LLM de código abierto.
Este ranking fue creado por una comunidad de modelos de código abierto y proporciona un estándar para evaluar la capacidad de los LLM. La clasificación está ocupada básicamente por estos dos modelos de manera alterna.
A principios de septiembre, "Falcon" lanzó la versión 180B y volvió a alcanzar una clasificación más alta. Curiosamente, los desarrolladores de "Falcon" no son una empresa tecnológica, sino una institución de investigación ubicada en los Emiratos Árabes Unidos. Funcionarios de los Emiratos Árabes Unidos han declarado que participan en esta competición para romper el paradigma existente.
Hoy en día, el campo de la IA ha entrado en una etapa de competencia entre múltiples actores. Cualquier país o empresa con cierta capacidad financiera está planeando crear su propio sistema de IA conversacional. Solo en la región del Golfo, hay más de un jugador en juego. En agosto, Arabia Saudita compró miles de chips de IA de alta gama para universidades locales, destinados a entrenar modelos de lenguaje grandes.
Un inversor conocido expresó en las redes sociales: "En su momento desprecié la innovación en los modelos de negocio de Internet, pensando que no había barreras. No esperaba que el emprendimiento en modelos de grandes tecnologías aún sea una batalla entre cientos de modelos..."
¿Cómo es que la llamada tecnología dura de alta dificultad se ha convertido en una pista en la que los países compiten por posicionarse?
El algoritmo Transformer provoca la revolución de la IA
Ya sean startups estadounidenses, gigantes tecnológicos chinos o jeques del petróleo de Oriente Medio, la capacidad de invertir en el desarrollo de grandes modelos se debe al famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos de Google hicieron pública la algoritmia Transformer al mundo en este artículo. Este artículo es actualmente el tercero más citado en el campo de la IA, y la aparición del Transformer ha desencadenado esta ola actual de entusiasmo por la IA.
Los diversos grandes modelos actuales, independientemente de su nacionalidad, incluidos los aclamados modelos de la serie GPT, se basan en la arquitectura Transformer.
Hasta ahora, "hacer que las máquinas lean" ha sido un desafío académico reconocido. A diferencia del reconocimiento de imágenes, al leer, los humanos no solo se centran en las palabras o frases actuales, sino que también comprenden el contexto. Las entradas de las primeras redes neuronales eran independientes entre sí, lo que dificultaba la comprensión de textos largos o incluso de artículos completos, por lo que a menudo se producían errores de traducción ridículos.
Hasta 2014, un científico de la computación utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, mejorando significativamente el rendimiento de un sistema de traducción. RNN propuso un "diseño recurrente", permitiendo que cada neurona reciba tanto la entrada actual como la entrada del momento anterior, lo que le otorga la capacidad de "combinar el contexto".
La aparición de RNN encendió el entusiasmo de la investigación en el mundo académico, y uno de los autores del artículo sobre Transformer también se vio atrapado en ello durante un tiempo. Sin embargo, los desarrolladores pronto se dieron cuenta de que RNN tenía defectos graves: este algoritmo utiliza cálculos secuenciales, aunque resolvió el problema del contexto, su eficiencia de ejecución no es alta y tiene dificultades para manejar grandes cantidades de parámetros.
El diseño complicado de las RNN rápidamente llevó a los investigadores a sentirse frustrados. A partir de 2015, un grupo de científicos afines comenzó a desarrollar alternativas a las RNN, y el resultado final fue el Transformer.
En comparación con RNN, Transformer tiene dos grandes innovaciones: la primera es el uso de codificación posicional en lugar de diseño cíclico, lo que permite el cálculo en paralelo, mejorando significativamente la eficiencia de entrenamiento y llevando a la IA a la era de los grandes modelos; la segunda es que se ha mejorado aún más la capacidad de entender el contexto.
El Transformer resolvió muchos problemas de una vez y se convirtió gradualmente en la solución principal para el procesamiento del lenguaje natural. Incluso los creadores de RNN han cambiado al campo del Transformer. Se puede decir que el Transformer es la base de todos los grandes modelos actuales, convirtiendo los grandes modelos de una investigación teórica a un problema de ingeniería.
En 2019, una empresa de IA desarrolló GPT-2 basado en Transformer, sorprendiendo a la comunidad académica. En respuesta, un gigante tecnológico lanzó rápidamente un sistema de IA con un rendimiento más potente. Comparado con GPT-2, este sistema no tenía innovaciones algorítmicas, solo aumentó significativamente los parámetros de entrenamiento y la potencia de cálculo. Los autores del artículo sobre Transformer quedaron muy impactados por este "apilamiento violento" y escribieron un memorando para registrar sus impresiones.
La aparición de Transformer ha ralentizado la velocidad de innovación en los algoritmos básicos en la academia. Elementos de ingeniería como la ingeniería de datos, la escala de computación y la arquitectura de modelos se han convertido en la clave de la competencia en IA. Cualquier empresa con cierta capacidad técnica puede desarrollar grandes modelos.
Por lo tanto, un reconocido experto en IA planteó en su discurso: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la IA generativa. Todas estas son tecnologías generales, similares a la electricidad y a Internet."
Aunque cierta empresa de IA sigue siendo el referente de los grandes modelos de lenguaje, los análisis de la industria creen que su competitividad proviene principalmente de las soluciones de ingeniería. Si se hace de código abierto, cualquier competidor podría copiarlo rápidamente. Algunos analistas prevén que pronto otras grandes empresas tecnológicas también podrán desarrollar modelos de gran tamaño con un rendimiento equivalente.
Desafíos de la competencia de grandes modelos
Actualmente, "la batalla de los cien modelos" ya no es una retórica, sino una realidad objetiva.
Informes relacionados muestran que, hasta julio de este año, el número de grandes modelos en China ha alcanzado los 130, superando los 114 de Estados Unidos. Fuera de China y Estados Unidos, algunos países más ricos también han logrado preliminarmente el "un país, un modelo": además de Japón y Emiratos Árabes Unidos, están Bhashini, liderado por el gobierno de India, y HyperClova X, desarrollado por una empresa de internet de Corea del Sur.
Esta escena recuerda mucho a la época de la burbuja de internet, cuando el capital fluía en masa.
Como se mencionó anteriormente, el Transformer ha convertido los grandes modelos en un problema de ingeniería; mientras haya talento, financiamiento y hardware, lo demás se deja a la optimización de parámetros. Sin embargo, la reducción de la barrera de entrada no significa que cualquiera pueda convertirse en un gigante de la era de la IA.
El "conflicto de modelos" mencionado al principio del artículo es un caso típico: aunque cierto modelo esté a la cabeza en el ranking, es difícil decir cuánto impacto ha tenido en un gigante tecnológico.
Como todos saben, las empresas que hacen open source de sus resultados de investigación lo hacen no solo para compartir los beneficios tecnológicos con la sociedad, sino también para aprovechar la inteligencia colectiva. A medida que diferentes sectores continúan utilizando y mejorando un modelo de código abierto, la empresa matriz puede aplicar estos resultados a sus propios productos.
Para los modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva.
Un gigante de las redes sociales estableció una estrategia de código abierto ya en 2015 al crear un laboratorio de IA; su fundador comprende bien la "manera de mantener relaciones comunitarias". En octubre de este año, la compañía lanzó una iniciativa de "Incentivo para Creadores de IA": los desarrolladores que utilicen su modelo de código abierto para resolver problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una subvención de 500,000 dólares.
Hoy en día, la serie de modelos de código abierto de la empresa se ha convertido en un referente en la industria. A principios de octubre, 8 de los 10 primeros modelos en un ranking de modelos de código abierto se basaron en esta serie. Solo en esta plataforma, hay más de 1500 modelos que utilizan su licencia de código abierto.
Por supuesto, mejorar el rendimiento del modelo tampoco está de más, pero actualmente la mayoría de los modelos en el mercado todavía tienen una diferencia evidente con los sistemas de IA de primer nivel.
Por ejemplo, hace poco, un sistema de IA ganó el primer lugar con una puntuación de 4.41 en la prueba AgentBench. AgentBench fue lanzado en colaboración con varias universidades de renombre y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de modelos grandes en entornos abiertos multidimensionales. El contenido de la prueba incluye 8 tareas como sistemas operativos, bases de datos, grafos de conocimiento y batallas de cartas.
Los resultados de las pruebas muestran que el segundo lugar solo obtuvo 2.77 puntos, lo que indica una diferencia clara. En cuanto a esos modelos de código abierto tan rimbombantes, sus calificaciones en las pruebas suelen rondar el 1 punto, menos de una cuarta parte del campeón.
Para saberlo, el sistema de IA más potente se lanzó en marzo de este año, y esto es el resultado de más de medio año de seguimiento por parte de sus competidores globales. La causa de esta diferencia es el alto nivel del equipo de investigación y desarrollo de la empresa y la experiencia acumulada a lo largo del tiempo, que les permite mantener una posición de liderazgo.
En otras palabras, la ventaja central de los grandes modelos no es la cantidad de parámetros, sino la construcción del ecosistema ( la ruta de código abierto ) o la capacidad de inferencia pura ( la ruta de código cerrado ).
Con la creciente actividad de la comunidad de código abierto, el rendimiento de varios modelos puede converger, ya que todos están utilizando arquitecturas y conjuntos de datos similares.
Otro problema más realista es que, salvo algunas excepciones, parece que ningún gran modelo ha logrado ser rentable.
La presión económica que enfrentan los grandes modelos
En agosto de este año, un artículo titulado "Una empresa de IA podría declararse en bancarrota a finales de 2024" ha llamado la atención. La idea principal del artículo se puede resumir en una frase: la velocidad de gasto de la empresa es demasiado rápida.
El texto menciona que, desde el desarrollo de un sistema de IA conversacional, las pérdidas de la empresa se han ampliado rápidamente, alcanzando aproximadamente 540 millones de dólares en 2022, y solo puede sobrevivir gracias al apoyo de los inversores.
Aunque el título del artículo es exagerado, también refleja la situación de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los altos costos han llevado a que actualmente solo unos pocos fabricantes de chips dependan realmente de la IA para obtener ganancias.
Según estimaciones de consultoras, un gigante de los semiconductores vendió más de 300,000 chips de IA de alta gama en el segundo trimestre de este año. Este es un chip altamente eficiente para entrenar IA, que las empresas tecnológicas y los institutos de investigación de todo el mundo compiten por comprar. Si apilamos los chips vendidos, el peso equivale al de 4.5 aviones Boeing 747.
La compañía de chips vio un aumento espectacular en su rendimiento, con un crecimiento de ingresos del 854% en comparación interanual, lo que sorprendió a Wall Street. Cabe mencionar que este chip ya se ha especulado en el mercado de segunda mano a entre 40,000 y 50,000 dólares, mientras que su costo es de aproximadamente 3,000 dólares.
Los altos costos de computación han obstaculizado el desarrollo de la industria en cierta medida. Una conocida institución de inversión estimó que las empresas tecnológicas de todo el mundo invertirán aproximadamente 200 mil millones de dólares anualmente en la construcción de infraestructura para modelos grandes; en comparación, los modelos grandes solo pueden generar hasta 75 mil millones de dólares en ingresos al año, lo que deja una brecha de al menos 125 mil millones de dólares.
Además, a excepción de unos pocos casos, la mayoría de las empresas de software, después de invertir grandes sumas de dinero, aún no han encontrado un modelo de negocio claro. Incluso las empresas líderes en la industria enfrentan dificultades.
Una herramienta de generación de código desarrollada en colaboración entre un gigante tecnológico y una empresa de IA, aunque cobra 10 dólares al mes, en realidad está perdiendo 20 dólares al mes debido a los costos de infraestructura; los usuarios intensivos incluso pueden hacer que la empresa pierda 80 dólares al mes. A partir de esto, se puede suponer que un servicio de asistente de IA que tiene un precio de 30 dólares podría estar perdiendo aún más.
Del mismo modo, un gigante del software que acaba de lanzar herramientas de IA también implementó rápidamente un sistema de puntos, limitando el uso excesivo por parte de los usuarios para evitar pérdidas para la empresa. Una vez que los usuarios superan la cantidad de puntos asignados mensualmente, la empresa reduce la velocidad del servicio.
Estas dos empresas ya tienen escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los modelos de gran escala, su principal escenario de aplicación sigue siendo el diálogo.
No se puede negar que, sin la aparición repentina de cierta empresa de IA y su sistema de diálogo, esta revolución de la IA podría no haber ocurrido. Sin embargo, en este momento, el valor creado por el entrenamiento de grandes modelos sigue siendo discutible.
Además, a medida que la competencia por homogeneización se intensifica y hay más modelos de código abierto, las empresas que simplemente ofrecen servicios de modelos grandes pueden enfrentar una mayor presión.
Así como el éxito de un smartphone no se debe a su procesador avanzado, sino a su capacidad para ejecutar diversas aplicaciones populares, el valor de los modelos grandes debe reflejarse, en última instancia, en escenarios de aplicación específicos.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
10 me gusta
Recompensa
10
7
Republicar
Compartir
Comentar
0/400
Whale_Whisperer
· hace9h
Las instituciones están compitiendo, yo solo estoy a la deriva.
Ver originalesResponder0
ChainBrain
· 08-11 20:47
Casi está hecho un desastre, ¿verdad?
Ver originalesResponder0
GasFeeVictim
· 08-11 20:46
Otra vez se quemó un camión de GPUs.
Ver originalesResponder0
blocksnark
· 08-11 20:45
Aprovechar al máximo el capital
Ver originalesResponder0
Rekt_Recovery
· 08-11 20:45
ngl este asunto del halcón me está dando un gran PTSD de mercado alcista... parece otra trampa de apalancamiento a punto de suceder
Ver originalesResponder0
GasFeeLady
· 08-11 20:41
justo como las tarifas de gas en eth... estos modelos de IA siguen pump y dump lmao
Ver originalesResponder0
HashBrownies
· 08-11 20:25
Los modelos compiten por quién tiene más parámetros.
Competencia de grandes modelos de IA: un centenar de voces desde la innovación académica hasta la práctica ingenieril.
La guerra de los cien modelos en el campo de la IA: de la innovación tecnológica a la práctica de la ingeniería
El mes pasado, la industria de la IA desató una intensa competencia de modelos.
Por un lado, está el modelo de lenguaje grande de código abierto lanzado por un gigante tecnológico, que es muy apreciado por los desarrolladores debido a su naturaleza abierta. Una empresa en Japón, después de investigar los documentos y el código fuente de este modelo, desarrolló rápidamente un sistema de IA conversacional en japonés, resolviendo así el cuello de botella en el desarrollo de IA en Japón.
El otro lado es un modelo grande llamado "Falcon". En mayo de este año, Falcon-40B fue lanzado, superando a sus competidores y alcanzando el primer lugar en la clasificación de LLM de código abierto.
Este ranking fue creado por una comunidad de modelos de código abierto y proporciona un estándar para evaluar la capacidad de los LLM. La clasificación está ocupada básicamente por estos dos modelos de manera alterna.
A principios de septiembre, "Falcon" lanzó la versión 180B y volvió a alcanzar una clasificación más alta. Curiosamente, los desarrolladores de "Falcon" no son una empresa tecnológica, sino una institución de investigación ubicada en los Emiratos Árabes Unidos. Funcionarios de los Emiratos Árabes Unidos han declarado que participan en esta competición para romper el paradigma existente.
Hoy en día, el campo de la IA ha entrado en una etapa de competencia entre múltiples actores. Cualquier país o empresa con cierta capacidad financiera está planeando crear su propio sistema de IA conversacional. Solo en la región del Golfo, hay más de un jugador en juego. En agosto, Arabia Saudita compró miles de chips de IA de alta gama para universidades locales, destinados a entrenar modelos de lenguaje grandes.
Un inversor conocido expresó en las redes sociales: "En su momento desprecié la innovación en los modelos de negocio de Internet, pensando que no había barreras. No esperaba que el emprendimiento en modelos de grandes tecnologías aún sea una batalla entre cientos de modelos..."
¿Cómo es que la llamada tecnología dura de alta dificultad se ha convertido en una pista en la que los países compiten por posicionarse?
El algoritmo Transformer provoca la revolución de la IA
Ya sean startups estadounidenses, gigantes tecnológicos chinos o jeques del petróleo de Oriente Medio, la capacidad de invertir en el desarrollo de grandes modelos se debe al famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos de Google hicieron pública la algoritmia Transformer al mundo en este artículo. Este artículo es actualmente el tercero más citado en el campo de la IA, y la aparición del Transformer ha desencadenado esta ola actual de entusiasmo por la IA.
Los diversos grandes modelos actuales, independientemente de su nacionalidad, incluidos los aclamados modelos de la serie GPT, se basan en la arquitectura Transformer.
Hasta ahora, "hacer que las máquinas lean" ha sido un desafío académico reconocido. A diferencia del reconocimiento de imágenes, al leer, los humanos no solo se centran en las palabras o frases actuales, sino que también comprenden el contexto. Las entradas de las primeras redes neuronales eran independientes entre sí, lo que dificultaba la comprensión de textos largos o incluso de artículos completos, por lo que a menudo se producían errores de traducción ridículos.
Hasta 2014, un científico de la computación utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, mejorando significativamente el rendimiento de un sistema de traducción. RNN propuso un "diseño recurrente", permitiendo que cada neurona reciba tanto la entrada actual como la entrada del momento anterior, lo que le otorga la capacidad de "combinar el contexto".
La aparición de RNN encendió el entusiasmo de la investigación en el mundo académico, y uno de los autores del artículo sobre Transformer también se vio atrapado en ello durante un tiempo. Sin embargo, los desarrolladores pronto se dieron cuenta de que RNN tenía defectos graves: este algoritmo utiliza cálculos secuenciales, aunque resolvió el problema del contexto, su eficiencia de ejecución no es alta y tiene dificultades para manejar grandes cantidades de parámetros.
El diseño complicado de las RNN rápidamente llevó a los investigadores a sentirse frustrados. A partir de 2015, un grupo de científicos afines comenzó a desarrollar alternativas a las RNN, y el resultado final fue el Transformer.
En comparación con RNN, Transformer tiene dos grandes innovaciones: la primera es el uso de codificación posicional en lugar de diseño cíclico, lo que permite el cálculo en paralelo, mejorando significativamente la eficiencia de entrenamiento y llevando a la IA a la era de los grandes modelos; la segunda es que se ha mejorado aún más la capacidad de entender el contexto.
El Transformer resolvió muchos problemas de una vez y se convirtió gradualmente en la solución principal para el procesamiento del lenguaje natural. Incluso los creadores de RNN han cambiado al campo del Transformer. Se puede decir que el Transformer es la base de todos los grandes modelos actuales, convirtiendo los grandes modelos de una investigación teórica a un problema de ingeniería.
En 2019, una empresa de IA desarrolló GPT-2 basado en Transformer, sorprendiendo a la comunidad académica. En respuesta, un gigante tecnológico lanzó rápidamente un sistema de IA con un rendimiento más potente. Comparado con GPT-2, este sistema no tenía innovaciones algorítmicas, solo aumentó significativamente los parámetros de entrenamiento y la potencia de cálculo. Los autores del artículo sobre Transformer quedaron muy impactados por este "apilamiento violento" y escribieron un memorando para registrar sus impresiones.
La aparición de Transformer ha ralentizado la velocidad de innovación en los algoritmos básicos en la academia. Elementos de ingeniería como la ingeniería de datos, la escala de computación y la arquitectura de modelos se han convertido en la clave de la competencia en IA. Cualquier empresa con cierta capacidad técnica puede desarrollar grandes modelos.
Por lo tanto, un reconocido experto en IA planteó en su discurso: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la IA generativa. Todas estas son tecnologías generales, similares a la electricidad y a Internet."
Aunque cierta empresa de IA sigue siendo el referente de los grandes modelos de lenguaje, los análisis de la industria creen que su competitividad proviene principalmente de las soluciones de ingeniería. Si se hace de código abierto, cualquier competidor podría copiarlo rápidamente. Algunos analistas prevén que pronto otras grandes empresas tecnológicas también podrán desarrollar modelos de gran tamaño con un rendimiento equivalente.
Desafíos de la competencia de grandes modelos
Actualmente, "la batalla de los cien modelos" ya no es una retórica, sino una realidad objetiva.
Informes relacionados muestran que, hasta julio de este año, el número de grandes modelos en China ha alcanzado los 130, superando los 114 de Estados Unidos. Fuera de China y Estados Unidos, algunos países más ricos también han logrado preliminarmente el "un país, un modelo": además de Japón y Emiratos Árabes Unidos, están Bhashini, liderado por el gobierno de India, y HyperClova X, desarrollado por una empresa de internet de Corea del Sur.
Esta escena recuerda mucho a la época de la burbuja de internet, cuando el capital fluía en masa.
Como se mencionó anteriormente, el Transformer ha convertido los grandes modelos en un problema de ingeniería; mientras haya talento, financiamiento y hardware, lo demás se deja a la optimización de parámetros. Sin embargo, la reducción de la barrera de entrada no significa que cualquiera pueda convertirse en un gigante de la era de la IA.
El "conflicto de modelos" mencionado al principio del artículo es un caso típico: aunque cierto modelo esté a la cabeza en el ranking, es difícil decir cuánto impacto ha tenido en un gigante tecnológico.
Como todos saben, las empresas que hacen open source de sus resultados de investigación lo hacen no solo para compartir los beneficios tecnológicos con la sociedad, sino también para aprovechar la inteligencia colectiva. A medida que diferentes sectores continúan utilizando y mejorando un modelo de código abierto, la empresa matriz puede aplicar estos resultados a sus propios productos.
Para los modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva.
Un gigante de las redes sociales estableció una estrategia de código abierto ya en 2015 al crear un laboratorio de IA; su fundador comprende bien la "manera de mantener relaciones comunitarias". En octubre de este año, la compañía lanzó una iniciativa de "Incentivo para Creadores de IA": los desarrolladores que utilicen su modelo de código abierto para resolver problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una subvención de 500,000 dólares.
Hoy en día, la serie de modelos de código abierto de la empresa se ha convertido en un referente en la industria. A principios de octubre, 8 de los 10 primeros modelos en un ranking de modelos de código abierto se basaron en esta serie. Solo en esta plataforma, hay más de 1500 modelos que utilizan su licencia de código abierto.
Por supuesto, mejorar el rendimiento del modelo tampoco está de más, pero actualmente la mayoría de los modelos en el mercado todavía tienen una diferencia evidente con los sistemas de IA de primer nivel.
Por ejemplo, hace poco, un sistema de IA ganó el primer lugar con una puntuación de 4.41 en la prueba AgentBench. AgentBench fue lanzado en colaboración con varias universidades de renombre y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de modelos grandes en entornos abiertos multidimensionales. El contenido de la prueba incluye 8 tareas como sistemas operativos, bases de datos, grafos de conocimiento y batallas de cartas.
Los resultados de las pruebas muestran que el segundo lugar solo obtuvo 2.77 puntos, lo que indica una diferencia clara. En cuanto a esos modelos de código abierto tan rimbombantes, sus calificaciones en las pruebas suelen rondar el 1 punto, menos de una cuarta parte del campeón.
Para saberlo, el sistema de IA más potente se lanzó en marzo de este año, y esto es el resultado de más de medio año de seguimiento por parte de sus competidores globales. La causa de esta diferencia es el alto nivel del equipo de investigación y desarrollo de la empresa y la experiencia acumulada a lo largo del tiempo, que les permite mantener una posición de liderazgo.
En otras palabras, la ventaja central de los grandes modelos no es la cantidad de parámetros, sino la construcción del ecosistema ( la ruta de código abierto ) o la capacidad de inferencia pura ( la ruta de código cerrado ).
Con la creciente actividad de la comunidad de código abierto, el rendimiento de varios modelos puede converger, ya que todos están utilizando arquitecturas y conjuntos de datos similares.
Otro problema más realista es que, salvo algunas excepciones, parece que ningún gran modelo ha logrado ser rentable.
La presión económica que enfrentan los grandes modelos
En agosto de este año, un artículo titulado "Una empresa de IA podría declararse en bancarrota a finales de 2024" ha llamado la atención. La idea principal del artículo se puede resumir en una frase: la velocidad de gasto de la empresa es demasiado rápida.
El texto menciona que, desde el desarrollo de un sistema de IA conversacional, las pérdidas de la empresa se han ampliado rápidamente, alcanzando aproximadamente 540 millones de dólares en 2022, y solo puede sobrevivir gracias al apoyo de los inversores.
Aunque el título del artículo es exagerado, también refleja la situación de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los altos costos han llevado a que actualmente solo unos pocos fabricantes de chips dependan realmente de la IA para obtener ganancias.
Según estimaciones de consultoras, un gigante de los semiconductores vendió más de 300,000 chips de IA de alta gama en el segundo trimestre de este año. Este es un chip altamente eficiente para entrenar IA, que las empresas tecnológicas y los institutos de investigación de todo el mundo compiten por comprar. Si apilamos los chips vendidos, el peso equivale al de 4.5 aviones Boeing 747.
La compañía de chips vio un aumento espectacular en su rendimiento, con un crecimiento de ingresos del 854% en comparación interanual, lo que sorprendió a Wall Street. Cabe mencionar que este chip ya se ha especulado en el mercado de segunda mano a entre 40,000 y 50,000 dólares, mientras que su costo es de aproximadamente 3,000 dólares.
Los altos costos de computación han obstaculizado el desarrollo de la industria en cierta medida. Una conocida institución de inversión estimó que las empresas tecnológicas de todo el mundo invertirán aproximadamente 200 mil millones de dólares anualmente en la construcción de infraestructura para modelos grandes; en comparación, los modelos grandes solo pueden generar hasta 75 mil millones de dólares en ingresos al año, lo que deja una brecha de al menos 125 mil millones de dólares.
Además, a excepción de unos pocos casos, la mayoría de las empresas de software, después de invertir grandes sumas de dinero, aún no han encontrado un modelo de negocio claro. Incluso las empresas líderes en la industria enfrentan dificultades.
Una herramienta de generación de código desarrollada en colaboración entre un gigante tecnológico y una empresa de IA, aunque cobra 10 dólares al mes, en realidad está perdiendo 20 dólares al mes debido a los costos de infraestructura; los usuarios intensivos incluso pueden hacer que la empresa pierda 80 dólares al mes. A partir de esto, se puede suponer que un servicio de asistente de IA que tiene un precio de 30 dólares podría estar perdiendo aún más.
Del mismo modo, un gigante del software que acaba de lanzar herramientas de IA también implementó rápidamente un sistema de puntos, limitando el uso excesivo por parte de los usuarios para evitar pérdidas para la empresa. Una vez que los usuarios superan la cantidad de puntos asignados mensualmente, la empresa reduce la velocidad del servicio.
Estas dos empresas ya tienen escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los modelos de gran escala, su principal escenario de aplicación sigue siendo el diálogo.
No se puede negar que, sin la aparición repentina de cierta empresa de IA y su sistema de diálogo, esta revolución de la IA podría no haber ocurrido. Sin embargo, en este momento, el valor creado por el entrenamiento de grandes modelos sigue siendo discutible.
Además, a medida que la competencia por homogeneización se intensifica y hay más modelos de código abierto, las empresas que simplemente ofrecen servicios de modelos grandes pueden enfrentar una mayor presión.
Así como el éxito de un smartphone no se debe a su procesador avanzado, sino a su capacidad para ejecutar diversas aplicaciones populares, el valor de los modelos grandes debe reflejarse, en última instancia, en escenarios de aplicación específicos.