El reciente desarrollo de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias; se informa que GPT ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software. En comparación con el diseño de código preciso del pasado, el diseño de software actual se basa más en la incorporación de marcos de grandes modelos generalizados, lo que permite que el software tenga un mejor rendimiento y soporte entradas y salidas de múltiples modalidades. La tecnología de aprendizaje profundo ha traído efectivamente la cuarta prosperidad a la industria de la IA, y esta ola también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de las tecnologías y el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, se analizarán en profundidad la cadena de suministro y demanda de la industria en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos, dispositivos de borde, así como su estado actual y tendencias. Después, se discutirá en esencia la relación entre las criptomonedas y la industria de la IA, y se organizará la estructura de la cadena de suministro de la IA relacionada con las criptomonedas.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para realizar la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas corrientes para lograr la inteligencia artificial en diferentes épocas y con distintos antecedentes disciplinares.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático". La idea de esta tecnología es permitir que las máquinas mejoren el rendimiento del sistema a través de iteraciones repetidas en tareas basadas en datos. Los pasos principales son enviar los datos al algoritmo, usar esos datos para entrenar el modelo, probar e implementar el modelo, y usar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso humano, el pensamiento y el comportamiento.
Actualmente, el conexionismo representado por redes neuronales domina ( y también se conoce como aprendizaje profundo ). La razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que la cantidad de capas y neuronas ( y los parámetros ) se vuelven suficientemente grandes, hay suficiente oportunidad para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de pasar por múltiples datos, esa neurona alcanzará un estado óptimo ( de parámetros ), lo que se conoce como "grandeza a través de milagros", y es el origen de la palabra "profundidad" - suficientes capas y neuronas.
Por ejemplo, se puede entender de manera sencilla que se ha construido una función, en la que al introducir X=2, Y=3; al introducir X=3, Y=5. Si se desea que esta función responda a todos los X, entonces se necesita seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que cumpla con esta condición como Y = 2X -1, pero si hay un dato donde X=2, Y=11, entonces se necesita reconstruir una función adecuada para estos tres puntos de datos. Al utilizar una GPU para un ataque de fuerza bruta, se encuentra que Y = X2 -3X +5 es bastante apropiado, sin embargo, no es necesario que coincida completamente con los datos, solo necesita seguir el equilibrio y proporcionar una salida aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar parámetros para ajustar los nuevos datos. Así podemos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, como las redes neuronales más tempranas, redes neuronales de retroalimentación, RNN, CNN, GAN, que finalmente evolucionaron hacia los grandes modelos modernos como el GPT y la tecnología Transformer utilizada. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ( Transformer ), para codificar todos los modos (, como audio, video, imágenes, etc., en valores numéricos correspondientes para representarlos. Luego se ingresan a la red neuronal, de esta manera la red neuronal puede ajustar cualquier tipo de datos, logrando así la multimodalidad.
![Nuevos Conocimientos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
El desarrollo de la IA ha pasado por tres oleadas tecnológicas. La primera oleada tuvo lugar en la década de 1960, una década después de que se propusiera la tecnología de IA. Esta oleada fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En la misma época, nacieron los sistemas expertos, siendo el sistema experto DENRAL, completado bajo la supervisión de la NASA por la Universidad de Stanford, uno de ellos. Este sistema posee un fuerte conocimiento en química y genera respuestas similares a las de un experto químico a través de inferencias basadas en preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ) propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue venció al campeón de ajedrez Garry Kasparov por 3.5:2.5, esta victoria fue vista como un hito en la inteligencia artificial, y la tecnología de IA entró en un segundo auge de desarrollo.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales que realiza el aprendizaje de representaciones de datos. Luego, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también es el apogeo del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM ( ganó el campeonato en el programa de preguntas y respuestas "Jeopardy" ) al vencer a humanos.
En 2014, Goodfellow propuso la red generativa adversarial GAN(, Generative Adversarial Network), que aprende a generar fotos casi indistinguibles de las reales mediante el enfrentamiento entre dos redes neuronales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los textos introductorios más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que generó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue creado, Musk, el presidente de YC Altman, el inversor ángel Peter Thiel ( Peter Thiel ) y otros anunciaron una inversión conjunta de 1,000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics de Hong Kong, (Hanson Robotics), desarrolló el robot humanoide Sofía, el cual es conocido como el primer robot en la historia en obtener la ciudadanía de primer nivel, con una rica variedad de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google, que cuenta con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que presentó el algoritmo Transformer, comenzando así la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT( Generative Pre-trained Transformer), construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes en ese momento.
En 2018, el equipo de Google Deepmind lanzó AlphaGo, basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, un modelo con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para entrenarse y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural (, como responder preguntas, traducción y redacción de artículos ).
En 2021, OpenAI lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, 10 veces más que GPT-3.
La aplicación ChatGPT basada en el modelo GPT-4 se lanzó en enero de 2023, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a los cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Nota: Debido a que hay muchos artículos sobre inteligencia artificial, muchas corrientes y diversas evoluciones tecnológicas, aquí principalmente se sigue la historia del desarrollo del aprendizaje profundo o del conexionismo, mientras que otras corrientes y tecnologías aún se encuentran en un proceso de rápido desarrollo.
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Liderados por GPT, los grandes modelos han generado un auge en la inteligencia artificial, atrayendo a numerosos jugadores a este sector. También hemos observado una explosión en la demanda de datos y capacidad de cálculo en el mercado. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo, cómo están compuestos los sectores upstream y downstream en la industria de la IA dominada por algoritmos de aprendizaje profundo, y cuál es la situación actual y la relación de oferta y demanda, así como el desarrollo futuro.
Primero, necesitamos aclarar que al realizar el entrenamiento de grandes modelos de LLMs liderados por GPT basados en la tecnología Transformer (, se divide en tres pasos.
Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se llama "Tokenization". Después, estos valores se denominan Token. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta es también la unidad básica utilizada para el cálculo de GPT.
Primer paso, preentrenamiento. A través de proporcionar suficientes pares de datos a la capa de entrada, similar a los ejemplos mencionados en la primera parte del informe )X,Y(, para encontrar los mejores parámetros de cada neurona bajo este modelo, en este momento se requieren grandes cantidades de datos, y este proceso también es el más costoso en términos de computación, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Una vez que se completa el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, afinación. La afinación consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento; este cambio hará que la salida del modelo tenga una mayor calidad, porque el preentrenamiento requiere grandes cantidades de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de afinación puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso, el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, que llamamos "modelo de recompensas", cuyo objetivo es muy simple: clasificar los resultados de salida, por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario empresarial es bastante vertical. Luego, utilizamos este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de esta manera podemos usar un modelo de recompensas para iterar automáticamente los parámetros del modelo grande. ) Sin embargo, a veces también se necesita la participación humana para juzgar la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un gran modelo, el preentrenamiento tiene una demanda muy alta de cantidad de datos, y la potencia de cálculo de GPU requerida es también la más alta. Por otro lado, el ajuste fino necesita datos de mayor calidad para mejorar los parámetros, y el aprendizaje reforzado puede iterar los parámetros a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuántos más parámetros hay, mayor es el techo de su capacidad de generalización. Por ejemplo, en el ejemplo de la función Y = aX + b, en realidad hay dos neuronas X y X0, por lo que, independientemente de cómo cambien los parámetros, los datos que pueden ajustar son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la que los grandes modelos producen milagros y también por la que se les llama comúnmente grandes modelos, cuya esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, se necesita una gran cantidad de poder de cálculo.
Por lo tanto, el rendimiento de los modelos grandes se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización del modelo grande. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de Tokens(, entonces podemos calcular la cantidad de cálculo necesaria a través de una regla general.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
6
Republicar
Compartir
Comentar
0/400
AirdropChaser
· hace22h
Ser engañados de nuevo.
Ver originalesResponder0
gas_fee_therapy
· hace23h
Jugar arriba y abajo fue demasiado intenso.
Ver originalesResponder0
RektRecovery
· 08-15 09:41
ciclo de hype típico... llamé a este paisaje de vulnerabilidad predecible hace meses smh
IA y Activos Cripto: un análisis panorámico de la evolución tecnológica a la ecología industrial.
IA x Cripto: De cero a la cima
Introducción
El reciente desarrollo de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias; se informa que GPT ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen los grandes modelos se considera un nuevo paradigma de diseño de software. En comparación con el diseño de código preciso del pasado, el diseño de software actual se basa más en la incorporación de marcos de grandes modelos generalizados, lo que permite que el software tenga un mejor rendimiento y soporte entradas y salidas de múltiples modalidades. La tecnología de aprendizaje profundo ha traído efectivamente la cuarta prosperidad a la industria de la IA, y esta ola también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de las tecnologías y el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, se analizarán en profundidad la cadena de suministro y demanda de la industria en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos, dispositivos de borde, así como su estado actual y tendencias. Después, se discutirá en esencia la relación entre las criptomonedas y la industria de la IA, y se organizará la estructura de la cadena de suministro de la IA relacionada con las criptomonedas.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para realizar la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado diversas corrientes para lograr la inteligencia artificial en diferentes épocas y con distintos antecedentes disciplinares.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático". La idea de esta tecnología es permitir que las máquinas mejoren el rendimiento del sistema a través de iteraciones repetidas en tareas basadas en datos. Los pasos principales son enviar los datos al algoritmo, usar esos datos para entrenar el modelo, probar e implementar el modelo, y usar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso humano, el pensamiento y el comportamiento.
Actualmente, el conexionismo representado por redes neuronales domina ( y también se conoce como aprendizaje profundo ). La razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que la cantidad de capas y neuronas ( y los parámetros ) se vuelven suficientemente grandes, hay suficiente oportunidad para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de pasar por múltiples datos, esa neurona alcanzará un estado óptimo ( de parámetros ), lo que se conoce como "grandeza a través de milagros", y es el origen de la palabra "profundidad" - suficientes capas y neuronas.
Por ejemplo, se puede entender de manera sencilla que se ha construido una función, en la que al introducir X=2, Y=3; al introducir X=3, Y=5. Si se desea que esta función responda a todos los X, entonces se necesita seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que cumpla con esta condición como Y = 2X -1, pero si hay un dato donde X=2, Y=11, entonces se necesita reconstruir una función adecuada para estos tres puntos de datos. Al utilizar una GPU para un ataque de fuerza bruta, se encuentra que Y = X2 -3X +5 es bastante apropiado, sin embargo, no es necesario que coincida completamente con los datos, solo necesita seguir el equilibrio y proporcionar una salida aproximadamente similar. Aquí, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar parámetros para ajustar los nuevos datos. Así podemos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales también ha tenido múltiples iteraciones y evoluciones, como las redes neuronales más tempranas, redes neuronales de retroalimentación, RNN, CNN, GAN, que finalmente evolucionaron hacia los grandes modelos modernos como el GPT y la tecnología Transformer utilizada. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ( Transformer ), para codificar todos los modos (, como audio, video, imágenes, etc., en valores numéricos correspondientes para representarlos. Luego se ingresan a la red neuronal, de esta manera la red neuronal puede ajustar cualquier tipo de datos, logrando así la multimodalidad.
![Nuevos Conocimientos丨AI x Crypto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
El desarrollo de la IA ha pasado por tres oleadas tecnológicas. La primera oleada tuvo lugar en la década de 1960, una década después de que se propusiera la tecnología de IA. Esta oleada fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En la misma época, nacieron los sistemas expertos, siendo el sistema experto DENRAL, completado bajo la supervisión de la NASA por la Universidad de Stanford, uno de ellos. Este sistema posee un fuerte conocimiento en química y genera respuestas similares a las de un experto químico a través de inferencias basadas en preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ) propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue venció al campeón de ajedrez Garry Kasparov por 3.5:2.5, esta victoria fue vista como un hito en la inteligencia artificial, y la tecnología de IA entró en un segundo auge de desarrollo.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo basado en redes neuronales artificiales que realiza el aprendizaje de representaciones de datos. Luego, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y este también es el apogeo del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de IBM ( ganó el campeonato en el programa de preguntas y respuestas "Jeopardy" ) al vencer a humanos.
En 2014, Goodfellow propuso la red generativa adversarial GAN(, Generative Adversarial Network), que aprende a generar fotos casi indistinguibles de las reales mediante el enfrentamiento entre dos redes neuronales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los textos introductorios más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que generó una gran repercusión en el ámbito académico y en la industria.
En 2015, OpenAI fue creado, Musk, el presidente de YC Altman, el inversor ángel Peter Thiel ( Peter Thiel ) y otros anunciaron una inversión conjunta de 1,000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, se enfrentó al campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics de Hong Kong, (Hanson Robotics), desarrolló el robot humanoide Sofía, el cual es conocido como el primer robot en la historia en obtener la ciudadanía de primer nivel, con una rica variedad de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google, que cuenta con una rica reserva de talento y tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que presentó el algoritmo Transformer, comenzando así la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT( Generative Pre-trained Transformer), construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes en ese momento.
En 2018, el equipo de Google Deepmind lanzó AlphaGo, basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, un modelo con 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para entrenarse y puede alcanzar un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural (, como responder preguntas, traducción y redacción de artículos ).
En 2021, OpenAI lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, 10 veces más que GPT-3.
La aplicación ChatGPT basada en el modelo GPT-4 se lanzó en enero de 2023, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a los cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Nota: Debido a que hay muchos artículos sobre inteligencia artificial, muchas corrientes y diversas evoluciones tecnológicas, aquí principalmente se sigue la historia del desarrollo del aprendizaje profundo o del conexionismo, mientras que otras corrientes y tecnologías aún se encuentran en un proceso de rápido desarrollo.
Cadena de industria de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Liderados por GPT, los grandes modelos han generado un auge en la inteligencia artificial, atrayendo a numerosos jugadores a este sector. También hemos observado una explosión en la demanda de datos y capacidad de cálculo en el mercado. Por lo tanto, en esta parte del informe, exploramos la cadena de suministro de los algoritmos de aprendizaje profundo, cómo están compuestos los sectores upstream y downstream en la industria de la IA dominada por algoritmos de aprendizaje profundo, y cuál es la situación actual y la relación de oferta y demanda, así como el desarrollo futuro.
Primero, necesitamos aclarar que al realizar el entrenamiento de grandes modelos de LLMs liderados por GPT basados en la tecnología Transformer (, se divide en tres pasos.
Antes del entrenamiento, debido a que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se llama "Tokenization". Después, estos valores se denominan Token. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta es también la unidad básica utilizada para el cálculo de GPT.
Primer paso, preentrenamiento. A través de proporcionar suficientes pares de datos a la capa de entrada, similar a los ejemplos mencionados en la primera parte del informe )X,Y(, para encontrar los mejores parámetros de cada neurona bajo este modelo, en este momento se requieren grandes cantidades de datos, y este proceso también es el más costoso en términos de computación, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Una vez que se completa el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, afinación. La afinación consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento; este cambio hará que la salida del modelo tenga una mayor calidad, porque el preentrenamiento requiere grandes cantidades de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de afinación puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso, el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, que llamamos "modelo de recompensas", cuyo objetivo es muy simple: clasificar los resultados de salida, por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario empresarial es bastante vertical. Luego, utilizamos este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de esta manera podemos usar un modelo de recompensas para iterar automáticamente los parámetros del modelo grande. ) Sin embargo, a veces también se necesita la participación humana para juzgar la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un gran modelo, el preentrenamiento tiene una demanda muy alta de cantidad de datos, y la potencia de cálculo de GPU requerida es también la más alta. Por otro lado, el ajuste fino necesita datos de mayor calidad para mejorar los parámetros, y el aprendizaje reforzado puede iterar los parámetros a través de un modelo de recompensa para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuántos más parámetros hay, mayor es el techo de su capacidad de generalización. Por ejemplo, en el ejemplo de la función Y = aX + b, en realidad hay dos neuronas X y X0, por lo que, independientemente de cómo cambien los parámetros, los datos que pueden ajustar son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la que los grandes modelos producen milagros y también por la que se les llama comúnmente grandes modelos, cuya esencia es una gran cantidad de neuronas y parámetros, así como una gran cantidad de datos, y al mismo tiempo, se necesita una gran cantidad de poder de cálculo.
Por lo tanto, el rendimiento de los modelos grandes se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cálculo. Estos tres factores influyen conjuntamente en la calidad de los resultados y la capacidad de generalización del modelo grande. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de Tokens(, entonces podemos calcular la cantidad de cálculo necesaria a través de una regla general.