El Dr. Hong dice | Cómo China se perdió el festín de ChatGPT

Índice:

  1. Crónica de ChatGPT
  2. Cómo perdimos la fiesta de GPT
  3. ¿Pueden los modelos de lenguaje grandes de GPT lograr la IAG?
  4. Avance de temas serializados
file

Crónica de ChatGPT

Revisemos una línea de tiempo. ChatGPT es una interfaz de usuario conversacional + modelos de la serie GPT-3.5, y tomamos los artículos, modelos y API más representativos como la línea principal y los revisamos hasta hoy.

Antes de 2020

  • Junio de 2017, Google publicó el artículo Transformer.
  • Junio y julio de 2017, OpenAI publicó el algoritmo de aprendizaje por refuerzo de preferencias humanas y el algoritmo PPO, que son algoritmos utilizados por ChatGPT.
  • Junio de 2018, OpenAI publicó GPT-1.
  • Noviembre de 2018, Google publicó BERT, y el campo de la PNL se basó principalmente en este marco para estudiar tareas posteriores.
  • Febrero de 2019, OpenAI publicó GPT-2, OpenAI ganó confianza y luego se centró en GPT.

2020

  • A principios de año, estalló el Covid-19. China cerró sus puertas.
  • Enero, OpenAI publicó la Ley de Escalamiento de los modelos de lenguaje (concepto: la capacidad del modelo está fuertemente relacionada con la escala de parámetros y la escala de datos), y OpenAI ganó confianza en el escalamiento de datos y parámetros.
  • Mayo, se publicó el artículo GPT-3.
  • Junio, se lanzó la API de GPT-3.
  • Septiembre, se publicó el artículo relacionado con el algoritmo prototipo clave de ChatGPT.
  • Diciembre, las instituciones europeas publicaron un conjunto de datos de código abierto para la reproducción de GPT-3.

2021

  • Julio, OpenAI publicó el algoritmo prototipo Copilot.
  • Agosto, se lanzó la API de Codex.
  • Noviembre, lanzamiento público de la API de GPT-3, no abierta a China.
  • China cerró sus puertas.

2022

  • Enero, se lanzó la API de GPT-3.5 (text-davinci-002), este modelo se ha visto reforzado por el entrenamiento del código de Github, y la capacidad de razonamiento ha mejorado significativamente (la relación causal de esta hipótesis debe ser probada por la comunidad académica), y se ha visto reforzado por la tecnología de Alineación, y la capacidad de seguir las instrucciones humanas ha mejorado significativamente, y la utilidad y la inocuidad de los resultados han mejorado significativamente.
  • Marzo, se publicó el artículo GPT-3.5, que reveló el algoritmo de Alineación.
  • Mayo, OpenAI Codex ha sido utilizado por 70 aplicaciones, incluido Copilot de Github, adquirido por Microsoft.
  • Agosto, Stability AI abrió StableDiffusion, y el efecto del algoritmo de generación de imágenes, la velocidad factible y el código de código abierto ocurrieron al mismo tiempo, lo que provocó la generación de imágenes. En China, AIGC parece ser sinónimo de generación de imágenes.
  • Septiembre, Sequoia Capital publicó el blog Generative AI: A Creative New World.
  • Los investigadores y desarrolladores chinos no tienen la autoridad de la API de OpenAI. Pero todos pueden probar la generación de imágenes, por lo que Internet parece solo prestar atención a la generación de imágenes, y la atención a los modelos de lenguaje grandes de GPT disminuyó aún más.
  • Después de casi un año de acceso a la API y exploración de la interfaz de usuario, casi un año de prueba y error de la tecnología de ingeniería de indicaciones como la cadena de pensamiento (Chain of Thought), la aceleración del modelo y otras tecnologías (como Flash Attention, Fixed-Point) trajeron la reducción de costos y retrasos, el potencial del modelo GPT-3.5 se desarrolló (se volvió Mejor, Más rápido y Más barato), y los productos de empresas de generación de texto como Copy.ai y Jasper maduraron gradualmente.
  • Noviembre, OpenAI lanzó el nuevo modelo de la API GPT3.5 (text-davinci-003).
  • 1 de diciembre, se lanzó ChatGPT. Celebridades como Musk comenzaron a hablar de ChatGPT, lo que provocó Internet en inglés.
  • A principios de diciembre, los medios chinos de auto-comunicación en Internet comenzaron gradualmente a discutir ChatGPT, principalmente traduciendo Twitter. Los académicos de Zhihu comenzaron a reflexionar. Una semana después, el índice de atención disminuyó, y solo los medios de auto-comunicación de IA han estado tomando a ChatGPT como su principal contenido de atención durante dos meses.
  • China cerró sus puertas.

2023

  • Enero, Microsoft anunció una inversión de miles de millones de dólares en OpenAI y agregó GPT a la suite completa.
  • Febrero, después del Año Nuevo Chino, Microsoft y Google se turnaron para aparecer, y la temporada de informes financieros de Nasdaq, la IA se mencionó repetidamente. Internet chino conoce a Microsoft, y ChatGPT provocó Internet chino, y el índice de atención se disparó.
  • China se abrió.

Vale la pena señalar que los tres años en que China cerró sus puertas debido a la epidemia fueron los tres años en que OpenAI GPT se desarrolló, creció y se comercializó.

¿Cómo perdimos la fiesta de GPT?

Una vez que la historia ha terminado, ¿por qué nosotros (China, especialmente la comunidad de IA) no nos dimos cuenta antes del avance de la tecnología OpenAI en el nivel de aplicación?

Para darse cuenta del problema, se deben cumplir las siguientes condiciones:

  1. Ser capaz de leer y comprender los artículos de instituciones como OpenAI, DeepMind y Google (representantes: investigadores)
  2. Ser capaz de usar la API de OpenAI para explorar los modelos en los artículos (representantes: los primeros en probar en los investigadores)
  3. Sensibilidad a Silicon Valley, a menudo observando lo que todos están haciendo con la API de OpenAI (representantes: VC)

En China, estimamos que hay aproximadamente 1/100.000 de la primera categoría, aproximadamente 1/1.000 de la segunda categoría y aproximadamente 1/1.000.000 de la tercera categoría. Tres condiciones, falta una, no se puede dar cuenta de qué tan lejos ha llegado OpenAI. ¿Qué equipo reúne a estas tres personas y tienen suficiente colisión? ¿Hay alguien que tenga estas tres propiedades? Para empeorar las cosas, los investigadores han estado encerrados en el país durante tres años y no han ido al extranjero para participar en conferencias académicas, e incluso creo que muchas personas ni siquiera han participado en conferencias en línea, y muchas cosas no podemos verlas en los artículos.

Continuemos profundizando. En la primera categoría de personas, se divide en investigadores de PNL (procesamiento del lenguaje natural) y otros investigadores de IA (como visión por computadora, reconocimiento de voz, aprendizaje automático).

En el grupo de investigación de PNL de China, básicamente toman modelos de lenguaje (especialmente BERT, no GPT) y los aplican a varias tareas posteriores de PNL. En el mundo académico, es para cepillar las listas y publicar artículos. En la industria, es para hacer robots de servicio al cliente, robots de redacción y robots de rol, y los métodos de investigación también son completamente diferentes de la esencia de GPT: escalamiento y alineación. (Casi) nadie está investigando los modelos de lenguaje grandes (LLM) como una posibilidad de inteligencia artificial general (IAG).

Otros investigadores de IA, como la visión por computadora, la mayoría de ellos todavía se enfocan en las imágenes, incluso si usan Transformer, también es para resolver problemas de imágenes, como usar Transformer para hacer conducción autónoma, generación de imágenes, etc. Incluso Karpathy, el jefe de IA de Tesla AutoPilot. Karpathy renunció a Tesla en la primera mitad de 2022 y se dedicó a los modelos de lenguaje grandes como investigador independiente.

Karpathy dijo una vez que estaba obsesionado con la dirección del progreso más rápido en la IA en la última década y que estaba muy interesado en los modelos de lenguaje, pero ignoró el poder del escalamiento, que es el simple Objetivo (siguiente palabra) + estructura simple (Transformer) + suficientes parámetros + suficientes datos (texto web), un modelo de lenguaje puede surgir con capacidades que no se pueden ver a pequeña escala, como otros (debería referirse a los primeros OpenAI), una vez pensó que el aprendizaje por refuerzo era el camino de la IAG, pero al final descubrió que los modelos de lenguaje grandes son el camino más prometedor. Antes de eso, los investigadores de modelos de lenguaje habían dedicado demasiada energía a tareas específicas.

Hablemos del otro grupo importante en el campo de la IA: el grupo de visión por computadora. En la ola de aprendizaje profundo que comenzó en 2012, la visión por computadora siempre ha sido la dirección más utilizada y comercialmente exitosa, atrayendo la energía de demasiados investigadores de IA, desde la clasificación de imágenes, la detección, la segmentación hasta el reconocimiento, desde imágenes hasta videos, desde la visión de alto nivel hasta la visión de bajo nivel, hemos enrollado una y otra vez nuevas alturas en las redes neuronales convolucionales. Un marco de detección de objetos YOLO, que fue iterado hasta que el autor original lo abandonó, y alguien lo empujó a la versión v7. El ejemplo más representativo es el proyecto de aterrizaje de la visión por computadora: la conducción autónoma, que requiere casi todas las tecnologías de IA visuales, como imágenes, reconocimiento, síntesis y mapeo, desde la era de CNN hasta la era de Transformer, atrayendo constantemente a más personas al agua, pero hasta el día de hoy, el esquema de conducción totalmente autónoma aún no ha convergido. El problema definido por Musk es correcto, la conducción autónoma es un problema de IA del mundo real, pero obviamente el esquema de Tesla no está listo para la conducción totalmente autónoma.

La pequeña familia de PNL, la visión cruzada de CV, los tres años de cierre debido a la epidemia y la información de Internet no es fluida. Estos factores se superponen para formar una cámara de eco de información en todo el mundo chino. Durante 10 años, pensamos que habíamos acumulado las ventajas de los algoritmos, datos y aplicaciones de IA, y ahora se han convertido en una gran brecha entre China y Estados Unidos. En este momento, ni siquiera tenemos una investigación periodística para cavar a fondo el principio y el fin de este asunto.

Otro problema es que nuestra Internet china no es suficiente para proporcionar datos de entrenamiento de alta calidad. ¿Qué son los datos de alta calidad? Por ejemplo, Wikipedia, foros activos de alta calidad, noticias profesionales, artículos académicos, código de alta calidad y libros.

Veamos cuáles son los datos de entrenamiento de GPT-3. El conjunto de datos con el mayor peso es OpenWebText (versión de código abierto), y los datos se recopilan de las URL del foro Reddit y luego se extrae el contenido. Common Crawl es un archivo de datos de Internet abierto (el inglés representa la mitad, el chino representa aproximadamente el 5%). Otros datos representativos incluyen Wikipedia, libros abiertos, la comunidad de preguntas y respuestas técnicas de Stack Exchange, el código de Github, los artículos de ArXiv y los archivos de noticias de RealNew y los datos médicos de PubMed. Se puede ver que la proporción de datos generados por Internet china es tan baja que se puede ignorar. Este es también el problema que preocupa a muchas personas que intentan entrenar modelos chinos grandes, pero de hecho, la capacidad de ChatGPT para comunicarse en chino ya ha superado con creces a esos modelos de lenguaje grandes chinos especializados, y la razón subyacente es la capacidad de traducción aprendida implícitamente por GPT.

Sin buenos datos chinos, solo podemos aprovechar los datos de Internet global. La generación de los datos de alta calidad anteriores requiere una comunidad abierta, y parece que no tenemos solución.

¿Pueden los modelos de lenguaje grandes de GPT lograr la IAG?

Basado en LLM de GPT, solo confiando en el lenguaje, es probable que no se logre la IAG, sino solo «una salida a la autopista a la IAG (Yann Lecun)». Pero LLM es suficiente para hacer que la infraestructura de Internet se ponga patas arriba, y al mismo tiempo tiene Lógica y Memoria. La lógica es la capacidad de razonamiento, y la memoria es la memoria del conocimiento de alta frecuencia. Obviamente, la memoria se puede dividir en en la placa y fuera de la placa, la placa es limitada y fuera de la placa es ilimitada. En el siguiente paso, solo necesitamos enfocarnos en llevar la Lógica de LLM al extremo, descargar la mayor parte de la Memoria de baja frecuencia fuera del modelo, combinada con la tecnología de búsqueda, etc., para lograr la reestructuración de todo el front-end y back-end de Internet. Todavía estamos lejos de disfrutar de los dividendos de la ley de escalamiento, y lo que nos limita es solo la ley de Moore de los circuitos integrados y la capacidad de fabricación, el precio de la energía y la adquisición de datos.

En términos de circuitos integrados, la ley de Moore del sistema representada por Chiplet aún no es suficiente, y la gente necesita Foundry que pueda escalar.

En términos de energía, la energía solar y eólica + el almacenamiento de energía pueden resolver muchos problemas, y lo más emocionante es la tecnología de fusión nuclear representada por Helion, que tiene la oportunidad de reducir el precio de la energía en un orden de magnitud, y luego más.

En términos de datos, los modelos GPT actuales dependen de los datos de texto de Internet, que se agotarán, no importa, los datos del mundo real son ilimitados.

Avance de temas serializados

Eso es todo por hoy.

En el plan:

  • La historia de OpenAI
  • Alineación de IA
  • IA y capitalismo
  • IA y educación
  • La gente en la era de la IAG

Por Dr. Hong, 8 de febrero de 2023


Descubre más desde 自由档案馆

Suscríbete y recibe las últimas entradas en tu correo electrónico.