紅博士は語る｜中国はいかにしてChatGPTの饗宴を欠席したか

ChatGPT年代記
私たちはどのようにしてGPTの饗宴を見逃したのか
GPT大規模言語モデルはAGIを実現できるのか
連載トピック予告

ChatGPT年代記

タイムラインを整理しましょう。ChatGPTは会話型UI + GPT–3.5シリーズモデルであり、最も代表的な論文、モデル、APIを主軸に、今日まで整理します。

2020年以前

2017年6月、GoogleはTransformer論文を発表しました。
2017年6月、7月、OpenAIは人間の好みを強化学習アルゴリズム、PPOアルゴリズムを発表し、これらはすべてChatGPTで使用されているアルゴリズムです。
2018年6月、OpenAIはGPT-1を発表しました。
2018年11月、GoogleはBERTを発表し、その後NLP分野は主にこのフレームワークに基づいて下流タスクを研究しています。
2019年2月、OpenAIはGPT-2を発表し、OpenAIは自信を得て、その後GPTに注力しました。

2020年

年初、Covid-19が勃発。中国は閉鎖。
1月、OpenAIは言語モデルのScaling Law（概念：モデル能力はパラメータ規模、データ規模と強く相関する）を発表し、OpenAIはデータとパラメータ規模のScaling-upへの自信を得ました。
5月、GPT-3論文発表。
6月、GPT-3 API発表。
9月、ChatGPTの主要なプロトタイプアルゴリズム関連論文発表。
12月、欧州機関はGPT-3の再現に使用するオープンソースデータセットを発表しました。

2021年

7月、OpenAIはCopilotプロトタイプアルゴリズムを発表しました。
8月、Codex API発表。
11月、GPT-3 API Public Release、中国には開放されず。
中国は閉鎖。

2022年

1月、GPT-3.5 API (text-davinci-002)発表。このモデルはGithubコードのトレーニングによって強化され、推論能力が著しく向上（この仮説の因果関係は学術界で論証を待つ）、Alignment技術の強化により、人間の指示に従う能力が著しく向上し、出力結果の有用性と無害性が著しく向上しました。
3月、GPT-3.5論文発表、Alignmentアルゴリズムを公開。
5月、OpenAI Codexは70のアプリケーションで使用されており、マイクロソフトが買収したGithubのCopilotも含まれています。
8月、Stability AIはStableDiffusionをオープンソース化し、文生成アルゴリズムの効果が利用可能、速度が実現可能、コードがオープンソース化され、同時に発生し、画像生成が爆発的に増加しました。一時期、中国では、AIGCは画像生成の代名詞のようでした。
9月、Sequoia CapitalはGenerative AI: A Creative New Worldブログを発表しました。
中国の研究者と開発者は、OpenAIのAPI権限を持っていません。しかし、画像生成は誰でも試すことができ、インターネットは画像生成にしか注目せず、GPT大規模言語モデルへの関心はさらに低下しました。
約1年間のAPIアクセスとUI探索、約1年間の思考連鎖（Chain of Thought）などのPrompt Engineering技術の試行錯誤、モデル加速などの技術（Flash Attention、Fixed-Pointなど）によるコストと遅延の削減を経て、GPT-3.5のモデルポテンシャルが開発され（Better、Faster and Cheaperになる）、Copy.ai、Jasperなどのテキスト生成系企業の製品が徐々に成熟しました。
11月、OpenAIはGPT3.5 APIの新モデル(text-davinci-003)を発表しました。
12月1日、ChatGPT発表。Muskなどの著名人がChatGPTについて語り始め、英語のインターネットが爆発的に増加しました。
12月初旬、中国インターネットの自メディアは徐々にChatGPTについて議論し始め、主にtwitterを翻訳する方法でした。知乎では学者が反省し始めました。1週間後、注目指数は低下し、2ヶ月間、AI自メディアだけがChatGPTを主な関心事として残りました。
中国は閉鎖。

2023年

1月、マイクロソフトはOpenAIに数十億ドルを投資し、GPTを全ファミリーに追加すると発表しました。
2月、中国の春節が終わり、マイクロソフトとGoogleが交互に登場し、ナスダックの決算発表シーズン、AIが繰り返し言及されました。中国インターネットはマイクロソフトを認識しており、ChatGPTは中国インターネットを爆発させ、注目指数が急上昇しました。
中国開放。

注目すべきは、中国がパンデミックのために閉鎖された3年間が、OpenAIのGPTが発展、成長、製品化された3年間であるということです。

私たちはどのようにしてGPTの饗宴を見逃したのか？

歴史を振り返ってみると、なぜ私たち（中国、特にAIコミュニティ）は、OpenAIの技術がアプリケーションレベルで画期的であることをもっと早く認識できなかったのでしょうか？

問題を認識するためには、どのような条件を同時に満たす必要があるのでしょうか。

OpenAI、DeepMind、Googleなどの機関の論文を読んで理解できること（代表者：研究者）
OpenAIのAPIを使用して論文内のモデルを探索できること（代表者：研究者の中の先駆者）
シリコンバレーへの感度が高く、OpenAIのAPIを使って何を作っているのかをよく見ていること（代表者：VC）

この3つのカテゴリーの人々を中国で大まかに見積もると、第一カテゴリーは約1/100,000、第二カテゴリーは第一カテゴリーの約1/1,000、第三カテゴリーは約1/1,000,000です。3つの条件のうち、1つでも欠けていると、OpenAIがどの段階まで発展しているのかを認識できません。この3種類の人々が集まり、十分に議論しているチームはありますか？この3つの属性をすべて備えた人はいますか？さらに悪いことに、研究者は3年間国内に閉じ込められ、海外の学術会議に参加したことがなく、多くの人がオンライン会議にも参加していないと推測され、多くのことは論文からは見ることができません。

さらに深く掘り下げてみましょう。第一カテゴリーの人々は、NLP（自然言語処理）研究者、その他のAI研究者（コンピュータビジョン、音声認識、機械学習など）に分けられます。

中国のNLP研究グループは、基本的に言語モデル（特にBERT、GPTではなく）をNLPのさまざまな下流タスクに適用し、学術界ではランキングを上げて論文を発表し、産業界ではカスタマーサービスロボット、原稿作成ロボット、ロールプレイングロボットを作成し、研究方法もGPTの本質であるScaling-upとAlignmentとは全く異なります。（ほとんど）誰も大規模言語モデル（LLM）を汎用人工知能（AGI）の可能性として研究していません。

その他のAI研究者、例えばコンピュータビジョンは、ほとんどの人が画像に集中しており、Transformerを使用しても、自動運転、画像生成などの画像の問題を解決しています。Tesla AutoPilotのAI責任者であるKarpathyでさえそうです。Karpathyは2022年上半期にTeslaを辞任し、独立研究者として大規模言語モデルに身を投じました。

Karpathyは、過去10年間でAIで最も急速に進歩している方向に夢中になり、かつて言語モデルに非常に興味を持っていたが、scaling upの力を無視していたと述べています。それは、単純なObjective（next word）+単純な構造（Transformer）+十分なパラメータ+十分なデータ（web text）であり、言語モデルは小規模な状態では見られない能力を出現させることができ、彼は他の人たち（彼は初期のOpenAIを指しているはず）のように、かつて強化学習がAGIへの道だと考えていたが、結局大規模言語モデルが最も有望な道であることがわかりました。これ以前は、言語モデルの研究者は、具体的なタスクに過剰なエネルギーを費やしていました。

AI分野のもう一つの重要なグループであるコンピュータビジョン（Computer Vision)グループについて話しましょう。2012年に始まったディープラーニングの波の中で、コンピュータビジョンは常に最も広く使用され、商業的に最も成功した方向であり、あまりにも多くのAI研究者のエネルギーを惹きつけ、画像分類、検出、セグメンテーションから認識、画像からビデオ、高層ビジョンから低層ビジョンまで、私たちは畳み込みニューラルネットワークで次々と新しい高さを巻き上げました。YOLO目標検出フレームワークは、元の作者が放棄するまで反復され、v7バージョンまで推進されました。最も代表的なのは、コンピュータビジョンの月面着陸プロジェクトである自動運転であり、画像化、認識、合成、地図作成、計画など、ほぼすべてのビジョンAI技術のサポートが必要であり、CNN時代からTransformer時代まで、より多くの人々を巻き込み続けてきましたが、今日まで、完全自動運転のソリューションはまだ収束していません。マスクが定義した問題は正しく、自動運転はreal-world AIの問題ですが、明らかにテスラのソリューションは完全自動運転の準備ができていません。

NLPサークルの小家碧玉、CVサークルの隔行如隔山、パンデミックによる3年間の閉鎖、インターネットの情報不足。これらの要因が重なり合い、中国語の世界全体が情報繭を形成しました。10年間、私たちは自分たちが蓄積したAIアルゴリズム、データ、アプリケーションの優位性が、今や中米間の大きな溝になっていると考えていました。この時、私たちはこの事件の経緯を徹底的に掘り下げるニュース調査さえしていません。

もう一つの問題は、私たちの中国語インターネットが質の高いトレーニングデータを提供するには不十分であるということです。質の高いデータとは何ですか？例えば、ウィキペディア、質の高い活発なフォーラム、専門ニュース、学術論文、質の高いコード、書籍などです。

GPT–3のトレーニングデータを見てみましょう。最も重みのあるデータセットはOpenWebText（オープンソースバージョン）であり、データはRedditフォーラムからURLを収集し、コンテンツをクロールしました。Common Crawlは、オープンなインターネットデータアーカイブ（英語が半分、中国語は約5％）です。その他の代表的なデータには、Wikipediaウィキペディア、Booksオープンブック、Stack Exchange技術Q&Aコミュニティ、Githubコード、ArXiv論文、RealNewニュースアーカイブ、PubMed医療データなどがあります。中国語インターネットから生成されたデータは、無視できるほど低いことがわかります。これは、中国語の大規模モデルをトレーニングしようとする多くの人々を悩ませている問題でもありますが、実際には、ChatGPTの中国語でのコミュニケーション能力は、専門の中国語大規模言語モデルをはるかに超えており、その背後にはGPTが暗黙的に学習した翻訳能力があります。

良い中国語データがないため、私たちはグローバルインターネットのデータに便乗するしかありません。上記の高品質データの生成には、オープンなコミュニティが必要であり、私たちは解決策がないようです。

GPT大規模言語モデルはAGIを実現できますか？

GPTに基づくLLMは、言語にのみ依存しており、AGIを実現できる可能性は低く、単に「AGIへの高速道路の出口（Yann Lecun）」にすぎません。しかし、LLMはインターネットインフラストラクチャをひっくり返すのに十分であり、LogicとMemoryを同時に備えています。Logicは推論能力であり、Memoryは高頻度知識の記憶であり、明らかにMemoryはオンチップとオフチップに分けられ、オンチップは限られており、オフチップは無限です。次のステップでは、LLMのLogicを極限まで押し上げ、低頻度Memoryの大部分をモデル以外にオフロードし、検索などのクエリ技術を組み合わせるだけで、インターネット全体のフロントエンドとバックエンドを再構築できます。私たちはscaling-lawの恩恵を十分に受けておらず、私たちを制限しているのは、集積回路のムーアの法則と製造能力、エネルギー価格、データの取得だけです。

集積回路に関しては、Chipletを代表とするシステムムーアの法則では不十分であり、人々はscaling-upできるFoundryを必要としています。

エネルギーに関しては、太陽光と風力+エネルギー貯蔵が多くの問題を解決でき、さらにエキサイティングなのは、Helionを代表とする核融合技術であり、エネルギー価格を1桁下げ、さらに下げる可能性があります。

データに関しては、現在のGPTモデルはインターネットテキストデータに依存しており、これは使い果たされますが、問題ありません。現実世界のデータは無限です。

連載トピック予告

今日はここまで。

予定：

OpenAIの物語
AI Alignment
AIと資本主義
AIと教育
AGI時代の人間

By 紅博士, 2023年2月8日

自由档案馆をもっと見る

購読すると最新の投稿がメールで送信されます。

ChatGPT年代記

私たちはどのようにしてGPTの饗宴を見逃したのか？

GPT大規模言語モデルはAGIを実現できますか？

連載トピック予告

共有:

自由档案馆をもっと見る

あわせて読みたい

48時間の水害の後、瀋陽：豪雨が歴史的極値を更新、城南の住宅は依然として水に「囲まれている」

六蓝ダムの今回の危機は、決壊とも決壊とも呼ばれず、局所的な決壊としか呼べない

高官のガールフレンドが8つのスーツケースに現金を詰めて家を全額購入、告発者は有罪判決を受ける

出生人口が半減した後：中国は住宅価格の下落よりも大きな危機に直面している

次の記事を目の前で消させないで

ブログをメールで購読