「文系のための東大の先生が教えるChatGPT」要約【前編】

📕本の要約

今回は、松原仁先生監修の「文系のための東大の先生が教えるChatGPT」(ニュートンプレス、2024)を要約していきます。
ChatGPTについて知識ゼロから読める超入門書です。

松原仁先生
・東京大学次世代知能科学研究センター教授、公立はこだて未来大学特命教授
・現在の研究分野は、人工知能、ゲーム情報学、観光情報学
・2012年にAI小説プロジェクト「きまぐれ人工知能プロジェクト 作家ですのよ」を創設

1時間目 世界に革命をおこすChatGPT

STEP1 ChatGPTって何?

ChatGPTを開発したのは、アメリカの実業家であるイーロン・マスク氏サム・アルトマン氏ピーター・ティール氏らが2015年に設立したAI研究企業・OpenAIです。

ChatGPTはAIチャット(対話)サービスであり、ユーザー数は2023年1月(公開からわずか2ヶ月)に1億人を超えました。
過去にAI研究の飛躍が3回あったことから、今回のChatGPTの登場を第4次AIブームと捉える研究者も多くいます。

OpenAIは、ChatGPTだけでなく画像生成AIの先駆けDALL・Eシリーズを開発した企業でもあります。
企業理念は「全人類が汎用AIの恩恵を受けられるようにすること」であり、非営利企業として設立されました。
当初は研究成果をすべて公開する方針にしていましたが、2019年から非公開になりました。また、営利活動を行う新しい企業OpenAI LPの新設もしています。

汎用AI(Artificial General Intelligence, AGI):
人間と同等かそれ以上の知能をもち、人間に代わってさまざまなタスク(仕事)を汎用的にこなせるAI

2023年12月時点で公開されているChatGPTには、GPT-3GPT-4が搭載されています。
GPT-3は高い言語能力を有しますが、不自然な回答や偏見や差別表現を含んだ回答をしてしまうことがありました。
そこで、質問に対する適切な回答の仕方を開発者が教えるという方法で作られたのがChatGPTです。

従来のチャットボット(人間と対話できるシステム)は、対話の目的や内容を想定して人間がルールやシナリオを描き、それに沿って応答するというものでした(ルールベース型)。
したがって、ルール外の質問の対応や質問者の意図を汲み取ることはできません。

その後、機械学習により、質問に合った回答ができるようになり、急速にチャットボットのサービスが増えました(Siri、Arexaなど)。
しかし、従来の機械学習型のチャットボットの多くは「ある質問に対してはこういう回答が多い」という大まかな傾向に基づいて回答を作っていました。

ChatGPTは、Transformerという技術を取り入れることで、従来のチャットボットよりも非常に高い精度で言語処理を行えるようになりました。

Transformer
与えられた文章中の単語同士の「意味的な関係性」を学習することができるプログラム

企業や自治体などがChatGPTを導入するケースが増えています。
OpenAIは、2023年3月からGPTを企業や自治体でも使えるようにする機能(API連携)を提供しています。
それにより、自社専用の対話AIを開発して、機密情報を扱ったり社内の規則やマニュアルを学習させたりすることも可能となりました。

また、ChatGPT自身にもさまざまな機能が追加されています。
2023年9月には、画像認識の機能(GPT-4V)を発表しました。入力された画像を認識し、様々なタスクを実行できます。音声認識発話機能も同時に追加されました。

生成AIの技術はChatGPTにより広く知られるようになりましたが、実は文章生成AIよりも画像生成AIの方が先に注目を集めていました。
画像生成AIは、これまで世の中に存在しなかった新しい画像を生成する技術です。
OpenAIがDALL・E、DALL・E2を発表し、その後アメリカのベンチャー企業がMidjourney、イギリスのベンチャー企業がStable Diffusionを公開しています。
このなかで特に注目されたStable Diffusionはオープンソースで公開されているため、新しいサービスが次々に開発されました。2022年は画像生成AI元年とよばれることもあります。
2023年9月にはOpenAIがDALL・E3を公開し、ChatGPTに搭載しています。

オープンソース
AIなどのシステムをつくるために必要なプログラムや学習のデータセットを公開し、だれでも自由に開発に使えるようにすること

Step2 ChatGPTを使ってみよう

ChatGPTから思い通りの回答を得るためには、回答の条件を細かく指定することが重要です。
プロンプト(指示)に背景情報(質問者の状況)、条件情報(回答の条件)、オープン・クローズド情報(アイデアをたくさん得たいのか、的確な答えを得たいのか)を盛り込みます。

ChatGPTは単体でできないこと拡張機能を用いることで補完できます。
ネットの情報をリアルタイムで得ているわけではありませんが、web browsingという拡張機能により、インターネットの情報を参照して最新の情報についても回答できるようになります。
また、プラグインという拡張機能により、企業が開発したサービスをChatGPTと連携できます。

自身のスマートフォンやPCでChatGPTが作動していると考えがちですが、実はwebサイトやアプリはChatGPTのインターフェースになっているにすぎません。
ChatGPTのようなAIの作動には巨大なGPUが必要であり、マイクロソフト社のクラウドコンピューティングサービスであるMicrosoft Azureの中で動作しています。
Microsoft Azureのある世界31カ国のデータセンターのうち、ChatGPTがどこで動いているかは公表されていません。

クラウドコンピューティングサービス
高性能のコンピュータをインターネット経由で利用できるサービス

ChatGPTは大量の電力と冷却水を使うので、今後資源について考えていくことも大切です。

2時間目 ChatGPTを支える技術

Step1 AIの急速な進化をもたらしたディープラーニング

1947年にロンドンの学会で数学者・コンピュータ科学者のアラン・チューリング(1912-1954)が知性をもった機械についての発表をしました。AIの概念はこのときに提唱されたといえるでしょう。

1956年アメリカのダートマス大学で開かれた研究会議でジョン・マッカーシー(1927-2011)が人と同じように考える知的なコンピュータのことを「人工知能」と呼びました。

その後3度の大きなAIブームが訪れます。

ぶき
ぶき

AIブームについては、松尾豊先生の著書「人工知能は人間を超えるか ディープラーニングの先にあるもの」にも詳しく書かれています。

  • 第1次AIブーム(1950年代〜1960年代):コンピュータで推論・探索を行い、特定の問題を解く研究が進んだ。
  • 冬の時代:現実の複雑な問題が解けないことが明らかになり、研究が停滞。
  • 第2次AIブーム:コンピュータに知識を持たすことでつくられる「エキスパートシステム」により、医療や金融サービスなどの現場で、実用的なシステムが作られた。
  • 冬の時代:知識を完全に記述・管理することの大変さと限界が見えてきたことで、研究が停滞。
  • 第3次AIブーム:コンピュータの進化とともに、大量のデータを用いた「機械学習」が発展。また「ディープラーニング」という手法で画像認識や音声認識の精度が飛躍的に上がった。

ディープラーニングとは、AIに学習をさせるしくみ(機械学習)の一種です。当初、画像認識の分野に革命的な性能向上をもたらしたこで注目されました。
ディープラーニングを画像認識に用いる利点は、画像に含まれる特徴をAI自身が見つけだせることです。
画像認識だけでなく、自然言語処理の分野にも革命をもたらしました。

自然言語処理
プログラミング言語ではなく、人間同士が日常的に使っている言葉(自然言語)をコンピュータに処理させる技術。言語モデルを使って文章を生成する。

言語モデル
人間の言語を理解するための一連のプログラム(AI)のこと。
ある単語の次にどんな単語がきやすいのかを判断し、文章を出力できる。

ディープラーニングは人間の脳のしくみを手本に開発されました。
神経細胞はシナプスを介して信号を伝達していきますが、その働きをコンピュータ上で再現したのがニューラルネットワークです。
ニューラルネットワークは人工的な神経細胞(人工ニューロン)がつながったようなものといえます。

ニューラルネットワークのうち、特に沢山の人工ニューロンを何層も重ねてつくったものがディープラーニングです。
私達が物事を学習する時、脳では神経細胞同士のつながりの強さが変化します。
ディープラーニングに大量のデータを与えて学習を行わせると、人工ニューロン同士の結びつきの強さが変化していきます。これを重みづけといいます。

たとえば画像認識AIでディープラーニングの仕組みを見てみると・・・
・はじめの層の人工ニューロンが輪郭の直線などの単純な形を判別し、次の層に情報を伝える
・次の層では、単純な形を組み合わせた少し複雑な形を判別
・層をへるにしたがって、少しずつ複雑な特徴を判別するようになり、最終的に画像に写っているものが何かを判別する

Step2 ChatGPTを生んだ革新技術Transformer

ChatGPTを誕生させる源となったのは、Transformerというディープラーニング技術の一種です。

Transformerは、文章中の単語同士の関係を広く把握し、どの単語が意味的に近いのかを理解するための技術です。Transformerは、自己注意機構により、文章を頭から順に処理する必要がなく、長い文章の離れた単語同士の意味的な結びつきも正しく理解することができます。

GPTをはじめとする言語モデルでは、文中の単語を処理するために、単語をベクトルに変換します。
自己注意機構では、ある単語ベクトルに対する他の単語ベクトルの内積を計算して単語同士の距離を測ります。

自己注意機構
学習するデータのどの特徴に注意を向けるかを学習する仕組み
単語と文章中に存在するそれ以外のすべての単語の関係性をはかる機構

Transformerは、画像認識や音声認識でも利用が進められています。

画像を入力データとした場合には、まずその画像をパッチという小さな区画に分けます。画像をパッチの連続とみなし、パッチをベクトルに変換することで処理できます。
音声では、時間や周波数、音の強さで表した音声データをグラフ化し、スペクトログラムという画像データにし、それをパッチに分割すればTransformerが使えます。

自然科学、とくに生命科学でもTransformerが活躍するようになってきています。
タンパク質やDNA、RNAの分析をTransformerで行うことができます。

ChatGPTはTransformerを基礎にして開発された対話サービスであり、GPTのTはTransformerです。

Transformerを備えたChatGPTは、大量の文章データを穴埋め問題にして学習(教師なし学習)しました。この自動で行われる事前学習の後に、人が作ったデータを用いて微調整(ファインチューニング)を行いました。

ChatGPTのファインチューニングは、教師あり学習、報酬モデルの学習、強化学習の3ステップで行われます。

  1. 教師あり学習では、人が問題と回答のセットを作る
  2. 報酬モデルの学習では、人が「報酬モデル」を教育して教師役になれるようにする
    人がGPTの回答を①正しいか②人を傷つけないか③ユーザーのタスクを解決できるかで評価する
  3. 強化学習では、GPTの回答を報酬モデルに評価させる

強化学習は脳の報酬系をモデルに開発されました。
このように従来、AIの研究は生物の脳の仕組みをモデルにし、そこに数学の確率論や微分積分などを使って数理モデルを作ることで研究を進めていました。
しかし現在では、数理モデル自体の研究が進み、脳を模倣しない方がより効率的に計算が進むという考え方もあります。

これまで、学習データ量に対してパラメーター数が大きすぎると、AIの予測精度が逆に低下することが知られていました(過学習)が、GPTはパラメーターの数の増加とともに予測精度が向上しています。
このパラメーターの数が増えるほどAIの性能が上がることをスケール則といいます。
GPTでスケール則が成り立つ理由にはいくつかの仮説が提唱されています。

パラメーター
AIの計算に関連する変数。言語モデルの規模を表す数。

神経細胞のネットワークの研究から発展してきたAIは今、逆に脳の謎に迫るためのモデルとしても利用されています。
オックスフォード大学の研究チームは、海馬の神経細胞の発火と一致するパターンをTransformerで作り出すことに成功しました。

前編のまとめ

いかがでしたでしょうか。以上が「文系のための東大の先生が教えるChatGPT」の要約・前編となります。割愛した部分も多いので、ぜひ原著を御覧ください。

後編も引き続きお楽しみいただけると幸いです。
後編はこちら👉️https://www.obgyneng.com/chatgpt-book-summary2/

\ 他にも様々な分野の本を要約しています /

忙しくても「専門以外のことは分からない!」
ということにならないような本を厳選して要約しています。

タイトルとURLをコピーしました