「人工知能は人間を超えるか」個人的まとめ

松尾豊先生の "人工知能は人間を超えるか" を読んだので、備忘も記憶に残った部分を兼ねてまとめ。 あくまでも要点のみをまとめた自分用の文章ですので、興味をもった方はぜひ読んでみてください。

 

 

何が書かれている本か

昨今話題になっている機械学習(特にディープラーニング)を、より広い人工知能研究の観点から、歴史的な大きな流れに沿って説明されている。機械学習の話しはややもすると技術的な込み入った話しが多くなってしまうが、文中では平易な言葉遣いで分かりやすく説明されている。いまでこそ人工知能分野が注目を集めているが、歴史的には投資の集まらない冬の時代も経験しており、その時代を経験した悲哀や、それでも人工知能技術の実現を目指す思いが度々感じられた。

序章 広がる人工知能人工知能は人類を滅ぼすか

機械学習プログラムがチェスや将棋で世界トップレベルのプレイヤーを破ったり、IBMのワトソンが医療やクイズ、料理の世界に進出したりと、近年では人工知能技術が様々な分野に広まってきている。ハードウェアとの融合も進んでおり、グーグルでは自動運転で100万マイルの走行テストを実施している。自動運転技術が実現すれば市街地の30~50%を占める駐車場の削減や、交通渋滞の解消にも役立つとのこと。日本のソフトバンクの「Pepper」もハードウェアと人工知能の融合の事例である。チェスや将棋、Pepperの例はニュースなどでも目に付きやすいものだが、自動運転技術が土地活用に役立つのは初めて知った。

インターネットではすでに人工知能技術が普及しており、スパムメールのフィルタリングやネット広告の最適化、金融取引の自動化などに活用されている。金融取引では90%の取引がコンピュータによって行われており、人が太刀打ちできないナノ秒の戦いになっている。

人工知能技術開発への投資も活発化している。

  • グーグルがDNNリサーチ社を買収
  • 同じくグーグルのデープ・マインド・テクノロジー社の買収(4億ドル)
  • フェイスブックは世界3箇所に世界最大の研究施設拠点を開設
  • バイドゥはデープラーニング研究に3億ドルを投資
  • IBMはワトソンの事業化に10億ドルを投資
  • 日本では、ドワンゴ人工知能研究所を開設
  • 同じく日本のスタートアップのプリファードネットワークスはNTTから2億円を調達

一方で、人工知能技術が発達するにつれて人工知能が人の仕事を奪うのではないかという懸念や、シンギュラリティに関する脅威論が出てきている。この本の中でのシンギュラリティは下記のように定義されている。

人工知能が十分に賢くなって、自分自身よりも賢い人工知能をつくれるようになった瞬間、無限に知能の高い存在が出現するというもの


第1章 人工知能とは何か―専門家と世間の認識のズレ

この章では、「人工知能とは何か」ということについて、専門家とそれ以外の人の認識のズレを解説している。

 人工知能に関する世間的な認識はすでに人工知能が実現しているというもので、その認識は人工知能学者とはズレがあるのだが、その要因のひとつとして、巷にあふれる「人工知能を搭載していると謳うサービスや製品」がある。一方、人工知能の専門家の間での一般的な認識としては、本当の意味での人工知能、つまり「人間のように考えるコンピュータ」はまだ実現されていないと考えられている。

そもそもの人工知能研究とは、人間の脳の活動の全て、すなわち思考・認識・記憶・感情を再現することであった。その発想の根底には、神経細胞の情報伝達の原理をコンピュータで再現できれば、人間の思考も再現できるだろうという考えがある。

人工知能とは、広くは下記のように定義されている。

入力(人間の五感にそうとうする「センサー」により観測した周囲の環境や状況)に応じて、出力(運動器官に相当する「アクチュエーター」による動作)が変わるということ

さらに細かく見ていくと、下記のレベル1からレベル4までの形で世の中では人工知能が認識されている。

  • レベル1:エアコンや掃除機、洗濯機などに組み込まれている簡単な制御プログラム
  • レベル2:将棋やパズルなど、入力と出力の関係のノウハウが蓄積されている古典的な機械学習
  • レベル3:検索エンジンビッグデータをもとにした自動検知など、機械学習を組込んだシステム。最近はこのレベルのものを人工知能と呼ぶことが多い
  • レベル4:機械学習の特徴量自体を自動学習するモデルが使われているもの。ディープラーニングはこれにあたる

また、人工知能には「強いAI」と呼ばれるものと「弱いAI」と呼ばれるものがある。強いAIとは意識を持ったもので、弱いAIというのは、意識は持たずに一見知的な問題解決ができるものである。なお、本文内では意識について下記のように書かれている。

自分が考えているということを自分で分かっているという「入れ子構造」が無限に続くこと、その際、それを「意識」と読んでもいいような状態が出現するのではないかと思う。


第2章 「推論」と「探索」の時代―第1次AIブーム

2章では将棋やチェスをメインに人工知能技術の発展の歴史が紹介されている。 

これまでに人工知能ブームは2度あり、現在の人工知能への盛り上がりは第3次人工知能ブームといえる。推論・探索の時代の第1次ブーム、知識の時代の第2次ブーム、そして第3次ブームは機械学習と特徴表現学習の時代といえる。この章では1960年代の第1次人工知能ブームについて紹介されている。

まずは探索について。探索木の手法はこの時代に確立されている。探索木には「深さ優先探索」と「幅優先探索」があり、「深さ優先探索」ではとにかく行き止まりまで掘り下げていき、「幅優先探索」では同じ階層を全て調べてから次の階層に進むようになっている。

探索を使った、オセロやチェス、将棋などのゲームへの挑戦も行われている。これらのボードゲームの難しいところは、相手がいることによって探索すべきパターンがとても多くなることだ。そのパターンは囲碁では10の360乗通りになり、これは観測可能な宇宙全体の水素の数である10の80乗通りよりもはるかに多い。これだけの組み合わせを全て探索することは現実的に不可能なので、盤面を評価するスコアを作り、そのスコアがよくなるように探索をすることで、探索のパターンを節約している。この方法では、例えば将棋の場合には、王手であればマイナス10点や、王の周囲8マスに角か飛車がいればマイナス8点、といった感じで評価をする。

これらのプログラムはプロを破るほど進歩しているが、その大きな要因として、より良い特徴量が発見されたことと、モンテカルロ方が採用されたことがある。特徴量とは、上記の評価基準のこと。モンテカルロ方では、上記のような評価方法も利用されているが、ある程度まで局面が進んだ段階で特徴量を放棄して、ランダムに手を進めていき、その手が勝利した割合で評価するようになる。

人工知能が将棋やチェス、囲碁では人間以上の強さを発揮するようになった一方、これらのプログラムは非常に限定的な状況でしか効果を発揮しないものであった。ニューラルネットワークの限界に対する誤解が広がったことや、米国政府が機械翻訳の実現は当分先だという報告書を出したことにより、第1次ブームは1970年代終わり、人工知能研究は冬の時代を迎える。


第3章 「知識」を入れると賢くなる―第2次AIブーム

この章では第2次ブームについて紹介されている。1980年代の第2次ブームでは知識をベースとした人工知能が活躍した。

第1次ブームの時に作られた対話システムのIRAIZAは、知識ベースのプログラムではなかったがあたかも知的に振る舞うことができた。ただし、IRAIZAは例えば、「XXX」という文字列があった時に「なぜXXXと言うの?」と返すという簡単なルールをベースとしていたため、ルール外の文言への対応力は高くなかった。

その後の第2次ブームでは「エキスパートシステム」が発展した。エキスパートシステムは、IRAIZAのようなルールに加えて、その分野の専門知識を取り込むことで、あたかもエキスパートのように振る舞うプログラムである。

有名なエキスパートシステムの1つに、スタンフォード大学で1970年代初めに開発されたMYCINがある。MYCINは血液疾患患者に適切な抗生物質を提示するシステムである。MYCINはif文によって検査手法や細菌を特定するプログラムである。69%の確率で処方をおこなうことができ、専門外の人よりは精度が高く、専門家(80%)よりは低い精度であった。そのほか、生産・会計・人事・金融などさまざまな分野でエキスパートシステムがつくられた。

一方でエキスパートシステムには課題もあり、専門知識の蓄積の手間がかかったり、ルールが増えすぎるとお互いに矛盾したり、あいまいな症状に診断を下すことが難しかったりした。「ムカムカする」といったあいまいな症状を診断するには「胃」や「小腸」といった常識的なレベルの知識が必要になり、この常識的なレベルの知識というのがプログラムにとってはハードルが高く第2次ブーム次のエキスパートシステムでは実現が難しかった。

 

このようにエキスパートシステムによって人工知能技術の活用は進歩したが、機械翻訳のように意味を理解することは難しい。文章にはいくつかの解釈が可能な場合が多く、正確に解釈を見つけ出すには状況や文脈の判断などの一般常識が必要になるが、この一般常識がコンピュータには難しい。この一般的な知識獲得のハードルを「知識獲得のボトルネック」という。また、コンピュータにとって難しいことの1つに、「関係のある知識だけを使うこと」があり、これをフレーム問題という。

 また、コンピュータにとって難しい別の問題にシンボルグラウンディング問題がある。シンボルグラウンディングとは、記号と意味を紐付けることで、例えば人間であれば、予めシマウマの特徴を聞いていれば、初めてシマウマを見たときにも「あれがシマウマだ」と分かるかもしれないが、これはシマウマについての記号と意味の紐付けができているからこそ分かることでsる。

こういった問題から人工知能研究に限界があると考えられ、1995年ころには第2次ブームは去り、人工知能研究は再び冬の時代を迎える。 


第4章 「機械学習」の静かな広がり―第3次AIブーム1

第4章では、機械学習が技術的に何をしているかが、いくつかの方法を例に紹介されている。その後、機械学習の中で、人工知能を実現するために技術的に何がボトルネックになっているか解説されている。

2000年代半ば以降第3次ブームでは、第2次ブームまでに確率されていた機械学習の基盤技術が、ブラウザやグーグルの検索などのウェブ技術の発展の後押しを受けて大きく発展している。特に、ウェブページのテキストを扱う事ができる自然言語処理はウェブの恩恵を受けている。

機械学習の技術は基本的にはデータを分類しており、それは、生物が世界を食べられる・食べられないや、敵・味方で分類するのと同じ原理である。機械学習は大きく教師あり学習教師なし学習に分けられる。教師あり学習では入力と正しい出力がセットになった訓練データを使ってモデルを構築していく。一方、教師なし学習は、入力用のデータから一定のパターンやルールを抽出する。

機械学習の手法として、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシーン、ニューラルネットワークが紹介されている。すこし復習を兼ねてナイーブベイズ法について。ナイーブベイズ方では、例えば、「与党」というワードが含まれる確率を、「政治」「スポーツ」のジャンルごとに出す。その比率が10:1の場合には、log(1/10)を政治カテゴリに追加する。つまり、含まれる比率の差が大きいほど、プラスが加えられる。同じく復習を兼ねてニューラルネットワークについて。ニュラールネットワークでは、入力層の値に重み付けをして、出力層の値を得る。それをシグモイド関数に通して、出力値(確率)を得る。28*28ピクセルの手書き数字の識別では、入力層と出力層は784個づつになる。アルゴリズムが良かったのか、データが良かったのかが分かるように、機械学習研究ではエムニストのような共通のデータセットを使う場合が多いとのこと。なお、学習には時間がかかるが、推測には時間はほとんど時間はかからない。

機械学習の研究では、「特徴量設計」のハードルが高い。例えば、上記の手書き数字の例では、ピクセル単位の画像が特徴量(素性)として用いられている。

これまでの機械学習の研究では、特徴量を人間が設計しなければいけない、ということが人工知能を実現することのボトルネックになっていた。これは、本質的には物事の概念を理解するということで、概念はシニフィエ、そのラベルはシニフィアンと言われている。つまり、第3次ブームの初期には、ウェブの発展によって大量の学習データを取得することができて、かつ、機械学習の技術的な基盤もできているが、特徴量を設計するのが難しいことがボトルネックになったのである。


第5章 静寂を破る「ディープラーニング」―第3次AIブーム2

第5章では、ディープラーニング人工知能研究にもたらしたインパクトを、原理や有名なグーグルのネコを例に解説している。

 ディープラーニングは多階層のニューラルネットワークである。ディープラーニングが従来の機械学習と大きく異る点が1つあり、1つが1層ずつ階層ごとに学習していく点、もう1つが自己符号器(オートエンコーダー)という情報圧縮器を用いる点である。

自己符号器では入力と出力に同じデータを用いることで、より情報量の多い特徴量を見つけ出すことだできる。ここでは、情報量という概念について、全国の天気をあてるクイズを例に説明がされている。例えば、1人に全国の天気の全データを渡して、そのデータを受け取った1人は、もう一人に10個だけデータを渡せるとする。その時に、単に10個の都道府県をランダムに選んで渡すのではなく、自分で10個のエリアを作り、そのエリアの天気の平均を渡すことでより効率的にデータを伝達できる。これが情報量がおおいということである。ディープラーニングでは、まず隠れ層が1つあるモデルを利用する。その隠れ層には特徴量ができる。次に、その隠れ層で抽出された特徴量を自己符号器に通す。それを繰り返していくと、特徴量からさらに特徴量を抽出することができ、情報量が上がっていく。

事故符号器により特徴量を獲得した有名な事例として、グーグルの猫がある。この研究では、ユーチューブの動画から取り出した1000万枚の画像をディープラーニングに通すと、人間の顔や猫の顔といった概念が獲得された。なお、特徴量の抽出は本来的には教師なし学習であるが、ディープラーニングでは部分的に教師あり学習的な方法も使っている。つまり、プログラムが獲得した、猫の顔の概念に「これが猫の顔ですよ」と教えるのが教師ありの部分である。

ディープラーニングでは、このように概念を学習させていくが、その時に、ちょっと違ったデータから学習をさせていくことで、より確からしさの高い、頑健性の高い特徴量を獲得させることができる。


第6章 人工知能は人間を超えるか―ディープラーニングの先にあるもの

この章では人工知能研究の現在の段階と今後の展望が記載されている。研究をレベルが上がるについれて、①〜⑥の段階に分けている。

①と②の段階ではマルチモーダルなデータを使った抽象化が可能になり、例えば、鳴き声や肌触り、見た目などのさまざまな情報を組み合わせて「ネコ」というものを認識できるようになる。次の③の段階では、ものを掴んだり話したりといった行動と結果、つまり原因と結果という因果関係を理解できるようになる。ディープ・マインドのブロック崩しインベーダーゲームの学習でもはこのレベルの学習をしている。④の段階では行動を通じて特徴量を獲得できるようになる。これは、著者がよく使う例として、素数の例が記されている。素数は「1から順にその数字を割っていって、1とその数字でしか割れなかった」という一連の行動の結果として定義される。また、例えばコップが割れやすいかどうかや、ゲームが簡単か難しいかどうかといった抽象的な概念もコンピュータが学ぶようになる。④の段階までに様々な概念を獲得することで、⑤の段階では言語を獲得する準備が整う。例えば、あらかじめ獲得しておいた「ネコ」という概念に「柔らかい」や「ネコ」、「にゃーと鳴く」という概念をや言葉を紐付ければ良いのである。これは、概念と記号表記を紐付けることなので、シンボルグラウンディング問題が解消されることになる。このように概念と言語(表現記号)を紐付けて理解することができるようになると、最後の⑥の段階では膨大な本やウェブの情報をコンピュータが理解できるようになり、例えば、「望遠鏡で覗くのは男の方が多い」ことを理解できるようになるかもしれない。このような段階において、ディープラーニング本当に凄いところというのは、主に画像を対象として特徴量表現ができる、というよりは、特徴量表現を通してさまざまな概念を獲得できるところにある。

⑥の段階まで進んでも、機械が人間と同じように「本能」を持つことはおそらくない。人間であれば生きるために必要な睡眠や社会的な行動に「快」を感じるが、それは機械にとっては必ずしも同じ意味を持たないため、異なる尺度で物事を図るだろうということである。一方、想像性の獲得に関しては、特徴量の獲得という日常的なレベルの創造性も、試行錯誤の末に社会の誰も考えていないものを作る社会的なレベルでの想像性も、機械を持つことができるだろう。

この章では、知能の社会の中での役割についても記されている。人間の社会がやっていることは、現実世界のものごとの特徴量や概念を捉える作業を、全員でやっていると言い換える事ができる。伝統的な企業で言えば、階層構造が上がるにつれて、より抽象度の高い見方をするようになる。

また、本章でシンギュラリティ(機械が人間を支配するという意味合いのもの)の実現性についても触れられているが、①機械が自分の体の材料となる鉄などを調達するのはハードルが高い、②ウイルスのプログラムになるにしても、巨大なものを他の人に気付かれずに試行錯誤して作るのは不可能でる、③人工的な生命に知能を持たせるのは、知能の出現に数億年がかかることを考えると現実的でない、などの理由で現実性が低い。

最後には、人工知能による富の再配分に関する問題や、性質的に独占しやすいことをどうするかなどについて書かれている。


終章 変わりゆく世界―産業・社会への影響と戦略

第3次AIブームでは、各産業への人工知能技術の発展が進んでいる。

人工技術の発達に伴って、社会の様々な分野に機械学習が応用されていくことになる。それぞれの段階でまずは研究が先行して、その後ビジネスとして応用されることになるのだが、分野ごとに機械学習技術を応用する際に注意が必要であったり、人間の仕事と協調して部分的に適用されることが望ましいことがある。例えば、人間の行動履歴をたどる場合には、これまではあまり議論されてこなかった「忘れられる権利」や「見逃される権利」「警告を受ける権利」などが必要になるかもしれない。また、弁護士の仕事では書類の整理や過去の凡例の調査などは人工知能が得意とするところであるが、情緒的な面に関しては人の顔を見て対応をして貰ったほうが良い面もあるかもしれない。

次に、機械学習の発展による社会の仕事の変化が記されている。著者は、「人工知能が人間の仕事を奪うかどうか」という点に関しては、かつて耕作機の発展によって田畑を耕すことは減ったものの、耕作機を操作する人間や収穫物を販売する人間が増えた事をひきあいに、人工知能によって仕事の内容は変わるものの、人間の仕事がなくなるはないとの立場を取っている。

人工知能のビジネスに対する適用に関しては、現段階では画像認識と音声認識が現時点で最も機械学習の提供が進んでいる分野である。グーグルやフェイスブックのように機械学習が収益につながる企業は多くなく、それが機械学習人材の集中に繫がっている。著者は文中で人工知能を「知識のOS」と表現しており、その影響力の大きさと、機械学習技術が性質的に独占されやすいことをしてきしている。OSであればトランスコンパイルすることもできるが、機械学習技術では学習済みのモデルだけを提供されれば、学習途中のロジックを知ることは現実的に不可能となってしまう。