「AIには何ができないか」個人的メモ
AIには何ができないか
第1部 コンピューターはどうやって動くのか
第1章 ハロー、読者のみなさん
著者のキャリア
- Meredith Broussard sさん
- 子供の頃にロボットを組み立てたのが技術的な好奇心のスタート
現実のテクノロジーは想像には及ばない
機械は壊れる
ことを経験する- 1991年9月からハーバード大学でCSを学び始める
- ロボット作成の経験から、
テクノロジーが世界を救う
という希望だけの論調に懐疑的 - インターネット世界ができていくのを大学の量で体感する
- 数万人いた学生の内、CSの女性は2名のみでジェンダーの壁を感じて専攻を変更
- 卒業後、データサイエンティストの職につき、その後、データジャーナリストに
- ジャーナリストとして、
ものごとを疑ってかかる
ことを学ぶ
データジャーナリズムについて
数字をの中にストーリーを見出し、数字を使ってストーリーを語る仕事
- らしい
- この本自体も、データを織り交ぜなから極力客観的に書こうとしているぽい
- Meredith はテクノロジーに期待されていることと、実際にできることにズレを感じている
- この本は、
テクノロジーにできることの限界を理解するためのガイド
という位置づけらしい - 「技術至上主義(テクノショービニズム)」に警鐘を鳴らしたいらしい
- テクノショービニズムには、
テクノ自由至上主義
ハラスメントを認識しない言論の自由への称賛
などが含まれる
この本の構成
- 1~4章では、コンピューターがどうやって動作するか基本的なことの解説
- 5章では、アメリカの教育において、なぜ生徒を標準テスト(SAT)に合格させられないか
- Meredith が体験した話しを交えて
- 6章では、コンピューターの歴史の解説
- 7章では、機械学習の基礎的な部分について解説
- 8章では、自動運転の実現の難した
- 9章では、機会学習における「ポピュラー」と「良い」の混同について
- 10, 11章では、機械学習をつかった Meredith さんのプロジェクトについて
第2章 ハロー、ワールド
- Python で 'Hello World!!' する方法や、コンピューターのハードの説明
- 基本的なことが多いからけっこう飛ばした
第3章 ハロー、AI
汎用型AI
と 特化型AI
- 機械学習の基本的な部分の解説
汎用型AI
と特化型AI
の違いについて- 「新スタートレック」や「2001年宇宙の旅」に出てくるロボットは
汎用型AI
- 多くの人はAIと聞くと、
汎用型AI
を想像する - Meredith さんは、
汎用型AI
を想像上の存在
ハリウッド的なAI
としている 特化型AI
は予測のための数学的手法
特化型AIは、既存のデータセットを分析し、そのデータセット内のパターンや確率を明らかにし、そうしたパターンや確率をモデルと呼ばれる計算論的な構造物に体系化することによって機能する。
AlphaGo がどうやって動いているか
- AlphaGo も特化型AI
- オンライン上にある、膨大な対局データを学習させて作られた
- すべてのデータは人が何かしらの形で集計に関わっている
- AlphaGoの場合は、人が対局した記録が教師になっている
めっちゃおおまかには下記の流れで動いているらしい
3000万局の中から、もっとも価勝ちにつながる可能性の高い手を選ぶ
- その一連の手の中から1手を選ぶ
別のアルゴリズムでは、手の勝率を計算する
AlphaGo はプログラムとしては素晴らしいが、意識を持たない特化型の AI
Alexa
- 音声型インターフェースも、いっけん知性があるように見えるが、知性はない
- 言語を理解している訳ではなく、音のシーケンスをコマンドとして理解している
章の締め
- 特化型 AI には、「機械の中のゴースト」があるわけではない
あるいは、大いに喜び、人工デバイス(コンピュータ)と真に知的な存在(人間)とが協力して仕事をしたときに何が可能になるかを、進んで受け入れることもできる。わたしの好みは、後者のアプローチだ。
第4章 ハロー、データジャーナリズム
- 計算社会科学、計算生物学、計算科学などあらゆる分野でコンピュータの使用があたりまえになった
- ジャーナリストもハイテク化が進んでいる
- 報道の分野で技術を活用している人は
データジャーナリスト
を自称している
インフレーションの細かいパーツすべて
- アメリカ人の出費がタイル状にビジュアライゼーションされている
- オーストラリアの干ばつが北米の卵の価格の上昇にどのように繋がっているか相互関連の理解を助けてくれる
アトランタ・ジャーナル=コンスティテューション
- 患者に性的虐待を与えた医師についてのレポート
- ジャーナリストが自らデータを収集して分析している
- 1999 - 2015年に医師に出された懲戒処分に関連する、医事委員会の10万件以上の命令を分析している
サン・センチネル紙
- 警察の車のスピード違反を暴露
アルゴリズムの説明責任報道
- アルゴリズムの説明責任報道を追求するのもデータジャーナリストの仕事
- 説明責任報道の有名な例が
プロパブリカ
による機械のバイアス
- アメリカの裁判所の量刑判断にはアルゴリズムが使われている
- このアルゴリズムにはアフリカ系アメリカ人に不利になるバイアスがある
- 元のデータに偏りがあったためにこうなった
ガーベジ・イン・ガーベジ・アウト
の原則
第2部 コンピューターには向かない仕事
第5章 お金のない学校はなぜ標準テストで勝てないのか
けっきょく教科書を読むのが一番いい
- Meredith さんは、息子の宿題を手伝っていた時に、自宅で教科書の中身を確認する方法がないことに気づく
- 人工知能ソフトウェアを開発して、教材データを収集した
- 教師や生徒と話し、いくつかの学校を回って、生徒がテストを突破するには、教科書を読むのが一番いいと気づく
アメリカの教育評価制度
- アメリカの標準テストは、CTBと呼ばれるマグロウヒル、HMH、ピアソンの3社が作っている
- HMHの2013年の収益は13億8000万ドル
- テストの採点は、本質的な部分よりはCBTによって設定されてた基準になっている
- 幼稚園〜高3までの教科書は、教師が生徒に与えることになっている
- Meredithが調べたところ、学校は必要な冊数の27%しか持っていなかった
- 少なくとも10校が1冊も教科書をもっていなかった
- 教科書の管理システムの問題もあり、ある学校ではシステム上は0冊だが、実際には24冊以上の教科書があった
人間が原因となる問題
- Meredithは、システムにデータが入っていないのを人間の問題として捕らえている
- AlphaGoの章にもあったように、
すべてのデータは人が何かしらの形で集計に関わっている
- フィラデルフィアでは、学区の責任者から各校に年度始まりに教科書のリストが送られていた
- そのWordファイルにはチェックボックスがあり、学区側では目録の管理はしていない
- 全学区を網羅した電子システムがあるはずだが、それは使われていないみたい
- 上記のWordを受け取り、エクセルで管理しているが、そのエクセルは共有されていない
- このやり方によって、各校のもっている教科書の管理ができなくなっている
ビル・ゲイツの工学的なアプローチ
- ビル&メリンダ・ゲイツ財団は、学区ごとの教育の違いの是正に取り組んでいる
- アメリカの全州共通のコアスタンダードの導入を進めた
- 設計図にしたがって進めていく工学的なアプローチだが、うまくいっていない(?)
- Meredithさんによると、教育は社会問題の側面が多い
- 政治や活動家、教育委員会により、工学的なアプローチだけではうまく物事が進まない
第6章 人間の問題
テクノロジーと社会の関わり
- 教育と技術界隈は少数の人の影響を強く受けながら発展してきた
- 技術システムの設計にも少数の信仰がこびりついている
自宅でのプライバシーを侵害したドローン
- 2016年に初めてストリーミング・ビデオ技術を搭載したドローンが発売された
- ボッグズというアメリカ人がメリデス家の庭の近くまで飛ばした
- メリデス家の父親は銃でドローンを銃で撃ち落とし、ボッグズとトラブルになった
- プライバシーの侵害をしたのはボッグズだったが、銃を持っているという理由でメリデスが逮捕された
- Meredith はプライバシーの保護が事前に検討されたなかったことを批判している
Tay
テックコミュニティーの 媒介者
マーヴィン・ミンスキー
- MIT の教授をつとめ、一般的に人工知能の父として知られているのがミンスキー
- ミンスキーの周りには独島のコミュニティができており、自宅の2階にはつねに誰か知り合いが住んでいた
- 大学院生であったり、単に手紙でやりとりしたことがあるだけの人もいた
- ミンスキーの共同研究社のジョン・マッカーシーがダートマス大学で人工知能の学会を開催した
- その後、人工知能研究所を創立し、これが MTI メディアラボになる
- ミンスキーのゆるやかなエリート集団は、政治や学界や産業界、ハリウッドにまで広がっていた
- SF作家のアーサー・C・クラークもミンスキーとの議論からHAL9000を生み出している
コンピュータの先駆者アラン・チューリング
- アラン・チューリングはミンスキーと同じプリンストン大学で論文を書いている
- チューリングは気難しく、社交性のない人間だった
- いったん親しくなった人によっては愉快で面白い人間だったが、基本的には人付き合いが苦手だった
- チューリングの表面的な部分よりも人間的な部分を重視する点は良い点でもあるが
- 社会的習慣よりも数学的能力を重視するという欠点でもあった
計算の歴史
教育機械が白人男性に限定されていた時代
- 計算手が限られていた時代、働き手は白人男性に限られていた
- 女性は投票権も認められていなかった時代で、数学の教育を受けた人はごく少数だった
- アフリカ系アメリカ人は教育の権利が認められていなかった
- Meredith はいまだに教育へのアクセスは平等にはなっていないと考えている
第7章 機械学習――ディープに学ぶ
テクノロジーに多様性を取り込むためには
- 5章で書かれていたように、いまのテクノロジーは少数のバイアスが反映されている
- 公平なテクノロジーを実相するためには、今よりも多様な意見を取り入れる必要がある
- 問題点は、テクノロジーには正確に理解するのが難しい側面もある
- ランドール・マンローのオンライン漫画で公開されいてる例
- 写真が国立公園で撮影されたか判断するのはGISで簡単に判断できるが、写真に取りが写っているかの判断は難しい
- こういった、簡単にできることと事実上不可能なことの判断は、AIにおいても難しい
- そのため、テクノロジーを正確にわかりやすく伝える人(たとえばデータジャーナリスト)が必要になる
テクノロジーの理解を難しくするもの
- JavaとJavaScript(両方ともコーヒーが語源になている)など、概念と名称が一致していないものもおおい
機械学習
という言葉も、機械が学習する
というニュアンスのために、言語的混乱を含んでいる
機械学習がどういうものか
- 機械学習が言語的には新しいもののため、コンセンサスが取れておらず色々な定義がある
- Meredithさんのおすすめが、カーネギー・メロン大学のトム・M・ミッシェルの定義
われわれが特定のタスクT、性能尺度P、ある種の経験Eについて機械が学習すると呼ぶのは、そのシステムが経験Eののちに、タスクTにおいてパフォーマンスPを確実に向上させる場合だ。われわれがT、P、Eをどのように規定するかに応じて、この学習タスクは、データマイニング、自律的発見、データベース更新、例示プログラミングなどの名称で呼ばれる。
- この定義からも分かるように、機械学習における学習は
知性を意味しない
機械学習の種類
機械学習が動作するフロー
- 機械学習が作られるおおまかな流れが、データ例含めて説明される
- タイタニックの乗船客の生存率の予測が、背景含めて知っている人が多いということでポピュラーらしい
- 簡単な Python のコードで、ライブラリを使いながらモデルを作る流れが説明される
- タイタニックの例の場合、一番相関性が強いのが客室の等級で、等級が高いほど生存率が上がる
- この点は社会的な問題も含んでおり、仮に保険会社が保険料を決める場合、高等級の方が保険楼が安いことになる
タイタニックの生存率において、機械学習でわからないこと
- タイタニックの例では、実際の乗客のストーリーも紹介されている
- 船が氷山に追突して沈没を始めたあと、船長はマードックととライトラーに救命ボートの指揮を命じた
- 「女性と子供を乗せてボートを海におろせ」という指示が出された
- マードックは右舷側ボートの指揮をとり、ライトラーは左舷側ボートの指揮をとった
- 船長の命令の解釈がふたりで違ってた
- マードックは女性とこどもが全員船に乗った後、男性も船に乗せた
- 一方ライトラーは、ボートに空きがあったにも関わらず、女性と子供しか乗せなかった
- この違いは生存率にも影響するが、機械学習の学習データに含まれることはない
第8章 車は自分で走らない
自動運転の難しさ
- 機械学習は電子検索やシンプルな翻訳、シンプルなナビゲーションなどはうまくこなす
- 十分な教師データを与えることで、特定のタスクはうまいことこなせる
- 苦手な部分は通常は人間によってカバーされている
- この章では、機械学習が苦手なタスクとして、自動運転について深ぼっている
Meredith の自動運転体験
一般的なソフトウェア開発では、持ち時間の4分の3はデバッグに費やされます。今回のようなプロジェクトの場合、全体の10分の9はデバッグをしている感じです
- Meredith が試乗していると、自動運転が暴走して、壁に激突する寸前だった
- ペンシルバニア大学の学生チームは、 Meredith のみの安全にはまったく無関心だった
DARPA グランドチャレンジ
- 賞金ありの自動運転レース
- 決まったコースの完走時間を競う
- ペンシルバニア大学のチームは、周囲のものを近くするシステムだった
- 障害物を認識して、それが何かを判断した後に迂回が必要かどうかを判断する
- この方法の場合、カラーコーンや電柱など、分岐のパターンがめっちゃ多くなる
- 一方、カーネギー・メロンとスタンフォードのチームは、仮想空間を作る方法を採用している
- 走りながら周囲の環境を仮想空間内としてソフトウェア内に再現すうる
- ものを認識せずに、その物体との衝突の可能性が高ければ迂回する、という方法をとっている
- 後者の方法の方がうまくいった
- ただ、この方法でも実際の道路にあふれている数多くのイレギュラーには対応しきれない
カエルの真似をして飛び跳ねながら幹線道路を渡る子供たちや、電動車いすに乗った女性が、道路の真ん中でグルグルとアヒルを追いかけ回す様子を、いかにも愉快そうに笑いながら紹介してみせた。
自動運転はまだ難しい
- ウェイモ社のCEOのジョン・クラフシクによると、毎年自動車事故で120万人がなくなっている
- そのうちの95%が人間によるミス
- 一方、Meredithさんの主張では、完全な自動車運転の実現はまだまだ難しい
- 例えば、自動車運転はレーダーで周囲を調べているが、雨や雪、ホコリの中では正常に動作しない
- また、整備の行き届いていない道路上ではセンターラインに沿ってうまく走れなかったりする
- GPSのハッキングも問題
第9章 「ポピュラー」は「よい」ではない
よい自撮り写真を撮るにはどうしたらいいか
- テスラ社のAI部門責任者のアンドレイ・カルパシーによる研究
- ソーシャルメディアの
いいね
を基準にした写真の良し悪しの判定 - 出来上がったものは、
若い白人女性
の写真がよいと判定されるようになってた - インターネットの基本的価値観の一つが
物事が計測可能でランク付けできる
こと いいね
がおおいものはポピュラー
ではあるがよい
とは限らない
検索の起源とキュレーション
ポピュラー
がよい
よりも重要という考え方は、インターネット検索にも現れている- Google の検索は、被リンク数を基準にした
PageRank
から始まっている - いっぽう、
ウォール・ストリート・ジャーナル
などは人によるキュレーションを行っている