『数学思考のエッセンス 実装するための12講』  by オリヴァー・ジョンソン

数学思考のエッセンス 実装するための12講
オリヴァー・ジョンソン
水谷淳 訳
みすず書房
2024年6月17日 第1刷発行
NUMBERCRUNCH(2023)

 

日経新聞2024年8月3日の書評で紹介されていて、気になったので図書館で借りて読んでみた。数学大好きな私としては、「数学思考」といわれるだけでワクワクしちゃう。
実際、手にして読んでみたら、チンプンカンプンもたくさんあったけれど、、、楽しい一冊だ。

 

著者のオリヴァ―・ジョンソンさんは、英国ブリストル大学数学科の情報理論教授。BBC「ラジオ4」にしばしば出演し、X(@BristOliver)にて、数学、音楽、贔屓のサッカーチームなど、さまざまな発信をしている。コロナ禍での感染状況に関する発信も注目されていたらしい。

 

表紙をめくると、

” 「週末のバーベキューが雨で台無しになる確率は?」「 買い物のレジ待ちで早く進めると見分けるには?」「 パーティーを抜けるベストなタイミングは?」ーーーこうした 身近な問いをもとに、 数式をほとんど使わずに、数学者や統計学者の考え方の勘所を伝授する 実用的数学入門。
「構造」「ランダムさ」「情報」の3つのパートごとに解説する。著者は、コロナ危機時に正確な 情報発信で話題となった英 ブリストル大学 数学科の情報理論教授。

「 3つのパートで取り上げる数学のツールキットを身につければ、世界の変化の根底にある構造的原理を理解し、その 伝えられ方を支配するランダムさと不確かさを認識し、 正しい情報と嘘の情報を区別できるようになるだろう。(略)  10年後にどんなニュースが世間を席巻しているのかを 予測するのはほぼ不可能だが、どんなニュースが来てもそれを合理的な形で分析して、シグナルとノイズを峻別する力を高めることができる」(「はじめに」より)”

とある。

 

目次
はじめに 1
パート1 構造
第1章 図は口ほどにものを言う
第2章 おおまかにとらえる
第3章 対数を駆使する
第4章 規則に従う

パート2 ランダムさ
第5章 データはランダムである
第6章 命に関わる統計
第7章 陽性か陰性か
第8章 オッズと傾向

パート3 情報
第9章 情報にはパワーがある
第10章 酔っ払い、待ち行列、ネットワーク
第11章 計るための手段
第12章 ゲーム理論

パート4 教訓
第13章 過ちから学ぶ

 

感想。
なるほど、面白い!
ツールキットにできるほどは理解できないけれど、わからないなりに、わかるところがある。数字は、ファクトでしかない。しかし、それをどう見せるかによって、恣意的にデータの見せ方を変えることもできてしまう。

 

コロナ禍で、毎日のようにニュースで感染者数や死亡者数を目にしてきたと思う。グラフも目にしてきた。PCRで擬陽性や偽陰性になる可能性の話もよく耳にした。コロナで、数字が少し身近になったのではないだろうか。ワクチンをめぐるリスクも。ゼロリスクと言えないからといって、ワクチンを受けないで感染し症状悪化するリスクと、ワクチンそのもののリスクとどっちをとるのか、、、。今回のようなパンデミックだと、個人の自由とばかりは言っていられない。ワクチン未接種の人が多ければ、まちがいなく社会全体の感染拡大のリスクが高まるからだ。重症化リスクの高い人たちに、優先的にワクチンをまわすというのもひとつの数学に根拠をもっている。

 

数字は、大事だ。
数学は、身近なのだ。

 

天気予報の降水確率だって、、、みんな、それぞれに解釈して傘をもっていったり、持っていかなかったりしているはず。10%なら??90%なら??不確かななかで、決断しなくてはいけないのが、日常だ。

 

だから、数学のスキルというのは、数学者だけでなく、誰にでも価値があるものなのだ。人工知能」も「機械学習」も、数学のかたまり。計算しているだけ。私たちは、毎日、あふれる数字の中で暮らしている。そして、その数字たちは、数学的モデルに基づいて存在している。今起きていることを説明するモデル。あるいは、未来を予測するのに使うモデル。


数学的モデルというと、がんじがらめの複雑な数式を想像してしまうけれど、実は、「おおまかなモデル」であっても、実用的に使用可能なのだ。

 

BMIとか、適正体重の計算だって、かなりざっくり、、、だけど、参考にはなる。
BMI = 体重kg ÷ (身長m)2
適正体重 = (身長m)2 ×22

 

第1章では、数字をグラフ化することの重要性が語られる。体重の話ついでに言えば、ダイエット中、体重の数字をカレンダーに数字を書くだけにくらべると、折れ線グラフにしてみると「見える化」できて、わかりやすい。

 

グラフ化することでの「見える化」は、様々なところで活用される。コロナやインフルエンザ感染者数の変化のグラフ、お店の売り上げ変化のグラフ、生産現場の生産数グラフ、、、。そして、本書で言っているのは、そのグラフも縦軸をどうとるかによって、見た目が大きく変わるということ。場合によっては、対数グラフにした方が変化がわかりやすいものもある。それこそ、指数関数的に変化する感染者数、あるいは、長期視点での株価変動、とか。。。。

 

本書では、章ごとに「まとめ」が数行、そして、「やってみよう」と実際にワークしてみてたしかめよう、という数行が付いている。

読み進んでいくと、だんだん難しくなってくるのだけれど、なんなら、「まとめ」だけを読んでも、本書でいいたいことはつたわってくる気がする。

 

第1章のグラフの話では、グラフ化することは大事だけれど、線形関数か二次関数か、適切な関数でモデルかする必要性があるということ、そして、あやまった数式を当てはめてしまうと、自信過剰で不正確な予測につながってしまう、というまとめがでている。ふむふむ。
実際に、さまざまなグラフが紹介されているので、目で見てもわかりやすい。

 

第二章は、おおまかに捉える必要性、有効性について。
フェルミ推定」で、おおよその検討がつけられるという話。フェルミ推定とは 複雑な推定問題をいくつもの小さな段階に分割して考えること。経済学や社会学の本でもよくでてくる。

たとえば、「ブリストルにピアノの調律師は何人いるか」という問題。小さな段階に分けて考えると、
ブリストルの人口は?  → 50万
・そのうち何%の人がピアノを持っているか?  → 2%
   この二つから、ブリストルにあるピアノの数は、およそ1万台。
・ピアノは、何日ごとに調律する必要があるか?  → 1回/年
・1回の調律に何時間かかるか?  → 1時間。
・人は1日に何時間、1年に何日働くか?  → 8時間、200日  → 1600時間/年

 →→→  1万時間/1600時間=6.25 人 と推定できる。

実際に、Googleで調べてみると9~10人くらいいるらしい。

 

こうして、小分けに分割して推定することを、フェルミ推定という。

本書には、こうした数学用語を後ろに「用語解説」として記載してくれている。実に、親切な本だ。そして、わかりやすい。

 

で、2章でいいたいことは、精度にこだわりすぎずに大まかにとらえることの実用性、、、かな。

 

第3章では、指数増加する細菌の増殖、核反応、ムーアの法則などについては、対数グラフでみることで、より次の予測がしやすくなるということ。
まぁ、指数増殖も、かならず頭打ちはあるのだけれど、、、。

 

第4章では、変化には、ある規則がありえるということ。感染症拡大も、初期の感染と、集団免疫がおきてからの感染数の変化は、それぞれのパターンがありえる。

 

第5章からパート2で、ランダムさについて。ちょっと、統計確率の難しい話がふえてくる。

第5章、データはランダムである、って、ほんとに、、、だから、不確実なのよね、って話。コイントスは、必ずランダム。10回投げて、10回表が出る可能性だって、ある。でもそのパターンについては、時間と大きな紙がある人は「パスカルの三角」で実際にたしかめてごらん、って。暇な私はやってみた。はじめて「パスカルの三角」を自分でかいてみた。
1を三角の頂点にして、その左右の下に、それぞれ1を描く。つぎに、また、左右の外に1をかいて、間は、上の二つの数字の和を記載する。そうやって、10段繰り返すと、、、1,10、45、120、、、と言う段ができて、それが、表が出る回数のパターンの数。。。ちょっと、日本語でうまく説明できない・・・・。挫折・・・・。けど、「パスカルの三角」は、ググればすぐにでてくる。
そういう、ランダムさがあるということ。

 

5回続けて表が出たから、次は裏、というのは何の根拠もないのだ。つねに、ランダム・・。

 

第6章では、「帰無仮説」という重要な言葉が出てくる。帰無仮説とは、世界の状態に関して最初に置いた仮説のことで、データによって覆される可能性がある。例えば、「新薬が効果がある」とおくのではなく、「新薬には効果がない」という仮説に基づいて、データを検証するということ。命に関わる薬について、「効果ある!」という希望的観測に基づいてデータを集めるのは危険。「効果がない」という仮説をいかに覆すか、という視点でデータを観察する必要がある。「統計的に有意である」かどうかを、結果だけでなく、統計をみることで判断する。

 

統計的に有意」という言葉は、私もサラリーマン時代によく使った。というか、使わねばならなかった。製品の安全性データを担当官庁へ提出する際には、「統計的に有意」なものでなければならない。理系集団であっても、「統計的有意」という言葉は難しい。いつも、統計の専門家が言っている、、、と逃げていた、、、。でもちゃんと、p値と呼ばれる、統計上の数値はデータで示すことができるのだ。

いやぁ、ひさしぶりに、p値という言葉を目にした。いつも、悩まされていた・・・・。

実験結果の一部だけを都合よく使うのではなく、統計的に有意といえるだけのnを重ね、そのうえで、p値を算出する。データのご都合主義は、医薬・食品の世界では、命とりになる。

 

ちなみに、世間を騒がしている「紅麴」問題は、「紅麹」の安全性問題ではない。あれは、明らかに工程管理ミス。。。「品質は工程でつくられる」の原則が無視された、あってはならない管理ミス。。。

 

本章では、「相関関係は因果関係ではない」という重要な話も。「 体重が重くなるとパイをたくさん食べるようになる」という「相関関係」はあったとしても、因果関係ではないのだ。

 

データをグラフにして、都合よく回帰直線をひいて、相関関係が因果関係のように解釈するのは、間違っている、ということ。

 

まちがった、回帰直線の「アンスコムの4つの組」というグラフが紹介されていた。どれも、笑えるほど無茶苦茶な回帰直線のひきかたなのだ。でも、エクセルを使えば、だれでも簡単に回帰直線はひけてしまう。その危うさ。。。。

 

私も、製造プロセスでのデータからいかに複数のファクターのなかで因果関係を見出そうと、数知れぬほどのグラフを書いて、回帰直線をひいたことか。。。エクセルだと、一次関数とR2(決定係数)も自動で計算してくれるのだが、、、ついつい、自分の仮説に当てはまるようなデータ範囲を使いたくなったり、、、危うい。

 

パート3の情報については、いっきにコンピュータの世界の話に。しかし、人はでてきた答えが自分の期待と異なると、コンピューターのだした答えですら信じようとしないことが起こりえる、と。アメリカの大統領選の例がそれに当てはまる。実際、トランプが勝ったはずだったと信じている人は、今でもいるわけだ・・・。自分に都合よく情報をとるというのは危険ということ。

 

また、第11章では、測定基準の話で、単位間違いのケース。身長6フィート2インチ(約188cm)の男性が、身長6.2センチと登録されたために、BMI28000となって、コロナワクチン優先接種者となったとか。高さ18フィート(約5.5m)の舞台セットを発注したつもりが、18インチ(45cm)のセットが納品された、、、とか。。。

 

いやいや、単位ミスはよくあるのだよ。私は、サラリーマン時代、社内の予算プレゼン資料で、ドルと円を間違えたり、millionとbillionを間違えたり、、、K(千)とM(百万)を間違えたり、、結構やらかしている。流石に、各担当者たちは億円単位の予算で頭に入っているので、だれもが(単位)が間違っているとわかってくれて、笑ってすませられる。。。。けど、これが財務部がつくるIR資料だったら大変!なことになる。おそるべし、単位!なのだ。

 

また、人は、データに見られる構造がランダムに生じたものではないと誤って結論付けてしまう 傾向があるという話で、「テキサスの狙撃兵の誤謬」という言葉がでてきた。

 

ある人が壁に向かって銃を撃ってから、その当たった点を中心にして 的を描くという古いジョークに由来するという。観測されたパターンをみかけ上説明できる仮説を探すのではなく、前もって仮説を立てておいてから、独立した測定データをつかって検証すべし!ということ。

 

どの章も面白いのだけれど、全部の背景をすっとばして、何が大事かだけを知りたければ、パート4 教訓、にまとめられている。その第13章は、「 過ちから学ぶ」
1. 自分のきめつけていることを振り返る
2.この世界は取り散らかっている
3. 過去を重視しすぎない
4.チェリーピッキングをしない
5.モデルはあくまでもモデルに過ぎない
6.集団思考の可能性を考える
7. 願望はその通りには実現しない
8. 謙虚になって間違いを認める
9. 中道と中庸
10.数学は正しい ツールである

 

盛りだくさんの内容だったけれど、わからないところはわからないなりに飛ばして読んでいくと、なんとなく、、パート4で言わんとしていることが響いてくる。

チェリーピッキングは、先日の『エビデンスを嫌う人たち』でもでてきた。

megureca.hatenablog.com

 

気が付かないうちに、自分に都合のいいことだけをピッキングしないように、、気を付けないとね。

確率は、あくまでも確率である。とはいえ、より高い確率でリスクを下げる方法があるのであれば、、、その確率は参考にするべきだろう。

 

まぁ、人は不合理な生き物なので、それでも、、、、自分に都合よく解釈しちゃうんだけどね。 

 

楽しい数学の世界。

やっぱり、楽しい。

 

そして、この翻訳、読みやすいなぁ、と思って訳者の水谷淳さんを調べてみたら、こういうサイエンス系が得意な人みたい。前にも読んでいた。サイエンスの翻訳本を読みやすく書ける翻訳者はすごい!彼の翻訳本、他も読んでみたくなった。

megureca.hatenablog.com

 

megureca.hatenablog.com