京太郎のブログ

社会問題についてと作品評論を書いてます。

「なんかそういうデータあるんですか?」「それってあなたの感想ですよね」という詭弁的ミーム

1.はじめに

ベネッセホールディングスが集計した小学生の流行語の一位に、ひろゆき氏の「それってあなたの感想ですよね」がランクインしたというニュースがあった。

現在、「データを伴わない意見はただの感想でしかない」というアホみたいな風潮があり、データ化できるものとできないものがあるというごく当たり前のことが無視されていると感じる人は少なくないのではないだろうか。

社会の全てがデータ化されているかのように言う人までいる状況でそう感じるのはおかしなことではない。

統計やデータを議論の補強材料にするならまだしも、「データや統計なしに議論をするべきではない」といった主張はナンセンスだ。

この記事ではそうした社会的風潮について述べるものとしたい(補足も読まずにコメントをする連中がいるので念のため)。

現在の社会問題を議論する上で十分な量のデータがあると感じている人がいるかもしれないが、それらは「なんとなくデータっぽい」推定値であることが少なくない。

世の中に溢れるデータの群はまさに玉石混淆で、信用できないデータや全くのデタラメが大量に存在する。

今後はより正確なデータの収集が進むかもしれないが、私達が生きている現代はまだまだ「データ化社会」には遠く、「データ思考」などと宣う人間もデータ的に聞こえることを言ってるだけということが少なくない。

データに基づいていない意見を批判して「データを出せ」などと言う人もいるが、彼らはデータとはそもそも何なのかをまるで理解していない。

彼らが理解していないことを簡単にまとめるとおよそ次の三つになる。

・現実にはデータ化できるものとできないものがある。

・データは、特定の目的に従って収集されたものであって偏っている。

・データを取るのには時間的、金銭的コストがかかる。

これら三つのことを全く理解しないまま、データがないことと主張に根拠がないことを混同して語る人間は多い。

データは切り取られた現実の一部でしかないし、データは証拠の一種ではあっても正しさの証明そのものではない、ということをデータ主義者たちは理解していない。

データ化作業には常に限界がある。今回はそのデータ化の限界について、ジョエル・ベストの文献を参照しながら考えたい。

2.計測が困難なもの

「データを出せ」「データがないなら議論はできない」と安易に言えてしまう人たちは、私たちの集められる情報には限界がありコスト面の制約もあるということを無視している。

情報を集めるには時間もコストもかかるし、その上情報収集には様々な困難が付きまとうというのは当たり前の事実だ。

まず一つ挙げられるのは数えようとするものを定義することがそもそも困難である場合だ。

例えば、「防げたはずの医療ミスで死んだ患者」というものはかなり定義が難しい。

冷静に考えてみて欲しいのだが、「防げたはずの医療ミスで死んだ患者」をどのように定義できるだろうか?

まさかと思うが、医療従事者は全員ミスの隠蔽を一切行わない聖人君子で、なおかつ全員同じようにミスについて判断するように思考が統一された人間の集まりであるから、自己申告されたものだけを計上すればいいとは言わないだろう。

ちゃんと数えるなら、まず何がミスで何がミスでないのかを判別できなければならない。その上、本当に患者がそのミスが原因で死んだのかそれとも別に原因があるのかを特定できる必要まである。

このことについてジョエル・ベストは次のように説明する。

防げる医療過誤によって米国の病院で死ぬ患者は年に4万4000人から9万8000人に上るというものがある。これは際立って恐ろしい数字だ。(中略)しかし、命を奪う医療過誤とは一体何なのか――そして、どうやってそれを特定し、数えるのか。(中略)この例は、一見はっきりした現象のように思われるかもしれないもの――医療過誤で死ぬ患者――を計測するのが、ときにどれほど厄介であるかを示している。どの人の死が医療ミスの結果であるかを特定できると(楽観的に)考えても、死につながる誤りを一つ残らず数えるべきだろうか。もちろん、一人一人の患者の死を数えるべきだと考える人もいるかもしれない。しかし、昏睡状態の末期患者の人生を一日短くする誤りと、比較的健康な若者から何十年もの人生を奪う誤りとの間に違いを見る人もいるかもしれない。(『統計という名のウソ』P99-102)

ジョエル・ベストが説明するように、病院での死者の内一体何割が医療ミスによって死んだと言えるのかを定義すること自体難しいのだ。

さらに言えば、昏睡状態の末期患者の人生を一日短くする誤りと、比較的健康な若者から何十年もの人生を奪う誤りを一緒にすべきなのかも意見が分かれることだろう。

では、防げたはずの医療ミスで死んだ米国の患者が4万4000人から9万8000人というのはどこから来た数字かと疑問に思われるかもしれないが、実はこれは根拠不十分な論文を元にした推定値なのだ。(『統計という名のウソ』P100)

このように、社会の実態を調査すると言った時に、そもそも調査対象の母集団をどう定義すべきか?という根本問題が存在することは多い。

自殺者の自殺理由もそれだ。どのような人がどのような自殺で自殺するのかについて一体どのように正確に計測すればいいというのだろうか。

これも多くの場合、推測から求められる推定値が公的統計データになる。そもそも自殺かどうか分からないような不審死だって多くあるのにもかかわらず、だ。

遺書があれば正確にカウントできるというわけでもなく、自殺するような状況に追い込まれたために、思い込みによる歪んだ自己認識である可能性もある。また自殺理由が複数ある場合や、間接的な原因はどうカウントするのかという問題も残る。

もちろん、他にも問題はある。

2.1.一つの数値にできないもの

データ化できない現実の二つ目の例として、数値化するものの定義自体が難しい場合というのがある。

例えば、「優れた教師」というものを数値で示すのは難しい。

教師の優秀さや教え方には質的な違いがあるため、その質の違いを無視して数値という一元的な基準に還元するのは端的に間違っているとジョエル・ベストは主張する(『統計という名のウソ』P50)。

「優秀さ」と言われるものは、複数の要素が組み合わさって評価されるもので、一つの数字に翻訳することなどできない。優れた教師を評価しようとしても、一体どういう教師が優れた教師なのかについてまず議論が必要だ。

間違っていけないのが、これは優秀な教師とダメな教師の区別などできないという話ではない。ただ、「優秀さ」は主観的で総合的な評価の産物でありし、「どのような環境で」「誰にとって」のものなのかという他の要素を無視しては語れないということだ。ある生徒にとっては自分をグイグイ引っ張ってくれるような厳しい教師がそうかもしれないし、ある生徒にとっては自分のペースに合わせて丁寧に教えてくれる教師がそうかもしれない。

つまり、各々の主観による教師への感想が寄り集まる中で一般的な「優秀な教師」が分かるのであって、「優秀な教師」というものは個人の感想を排除して定量化できるものではない。

「優秀さ」という、一見単純な指標でさえ多くの場合一つの数値に還元できない。

数値化を必要とする概念が複数の要素の複合物なら、それぞれの要素に分けて計測すればいいという意見もあるかもしれない。

しかしそうなると、「優秀さ」を考える上でどの要素がどれだけ重要なのかを決める必要が生まれ、議論はかえって複雑化する。

この手の安易な反論をする人間は、データ化そのものを目的化しているので、そもそもデータは複雑な議論を単純化するために必要とされているということを理解していない。

2.2.どこまで範囲に含めればいいのか?

データを取る時は母集団の範囲も問題になる。

これについてジョエル・ベストは、ホームレスの数の計測を例に挙げて説明している(『統計はこうしてウソをつく―だまされないための統計学入門』P63)。

私なりに整理すると、およそ次のような問題だ。

・一晩だけ路上生活してもホームレスになるのか? 一晩ではホームレスにならないのなら何日路上生活していればホームレスなのか?

・路上生活ではなく他人の家に住むなどしていても、定住する家を持たない人間ならホームレスとカウントすべきではないか?

・災害等により家が破壊され緊急避難所に住まなければならない人はホームレスか? 緊急避難所にいる人の中にはその後新たに定住場所で生活を再開する人もいれば路上生活を続ける人もいる。

こうして考えてみれば、ホームレスという定義の範囲の問題に突き当たることになる。

どこまでをホームレスに含めるのかを決めてからでないとホームレスの数を数えることは不可能だ。

データ主義者たちは、集計範囲について解釈の余地がないレベルで定義を緻密化すればいいと主張するかもしれないが、ではその定義は妥当なのかという新たな問題が発生する。

当たり前だが、ホームレスの数を調査するのはそこに調査の目的があるからであり、定義の適用範囲はある程度柔軟に解釈できないと調査目的を達成できない。

事実、ホームレスについての行政調査では、ネットカフェ難民も広義のホームレスに含めて調査するようになった。

調査母集団の定義の範囲は、調査目的を達成するために時代と社会の変化に応じて柔軟に解釈する必要があるものなのだ。

言い換えれば、調査対象となる母集団の定義範囲については主観的判断と異論が差し挟まる余地があるということだ。

ただ単に定義を緻密化すればいいと考えしまうのは、データを取ること自体を目的化している証拠である。

広すぎる定義を使用してデータを集めれば「正への誤分類」が起きて数字が誇張され現実が覆い隠されるが、狭すぎる定義を使用してデータを集めても「負への誤分類」が起こりデータは一部の現実しか反映しないことになる。

こういう意味でも、私たちは現実をそのまま数値化できるわけではないのだ。

3.統計の暗数の問題

仮に客観的な母集団の定義をもとにした統計があったとしても、その統計が客観的事実であるとは限らない。

例えば、最も単純な例として犯罪件数の問題が挙げられる。

「バレなきゃ犯罪じゃない」という言葉の通り、隠蔽される犯罪もあれば、何らかの理由で記録から消去されたり、被害者が泣き寝入りして件数として数えられない犯罪もある。つまり、公的機関の記録する犯罪は氷山の一角で、記録に残っていない犯罪も多くあるかもしれないということだ。

実際、この国では公文書さえ偽造されている上、それを擁護する人間が大勢いる。「バレなきゃ犯罪じゃない」どころか、「バレたところで記録がなければ犯罪じゃない」というわけだ。

また、被害者側から見ても裁判沙汰や警察沙汰にするのには経済と心理の両方の面でコストが要求される。裁判で訴えるには時間もお金もかかるし、被害者に対して「被害に遭ってどんな気持ちだった?」と面白半分でからかう人間も多数いる。被害者は同情だけでなく好奇の視線にも晒される。

被害体験が当人にとって耐え難いほど心理的苦痛を伴う体験だった場合、自分が被害者であるという事実そのものを忘れてしまいたいという心理が働くのは至極当然だ。そんな人にとっては思い出したくないことについてわざわざ同情もされたくないだろう。

余程程愚かな人間でない限り、何らかの理由で調査で記録されない事実がある可能性は想定できる。

このように記録されない数を統計の世界では暗数と呼ぶが、このような暗数の問題は犯罪統計だけの問題ではない。

数多くの統計学者が口をそろえて言うように、どんな統計であっても暗数をゼロにすることなど不可能だ。まずもって暗数がないという証拠を出しようがない。

だから、同じ統計を前にしても統計に含まれていない暗数がどの程度あるかは常に議論になる。

問題はその暗数があるかないかではなく、それが統計結果にとって誤差の範囲内なのか、それとも重大なものかということだ。

データを収集した人間は当然のことながら、暗数が誤差の範囲内に留まるように統計を作ろうとする。しかし、それも統計を作る人間の主観的な判断に過ぎず、実際に暗数がどの程度あるかは分からない。

私たちができるのは、可能な限り暗数がある可能性を考え、可能な限りそれをデータに反映できるようにすることだけだ。ゼロにはできない。

暗数という視点から考えても統計は現実の一部の反映でしかないのだ。

4.「データを出せ」という批判が詭弁になる時

個々の統計データは、ある程度調査者の主観によって偏向してしまうというのは初回記事前回記事に書いた通りだが、個々のデータが偏っていても参照するデータを増せば客観性を担保できるとかそういう問題ではないというのが今回の内容だ。

見てきた通り、数値化できる現実の範囲には制限があり、集計されない事実がある以上、そもそもデータ化できる範囲自体が偏っているからだ。

結果、私たちが日頃参照するデータ群は恣意的な推定値を含むものが多く存在する。

これを理解せずに何に対しても「データを出せ」と叫ぶのはただの詭弁としか言いようがない。こうした陥穽を無視してデータが必須だと主張するのはカルト宗教の信仰と変わらないだろう。

データがある場面でデータを無視していれば批判されるのは当然だろうが、十分なデータや統計がない場面でデータを出せというのは機序を理解していないただの詭弁だ。

データや統計というものは無目的に収集されない。必ずそのデータを取る人間の仮説の証明という目的があり、人員、時間、予算も必要な場合がある。P値ハッキングの問題も考えれば、素人が思いつきで集めたデータを使って議論などすべきではない。そんなことも分からずに、素人相手に向かって「とにかくデータを集めればいい」などと宣うのは論外という他ない。

こうした論法は実際公害問題で加害者側が使った論法に近い。

公害問題も、汚染物質がどのように被害者の体内に流入し、どの程度健康被害を及ぼしたのかという因果関係の証明は、その機序が複雑だったため、当時の法的因果関係論の基準では因果関係が認められていなかった。

被害者たちが健康被害を訴えても、企業と企業が雇った科学者たちは一貫して因果関係を証明できないと否定した。実際、汚染物質がどのような経路で被害者の体内に流入したのか、被害の全てが汚染物質が原因といえるのかを証明するデータが存在しなかったからだ。

まず、汚染物質の流入経路に関しては複数の経路を経ている可能性があり、特定が困難だった。加えて、被害の全てが汚染物質が原因だとは限らず、他の要因が原因となっている可能性もありえた。他の要因に対して汚染物質の健康への影響がどれだけあるのかを証明することも困難だった。

これは到底素人に集められる範疇ではない。

まさに企業側は健康被害に苦しみ続ける被害者に対して「私たちに原因があるというデータを出してみろ」と嘲笑ったようなものだった。データを取ること、統計を取ることのコストの問題を全て被害者に押し付けたのだ。

だから公害による被害は、それまで前例のなかった疫学的因果関係を事実的因果関係の立証で認めた上で何年も経たなければ認められることがなかった。その間、多くの被害者は被害認定されることすらなく死んでいき、生き残った人も健康被害に苦しむ生活をしなければならなかった。

公害の例は、データや統計が十分に集まっていない場面でも議論が必要なことも多くあることを私たちに教えてくれる。データが無い場合は人々は推測から主張を組み立てるしかないし、どの程度のデータがあればいいのかも決定できるわけではない。

そして何より重要なことは、データがないからといってはその推測が間違っているとは限らないということだ。データがないのはデータはないというだけの話だ。「肯定する証拠がないから間違っている」というのは端的な誤りだろう。

データが無いからといって推測による議論を退けていい理由にはならないのだ。

そもそも私たちは事実関係が曖昧な事柄についても日常的に議論している。

例えば、防犯カメラの映像などの記録に残らない場所で行われた犯行で参照できる情報が限られていたとしても裁判は行われる。人間の記憶に基づく証言という非常に曖昧なものを頼りにするしかなくとも判決は下される。

私たちは社会起こっている全ての出来事の情報を得ることなんてできないし、情報を得るためにはコストや時間をかけなければならない。また、得られた情報を正しく評価できるわけでもない。

それでも、私たちは様々な議論において限られた情報から事実を類推し、それをもとに主張を組み立てるしかない。

反対に、大量のデータがあってもそれを解釈する理論が不十分なために議論が推測の域を出ないものもあり、例えば経済の問題はそれに近い。

経済問題では、過去の莫大なデータを元に政策が決定されるが、過去のデータ解釈には様々な解釈の仕方があるゆえに常に失敗の可能性がつきまとうし、未来が過去のデータ通りにいくとは限らない。経済の領域においては、データとそれを解釈する理論が不十分だからと言えるだろう。そのようにデータを解釈する理論が不十分な状態でも人びとは経済政策について議論し、対立する相手を批判し、政治的な決定を下す。

経済の議論の例は、データがあるからと言ってそれがどの程度議論の妥当性を高めるのかは分からないという例だ。

想定外の事態まで含めた未来のデータは誰も持っていないが、それでも私たちは何が起こるか分からない未来のために政治をするし議論もするのだ。

5.まとめ

三者を納得させるために主張には根拠が必要だ。しかし、データや統計はその根拠の候補の一つになりうるというだけだ。データがなくても根拠があればいい。データのない類推的な意見に対しては、どの部分が妥当ではない可能性があるのかをまず指摘して、それでなお意見が対立した場合にそれを決着させるためにデータを求めるというのが正しい順序だ。様々な事例や個人的訴えが集まり仮説が立てられて初めてデータを取ろうという人間が出て来るわけで、個々の訴えに対してデータがないと指摘するのは何も言えていないに等しい。

現在に至るまでの社会にまつわるデータの蓄積がどこまで信用して良いものなのか根本的には分からないし、客観的に示しようがないのだ。

つまり、蓄積されたデータがどんな事実を反映していてどんな事実を無視しているのかは私たちが主観的に判断を下さなければならない。

蓄積されたデータだけがあってもそこから自動的に疑いようのない社会的事実が見えてくるわけではない。

ゆえに、データは常に人間によって疑われ、検証され、新たな仮説を出すためのたたき台でなければならないし、それ以上のものではありえない。

私たちは生活実感や経験、個人的体験を参照しながらデータを主観的に解釈して議論するわけで、議論の中でデータの解釈が蓄積することでしか社会は見えてこないだろう。

データの蓄積は、社会問題について議論する時の必要最低限の条件ではないし十分条件でもない。ただ単に一つの判断材料である。

さて、統計データが事実そのものではないということに関しては、多少なりとも頭の働く穏健なデータ主義者達なら認めるところだろう。彼らは、データというものが作成者の主観によって偏ることも、大抵の情報収集ではバイアスの影響を排除しきれないことも、現実の全てをデータ化できるわけではないことも理解している。

しかし、そうした穏健なデータ主義者達も、各々が思い込みで好き勝手に事実を捏造するような事態よりはデータある方が望ましいと言うだろう。

偏向したり歪んでいる可能性がある統計やデータを使って議論が混乱するケースと、統計やデータを全く使わず議論が混乱するケースを比較した時に、後者の混乱の方がより重大で避けるべきだという反論である。

彼らからすれば、データセットの偏向やバイアスによるデータの歪みは統計リテラシーやデータリテラシーの問題に帰着する。みんなが偏向やバイアスを見抜くだけの十分なリテラシーを備えれば、統計データを吟味して「正しい現実理解」に辿り着くことができるというわけだ。

私はこれに対して、むしろデータや統計こそが議論の混乱を生み出す場合があることを示して反論したい。

具体的な反論については次回の記事で書くことにする。

(補足)

※コンテクストが読めない人間からひろゆき発言のコンテクストを読めとのコメントを頂いておりますが、言及したいのはミーム元となったひろゆきの発言についてではなく、ミームとその受容のされ方についてです。タイトルだけ読んで中身を読んでないのかもしれませんが、メインはあくまで統計データの扱われ方と社会的風潮です(コンテクストを読めば分かる話ですが)。まぁそもそも、元ネタ動画のコンテクストの解釈も「感想」でしかないわけですが。

※文脈どころか補足すら読めない人がいるのでタイトルにミームと追記。

 

【次回記事】

tatsumi-kyotaro.hatenablog.com

【参考文献】