京太郎のブログ

社会問題についてと作品評論を書いてます。

データリテラシーの意義とその限界

はじめに

統計はありのままの現実を映し出していて、人間の主観や恣意性を排除した客観的証拠であるというのは間違いだ。

リテラシーを学ぶ意義というのは、そういったことを理解することにある。

統計やデータというものは以下の性質をもっている。

・統計やデータは、誰かの主観的な仮説をもとに作られている。

・統計やデータは、現実の一部を恣意的に切り取って編集した表現物である。

・統計やデータは、一部の現実にしか言及できないため、多くの事実を無視して作られている。

つまり、統計やデータというのは良いものであれば議論の材料の一つにはなるが、悪いものなら主観と偏見から悪意ある編集をする偏向メディアになりうる。

だから、統計やデータには良いものも悪いものもあるというのは当然のことで、一人の証言が真実かどうか吟味されうるように、統計データも吟味されるものではなければならない。データや統計は一般的に思われているほど強固な根拠になりえない。データは客観的で嘘をつかないというのは単なる誤解だ。

(分からない人がいれば、初回の記事『データは客観的事実ではないを読んで欲しい。)

データリテラシーを学べば、少なくとも統計データも良いものと悪いものがあると分かっているため、ひろゆきやDaiGoに影響を受けた人達のように「主観に満ちた感想と客観的なデータ」という二項対立を提示するという恥ずかしいことはしなくなる。

もちろん、リテラシーを学ぶことは万能ではない。

データリテラシーさえあれば誰でも正しい事実に辿り着くことができるというのは誤りであるというのが今回の記事の内容だ。

2.データリテラシーの重要性

データリテラシーは言うほど万能ではないということを説明する前に、それでもデータリテラシーは重要であるというところから説明しなければならない。

まず、データを含め様々な情報はあればあるほど良いというわけではない。

これは第一に、データや情報というものには信用できないものが含まれるからだ。

私たちは「フェイクを指摘する情報がフェイクである可能性」すら考慮に入れながら情報を見なければならないような情報が錯綜した社会を生きている。

フェイクニュースを批判する人間がフェイクニュースを拡散するなんてことは良くある光景だ。アメリカのリベラルはトランプ陣営の情報をフェイクニュースだと批判するが、トランプ陣営もリベラル系メディアの情報こそフェイクだと反論する。対立した者同士でお互いの情報をフェイク扱いして攻撃し合う光景はもはや日常と言っていい。

データも同様に、あればあるほど良いという訳では必ずしもなく、多量のデータがあればそれを正しく比較参照する高度なリテラシーが要求される。事実、昨今の新型コロナウイルスのリスクやコロナワクチンのリスクに関しては様々な情報が飛び交い何が正しい情報なのかの判断に困った人も多いだろう。

そして、データや情報が逆に混乱を生み出すのはチェリーピッキングの問題も同様である

チェリーピッキングとは、多くのデータの中から自分の主張に都合の良いもの(敵にとって都合の悪いもの)だけを選び、それを有力な根拠として提示する手法のことだが、多種多様なデータがあることで人々はチェリーピッキングをしやすくなる。陰謀論がここまで膨れ上がるのも、陰謀論にとって都合の良いデータだけでも莫大な量があるために、人々が信じやすくなったというのも一因としてあるだろう。

チェリーピッキングが横行する社会では、豊富なデータは対立する陣営それぞれに「データがあるから自分は正しい」という確信を与えるだけということになりかねない(実際そうだと私は思う)

そして自分が絶対に正しいと確信を持った人間同士の議論は収拾がつかないのはご存じの通りだ。

そこで重要になってくると言われているのがデータリテラシーというわけだ。

データリテラシーとは何かについては様々な意見があるだろうが、ひとまず日々の暮らしで出会うような統計を批判的に解釈する基本技能であるとしておこう。

データリテラシーがあれば、少なくとも人々は「データがあれば正しい」という馬鹿な思い込みはしなくなる。つまり、データという権威に騙されることは少なくなるだろう。それがデータリテラシーが重要な理由だ。

3.データリテラシーの限界

しかし、データリテラシーは万能ではない。

データリテラシーは正しくデータを懐疑するための武器だが、データが間違っていると証明できるものではないし、正しいと証明できるものでもない。あくまで様々な可能性を考慮した上で推論を組み立てるための武器の一つでしかない。

だからこそリテラシーが高くなればなるほど、一見正しく見える解釈であろうとそれが正しいとは断言できなくなってくるし、どんなに疑わしいデータであろうとそれが正しい可能性も考慮に入れなければいけなくなる。

実を言えば、陰謀論者も権威的データであろうと疑ってかかるという点においてだけはリテラシーを発揮していると言える。陰謀論者は権威的なデータに対してそれを否定するデータを持ち出すが、権威的なデータであっても鵜呑みにせずに権威が間違っている可能性を別のデータと共に示唆するというのは、リテラシーの高い行為だ。リテラシーとは疑い検証する能力のことだからだ。

彼らが問題なのは、そのリテラシーを決して自説の検証には発揮しないことである。

つまり、問題なのはリテラシー能力ではなくその姿勢にある。

陰謀論に染まる人間は「信じたい情報しか信じない」と揶揄されるが、そんな人間はたとえリテラシ―を持ったところで「疑いたいことしか疑わない」だろう。

もちろんこれは陰謀論者だけに限った話ではない。

私たちの社会では統計やデータが過度に有力な証拠として扱われているからこそ、相手の主張を否定するために相手のデータを疑わしいものにしておきたいという思惑が働きやすい。

そして、どんなデータだろうと疑わしい箇所のいくつかはあるので「疑惑」を投げかけること自体は誰でも簡単にできる。多くの陰謀論を見ていれば分かる通りだ。

人が疑いたいことしか疑わないのはリテラシーの重要性を訴えるジョエルベストも指摘していることだ。

統計についていろいろな人に語ると、人々が普通、疑わしい統計を喜んで批判する――その数字を述べている人たちと意見が異なるかぎりそうする――ことに気づく。政治的保守派は、リベラル派が提示する統計には深刻な欠陥があると信じており、リベラル派は保守派の述べる怪しい数字を糾弾するのに熱心だ。

人々は敵の述べるひどい統計の例は好きだが、自分の述べる数字を批判されるのは好まない。人々が誤解するかもしれないと心配するからだ。自分の統計が批判されれば、自分の主張を疑問視するかもしれないから、向こうの誤りに焦点を合わせ、自分の誤りは軽く扱おうといういうわけだ。

(『統計という名のウソ』ジョエル・ベスト P12)

データリテラシーという武器のすばらしさを説いたところで結局その武器を使うのは人間である。

リテラシーがあれば騙される人は少なくなるかもしれないが、信じたいことしか信じない人、疑いたいことしか疑わない人は相変わらずいなくなることはないだろうし、重大な問題を引き起こしがちなのはそちらの方だ。

仮にデータリテラシーの重要性が認められたところで、議論が「お互い適切にデータを参照しよう」という態度になるよりも先に「敵の方がデータリテラシーが低い」というレッテルの貼り合いにシフトすることは目に見えている。

データリテラシーの重要性を説く人は、データリテラシーがあることとそれを行使することの間には大きな隔たりがあるということを簡単に無視してしまう。

人間の性質は、データあろうがなかろうが、データリテラシーがあろがなかろうが変わらない。

データリテラシーは、大量のデータが錯綜する混乱状態を解決する万能の手段にはなりえない。

4.問題はデータリテラシーではない

データや統計が溢れる社会でより良い議論をするためにはデータリテラシーだけでは不足だ。そこには別の問題もある。

例えば、お互いにデータリテラシーがあってもどちらが正しいのか判別できない場合というのは存在する。

例えば、以下のジェンダーギャップ指数を見た時に「高水準の教育を受けているのに、政治参画も経済参画もできていない日本女性の現状」と解釈するのか、それとも「高水準の教育を受けているのに、政治参画も経済参画もしない日本人女性の現状」と解釈するかは解釈者の思想次第である。

(個人的には後者の解釈は無理があると思う。参考:『女性のいない民主主義 』)

ジェンダーギャップ指数(2022) - 内閣府男女共同参画局』(https://www.gender.go.jp/public/kyodosankaku/2022/202208/202208_07.html)
より引用

同じように、一つのデータから異なる解釈をする例をジョエル・ベストも挙げている。

二〇〇〇年の米国の国勢調査で、一人世帯の占める割合が増えている――およそ4分の1である――ことが明らかになったと当局者が発表したときに提示された対立する解釈を考えればいい。家族の価値を重んじる保守派のアドボケートにとっては、この統計は、伝統的な米国の家族が崩壊している、そして、家族を強化する社会政策が必要だということのさらなる証拠だった。しかし、リベラルな評論家は、一人世帯が増えていることの意味をもっと楽観的に解釈した。豊かさが増し、健康状態が向上したため、若い人々は独立して暮らす余裕をもてるようになり、個人は満足できない結婚を終わらせることができ、年配の人たちは一人で世帯を維持できるようになったというのだ。つまり、一人世帯が増えていることを証明する国勢調査統計を社会の衰退と生活事情の改善のどちらの表れとも読むことができるのである。

(『統計という名のウソ』ジョエル・ベスト P217)

このように、統計やデータはそれ単体よりもむしろどう解釈されるかの方が重要になってくることも多い。データの正しさを認めたとしても、今度は解釈を巡って議論が起こるわけである。

というより、現代ではデータ解釈の方が議論の争点になることが多い。

どんなデータも複数の解釈が可能であり、人間が解釈する以上絶対に正しい解釈はなく、どんな解釈も必ず疑うべき余地がある。

リテラシーとは疑う力であり、妥当性の低い解釈を退けることはできるかもしれない。しかし、それでも唯一正しい解釈を決定できるようになるわけではない。

また、統計の世界で大いに話題になったP値ハッキングの問題もデータリテラシーでは解決できない問題だ。

一般的に、P値が0.05を下回れば統計的に有意であると言われるが、P値ハッキングとはこのP値を操作して統計的有意を作り出すことだ。

(参考:【Data analytics】p値とどう付き合っていくべきか(part1)|Yuro|note)

P値が0.05を下回るように試行錯誤して統計を取り直すというのもP値ハッキングに当たるし、結果だけを見ても私たちはそれがP値ハッキングされたものかどうかは分からない。だからこそ研究者にも倫理が問われるわけだ。

データには常に仮説の証明という目的があり、データを取る人間の思惑がある。何日もの時間と研究費用もかけて行ってデータを収集したのなら当然、当初の仮説を支持する結果を得たいと考えるのは普通の心理だ。

P値ハッキングはその統計が支持する仮説を正しく見せるために行われるので、私たちは何かしらの主張が伴った統計というものを常に注意を払って見なければならない。

ジョエルベストはデータへの正しい向き合い方を提示する。

問うべきことは、「本当か」という問いではない。むしろ、何より重要な問いは、「どのようにつくりだされたのか」だ。(『統計という名のウソ』ジョエル・ベスト P217)

情報には「どのような視点から」「どのような目的で」収集され編集されたのかという点が常に付きまとう。中立なデータなどありえないと言っていい。この点で、素人が作ったデータを持ち出して自分は中立で客観的に主張していると豪語する人間は信用に値しない。

結局のところ、データ自体が決定的な証拠なのではなく、決定的証拠だということにしたい人間がいるだけなのだ。

5.私たちにとってデータや統計とは何か?

統計やデータを使ったところで、それを解釈する上で主観が混じり込むのだから、主観を排除した客観的な正しい意見を言えるようになるわけではない。

悲しいことにデータを事実そのものだと勘違いしている人は、統計やデータを根拠にして議論しろとよく言うが、統計やデータを根拠にするという言葉に既に詐術的レトリックが含まれている。

ある仮説を基に現実を断片的に切り取り編集していて、無数の解釈が可能な「データ」という呼ばれるものが他の根拠に比べてより客観的であるとどうして言えるのだろうか?

それこそ無根拠だ。

ジョエルベストはこのことを要約して次のように述べる。

私たちは統計を、私たちがつくりだす数字としてではなく私たちが発見する事実として考える。

 しかし、もちろん、統計はひとりでに生まれるわけではない。人々が創造しなければならいのだ。現実は込み入っており、統計はどれも、誰かがおこなった要約、複雑な現実を単純化したものである。(中略)統計をつくりだす人々は定義を選ばなければならない。何を数えたいのかを定義しなければならない。そして、数える方法を選ばなければならない。こうした選択が、あらゆるまともな統計、そしてあらゆるおかしい統計を形づくっている。

『統計はこうして嘘をつく』(ジョエル・ベスト P204)

無論、私は良い統計と悪い統計の区別があることを否定しない。

しかし、それが「どれだけ」良い証拠となりうるのかについての客観的証拠を出すことは不可能だろう。

なるべくバイアスを取り払い、なるべく「良い統計」を作ろうと努力を重ねたとしても、それがどれだけ現実を現したものかをどのように判定するのだろうか?

仮に誰かが判定基準を作ったとして、その判定基準が正しい根拠はどこにあるのか。そんなものは出せるはずがない。

統計学の進歩はめざましいし、事実様々な方法を確立された。しかし、それでも数ある方法の中から選択するのは人間であり、その人間が適切でない選択をする可能性は排除できない。今認知されているバイアスは全てではなく、まだ発見されていないバイアスが存在するかもしれない。

究極のところ、データよりも誰かの直感や実感といったものの方が実情に沿っている可能性すら否定できない。

それがどれだけ実情を示したものであったかは結果論でしか分からない。

データや統計がない議論より、データや統計がある議論の方がいいというのはただの信念でしかない。

データや統計があることで議論は円滑になるかもしれないし、逆に数字に惑わされて混乱するかもしれない。ただしデータや統計があった場合に混乱しないために、私たちにはデータリテラシーが必要だ。それだけの単純な話である。

6.データや統計を正しく扱うために

データは常に後付けの説明しかできない。

それは事態が起こってしまった後に事後的に集められ解釈されるものでしかない。

統計やデータも主観的な根拠であるし、必ず他の根拠より強い根拠であるというわけではない。

現代ではデータや統計は根拠として特権的な地位にいるが、それは端的に間違っている。

客観的に議論をするために数字を出せ、とはよく言われるが、数字を出すこととその議論を客観的に行うことは根本的に別の話だ。データや統計はそれ自体主観によって作成されたものであり、さらに私たちは私たちの主観でそれらを解釈しなければならない。そういう意味でデータを伴った主張というものは程度の差はあっても常に主観的である。

データや統計は説得の為に必須の水準ではなくあくまで一要素でしかない。データが無ければ議論にならないなどと言ってる人間は始めから議論する気などないのだ。

何のためにデータや統計が必要になるといえば、事実をよりよく把握し共有するためであって主張の正しさに保証を与える為ではない。

データや統計は説得のための材料の一つであるというだけだ。それ以上でもそれ以下でもない。議論を良くするための必要条件でもなければ十分条件でもないし、ましてや正しさを証明するものでもない。

それでもデータはそれを扱う人間がしっかりしていれば有用でありうる、というのが当面の状況なのだ。

【参考】