京太郎のブログ

社会問題についてと作品評論を書いてます。

統計のバイアス~データの信頼性、ファクトチェック~

1.はじめに

今の社会では、統計やデータが集まれば正しい結論が導けると漠然と考えている人は多いのではないだろうか。

しかしそれは幻想だ。

信頼性のないデータが集まっても信頼性のない結論になるという当たり前のリスクが軽視されている。

データには何らかのバイアスがかかっていることが多く、バイアスの影響が強いと思われるデータは信頼性がない。

そこで、今回はバイアスとは何かを説明し、信頼性の高いデータとは何かについて考えることとしたい。

1.信頼性のないデータとバイアス

信頼性のないデータは計測ミスのみから生まれるわけではない。

原則として統計のデータというものは、測ろうとしたものと実際に測ったものが違ってはいけない。

何を当たり前なことを言っているんだと思うかもしれないが、これは結構厄介な問題だ。

なぜなら、様々なバイアスがデータを偏らせるからだ。

一つ例を挙げよう。

グーグルは選りすぐりの人材を採用するために、機械学習技術を取り入れて社員の職務遂行能力のデータを取ったところ、恐ろしいデータがあることが判明した。

それは、プログラミング・コンテストで優秀な成績だった人ほど職務遂行能力が低いというデータだった。

少し考えてみてほしい。これはどのような意味を持つデータなのか。

このデータは、プログラミング・コンテストの成績が悪い人間を採用した方が高い職務遂行能力が期待できるという結論を導けるだろうか?

そうではない。

カール・T・バーグストロームはこのデータを次のように説明する。

グーグルのエンジニアならばプログラミングはできて当たり前だ。グーグルに採用されたということは、大勢の候補者から選ばれた人材だ。選抜にプログラミングのスキルが重視されたに違いない。プログラミング・コンテストのような課題で評価が付けられたのかもしれない。採用のプロセスではプログラミング・コンテストで活躍できる能力が重視され、職務遂行能力は多少軽視された、と言い換えることもできる。

(『デタラメ データ社会の嘘を見抜く』カール・T・バーグストローム P175)

グーグルの社員である時点で、データの中にはプログラミング能力も職務遂行能力も両方ない人間はいないというのがポイントだ。

グーグル社員である時点で、みんな一定以上のプログラミング能力と職務遂行能力を持っていると見るべきだろう。

ある人は高いプログラミング能力と一定以上の職務遂行能力を期待されて雇用され、ある人は一定以上のプログラミング能力と高い職務遂行能力を期待されて雇用されたかもしれない。そう考えると、プログラミング・コンテストの成績と職務遂行能力の関係は負の相関を示してもなんら不思議ではない。

データのサンプルにされた人たちは、ランダムな集団から選ばれたのではなく、既にグーグル社員という一定の特徴を持った集団から選ばれてしまっていたのだ。

結果、データも偏ったのだ。

データを集める際、データのサンプルとなる人々がある共通した特徴を持っていると集まるデータも偏ってしまう。その場合、サンプリングして集めたデータが調査しようとした現実と乖離してしまう。

このようにサンプリングされるデータに影響を与え結果を偏らせる要因をバイアスと言い、偏ったデータのことをバイアスのかかったデータと言う。

簡単に言えば、バイアスのかかったデータは信頼性のないデータである。

2.社会調査方法によるバイアス

しかし、実際問題としてバイアスを取り除く作業は一筋縄ではいかない。

例えば、社会の実情を統計で調べる際の手法をいくつか考えてみよう。

2.1.アンケート形式

まず、アンケートは任意のためそのアンケートの内容に関心がある人間しか回答しない傾向がある。

アンケートに答えてくれる人はランダムで無作為な人ではなく、既にその話題に一定の興味を持っている人だ。その時点でバイアスがかかってしまう。

政治に関するアンケートなら、政治に関心のない人は協力率が低くなりやすい傾向がある。

アンケート調査の中でも代表的になってきているネットリサーチは特に問題含みだ

ネットの声というものは偏っているからだ(参考 : 大規模調査でわかった、ネットに「極論」ばかり出回る本当の理由(山口 真一) | 現代ビジネス | 講談社(1/6))。

2.2.電話調査

電話調査は回収率の低さが問題だ。

電話調査は世論調査などでも使われている手法だが、内容にもよるが半分程度しか回答してくれる人がいない。いきなり掛かってきた電話調査に対してちゃんと答えてくれる人はそう多くないのだ。

そのため、電話調査でもバイアスは発生する。

2.3.インタビュー形式

電話調査と違って、街頭インタビューであれば話題に興味を持っていない人も引き留めて回答してもらうことができるし、顔を合わせている分ちゃんと答えてくれる人が増えることが期待できる(それでも答えてくれない人は多くいるだろうが、前の二つに比べれば多少マシだろう)。

しかし、インタビュー形式になると今度はインタビュアー効果(interviewer effect)を考える必要が出てくる。

インタビュアー効果(interviewer effect)とは、インタビュアーがどんな人物なのかによって回答者の心理に与える影響のことである。

インタビュアー効果はインタビュアーが回答者の心理に影響を与えるワンウェイ効果と、インタビュアーと回答者が相互に心理的な影響を及ぼし合う相互効果に分類され、その二つにもさらに細かい分類が存在する。

インタビュアー効果の最も有名な例については谷岡一郎の『「社会調査」のウソ』から引用しよう。

インタビューアー効果については、アメリカでの実験例がある。黒人、白人それぞれ十名ほどの男性に、同じ程度にまで面接ができるよう訓練を施した上で、様々なターゲットに対して次のような質問をぶつけてみたのである。「あなたは、それにふさわしいと思われる力量があれば、黒人が大統領に選ば絵れることに賛成しますか、しませんか」

 結果は、黒人のインタビュアーが白人のターゲットにこの質問をした時の方が、白人のインタビュアーが白人に同じ質問をしたときに比べ、はるかに肯定的な回答が多かった。

 差別的意識を持っているかどうかは別にして、白人が黒人のインタビュアーに対し「賛成しません」と答えるのには、多少の勇気を要するだろう。この「黒人」と「白人」を「女性」と「男性」に置き換え、同じようなインタビューを試みた例もあるが、黒人と白人のケースほどではないにせよ、同じような結果が出ている。

(『リサーチ・リテラシーのすすめ「社会調査」のウソ』谷岡一郎 P158, 159)

念のため論文も紹介しておく⇒(https://academic.oup.com/poq/article-abstract/52/1/53/1878619?redirectedFrom=fulltext&login=false)

インタビュアーの性別や人種だけでなく、表情や仕草、声や態度などから受ける人柄の印象によっても、回答者が抱く感情は変化するだろう。

回答者の感情が変われば回答にも影響が出るのは想像に難くない。

極端な話、回答者は怪しい(と感じた)人物からの質問に対しては身構えて嘘を言ったり、素直に答えないかもしれない。逆にインタビュアーに良い印象を持ったとしても、今度は自分を良く見せようと見栄を張ったり本音を隠したりするかもしれない。

このように、主要な調査手法のどれもそれぞれにバイアスがある。

調査形式にまつわるバイアスの話はここまでにして、次は質問内容によるバイアスの話をしよう。

3.質問内容によるバイアス

質問の内容でもバイアスはかかってしまう。

例えば、「○○大学の研究によると~ですが」などと権威による見解が事前に示されると、それらの意見を賛同する選択肢が選ばれやすくなるというハロー効果は有名だ。ここではハロー効果のような比較的簡単に避けられるものは解説せず、避けるのが難しいものを紹介したい。

アンケートのバイアスには大きく分けて二種類ある。回答者の状態によって発生するバイアスと質問の表現によるバイアスだ。一つ一つ見ていこう。

3.1.回答者の状態によって発生するバイアス

設問が多かったり同じような質問が続いたりすることで、回答者が飽きたり疲れたりして適当に回答するといった疲労効果(fatigue effect)がある。アンケートは回答者のやる気を考慮すると簡単でかつ短いものにした方がいいが、そうなるとどうしても表面的な回答ばかり集まるため複雑で深い実態調査にならない。

また、質問をシンプルにしすぎると今度は黙認バイアス(Acquiescence bias)が強く働くことになるという問題もある。黙認バイアスとは、質問調査において回答者が内容に関わらず肯定的回答をする傾向があることで、同意バイアス(agreement bias)とも呼ばれる。これを避けるためには被験者の安易な賛成または反対を避けるよう、自由回答形式にしたりして被験者がちゃんとじっくり考えて回答できるよう導く必要があるが、そうすると回答者が疲れたり面倒くさがったりしてかえって疲労効果(fatigue effect)が強くなるということもありえる。

さらに、人は無意識に見栄を張ったり自分の意見を取り繕って本音とは違うことを書くことがある。これを社会的望ましさバイアス(social desirability bias)と呼ぶが、これは匿名アンケートにすることである程度避けることが可能だ。しかし、匿名アンケートにすると今度は責任感のない適当な回答が増えるというバイアスがかかる。

また、自分で自分のことをどう思いたいか、つまり自分で自分を騙す心理も人間にはあり、自分がどう見られたいか、自分をどんな人間だと思い込みたいかという心理によるバイアスは回避が難しい。

質問内容が過去の体験や経験についての質問の場合、人の記憶の曖昧さが問題になることがある。虚記憶(false memory)事後情報効果(post-event information effect)後知恵バイアス(hindsight bias)などが有名だが、人間の脳は虚偽の記憶を作り出すつまり、本人は嘘を言ってるつもりがなくても実際は嘘ということはよくあることなのだ。

このように、質問の回答者側には常に何らかの心理的効果が発生しておりそれがバイアスになる。

3.2.調査アンケートの表現によるバイアス

例えば、「あなたはA社が環境問題へ取り組んでいることを知っていましたか?」という質問の後に、「A社に対してどのような印象を持っていますか?」と聞けば、好意的な回答が増えるといったような現象が起こる。このように質問の順番や流れによって回答が誘導されてしまうことを文脈効果(キャリーオーバー効果)と呼ぶ。

通常、文脈効果(キャリーオーバー効果)を避けるために、質問の順番を逆にしたり関係のない質問を間に入れたりするという対策が取られることが多い。

しかし、調査は目的に沿って行われているものであるから、質問も全体的に一つのテーマで統一されて適度な誘導がある方が自然であり、関係のない質問を途中で入れるとかえって回答者から適切な回答を引き出せなくなるリスクがあるというジレンマがある。

(参考論文:https://archives.bukkyo-u.ac.jp/rp-contents/SO/0041/SO00410L049.pdf)

また、言葉の表現やニュアンスが持つステレオタイプが回答を誘導することもある。例えば「ニートの就職支援にもっと税金が使われるべきだと思いますか」と聞くと「ニート」という言葉が持つ否定的なニュアンスによって否定的な回答を誘発しやすい。

こうしたステレオタイプによる誘導を避けるためには、なるべく否定的印象も肯定的印象もない言葉を選ぶ必要がある。しかし、言葉というものは通常何かしらのニュアンスを伴うものであり、否定的でも肯定的でもないニュアンスの言葉を選ぼうとすると、回答者が見慣れない言葉遣いの長文になりちゃんと読まれないというジレンマがある。

ニートの就職支援にもっと税金が使われるべきだと思いますか」という質問を「就学及び就労をしておらず、職業訓練も受けていない状態にある人の就職支援にもっと税金が使われるべきだと思いますか」という質問に変えると、今度は黙認バイアスや疲労効果が働いて質問内容を理解しないまま答える人も出てくる可能性がある。

もっと根本的問題として、言葉に対する印象やイメージは時代や地域によっても変遷するというのがある。

例えば、日本では「非常に満足」「まぁ満足」「どちらでもない」「やや不満」「満足していない」の5つ選択肢から選ばせると、日本では「まぁ満足」に選択が集中しやすいことが分かっている(参考:『リサーチ・リテラシーのすすめ 「社会調査」のウソ 谷岡一郎 P169)。

同じ日本でも関東と関西では言葉の使い方が違うし、同じ都道府県内でも細かな言葉遣いの違いがある。例えば、京都の「京ことば」などは遠回しに婉曲な表現があることで有名だ(誇張されて伝わっている部分があるとはいえ)。

地域だけでなく、時代によっても言葉の使われ方は変遷してきた。

例えば、「オタク」に対するイメージ調査をしようとしても「オタク」という言葉の持つニュアンスやステレオタイプは日々変化しており、世代によってもだいぶ異なる。

「軽率に」という言葉は誤用が多くなり、「手軽に」「気軽に」という意味で使われるようになった。

同じ個人でも歳をとって言葉に対する感受性が変わることがあるだろう。

言葉を使って調査をする以上、言葉の受け取られ方が変われば、調査結果への影響が変化するが、それを正確に計測することはできない。

そもそも、人々の考えは複雑で選択肢の中にないということもしばしばある。選択肢から選ばなければならないという制約が、事実を歪めることだってあるのだ。

このように、言葉によるバイアスを取り除くことは不可能であり、質問調査が言葉を使って行われる以上、バイアスを完全に無くすことは難しい。

4.時代によるバイアス

社会の実態調査はそれをいつ行ったかによってもバイアスがかかる。

例えば、夏は未成年の非行が多いことで有名だ。未成年の非行について夏にデータを取るのと冬に取るのでは結果が異なる。このように、統計データを取った季節によって発生する季節性バイアスをシーズナルバイアスと呼ぶ(参考:『リサーチ・リテラシーのすすめ 「社会調査」のウソ 谷岡一郎 p142)。

もっと細かく見れば、月ごとにもイベントはあるし、売れるもの、流通するものは異なる。

社会を騒がせる事件は季節を選ばず起こっているし、それらの環境や時事的状況変化が回答に影響しないとは限らない。

例えば、政治家が不祥事を起こして炎上した直後としばらく経った後では政治家が行った政策の評価も違ってくるかもしれない。

こうしたバイアスを避けるために、一回きりの調査ではなく長期的かつ継続的な調査が必要な場合がある。

しかし、時代が変われば常識も生活スタイルも文化も変わるので、長期的調査結果には時代や世代によるバイアスが影響を与え始める。

このようなバイアスは例えば特定の政策の効果を測る時のノイズになる。ある時代や世代に対しては効果のあった政策でも、別の時代や世代では効果がないかもしれないのだ。谷岡一郎は次のように説明する。

同じ歴史は二度と繰り返せません。同じように見えても外部条件が少し異なるだけで、その影響は結果に多大な差をもたらすことがあるからです。(中略)「別の要素」が、測定の邪魔をするのです。この邪魔者を「ノイズ」と呼びますが、そのノイズはいくつもあり、結果に影響を与えつづけます。従って、社会科学における理論の検証には、外部ノイズによる理論値からの「ずれ」が必ず起こると考えるべきです。

(『データはウソをつく』谷岡一郎 P34, P35)

そのような時代や世代によるバイアスの大きさを測ろうとしても、まずどういった指標がその時代の特徴が何なのかが分からない。実質収入、生活スタイル、職種や働き方、社会インフラ、文化、医療、人々の興味関心の移り変わりなど要素を挙げればきりがない上それらは相互に影響し合っていて、それぞれが時代の影響を受けているだろう。

このように、データを取る上では何がどのデータの数値にどれだけ影響を及ぼしているのか分からない。

見てきた通り、調査方法、回答者の心理、言葉による無意識の誘導、時代や世代など、さまざまな箇所でバイアスは発生しており、その全てを取り除くことは不可能だ。私たちが発見していないだけで、まだまだバイアスはあるかもしれない。全てのバイアスの影響を把握できない以上、取り除くことも不可能だ。もちろん、誠実な人間はバイアスを可能な限り想定しその影響を減らす努力をするわけだが、どの程度までバイアスを低減できているのかを証明する手段もない。

サンプリングによって作られたデータはどんなものでも少なからずバイアスがかかっており、信頼できない要素が潜んでいる。

5.信頼性の高い統計データとは何か?

どんなデータであろうとサンプリングによって集められたものはバイアスがかかっている。

データは事実そのものではないし、信頼できない要素がある。

もちろん、これは信頼できるデータが存在しないということではない。

社会にまつわるデータに関しては、信頼できるデータと信頼性のないデータを完全に区別できるわけではないということだ。

信頼できるデータとは、何の偏りもないありのままの現実を示したものではなく、偏りが問題のない範囲で収まっていると人間が主観的に判断したもののことだ。

だから同じデータや統計を見ても、それが事実かどうかについて当然意見の食い違いが起こるのだ。

ある人がこれは信頼性の高いデータだと言っても異論を唱える人間はいるかもしれない。

信頼できるデータとは、個々人が主観的に意見を述べ議論される中で長い時間をかけて信頼されていったデータだ。

データが人々の議論の正しさを決めるのではない。その逆で人々の議論がどんなデータが正しいのかを浮かび上がらせていくのだ。

データに関する解釈とそれについての議論が蓄積していかなければデータの蓄積など全くの無意味と言っていい。

さて、今回の話のまとめはここまでにしておこう。

次回の記事は、データと社会について考える上で重要なデータ化の限界について整理しておこう。

現在、データ化できるものとできないものがあるというごく当たり前のことが無視されている。あたかも社会の全てがデータ化されているかのように言う人もいる。

しかしそれは幻想だ。

一見データがありそうに思えてもよくよく考えてみればどうやってデータを取ればいいのか分からないものもあるし、実際データのように見えて全く適当な推定値でしかない場合もある。例えば、自殺者の動機及び自殺の要因については、警察庁厚生労働省が作成したデータがあるが、推定値となっている(死体をサイコメトリーにかけたり幽霊にインタビューをしているわけではない)

多くのことが測定されていて数値化されているように感じているかもしれないが、よくよく見てみるとそれらは「データっぽい」推定値であることが少なくない。

次回はそうした「データっぽい」ものであふれた社会について見ていくことにする。

【次回記事】

tatsumi-kyotaro.hatenablog.com

【参考文献】

↓データ社会への警鐘。ベストセラーになった『ファクトフルネス』よりもデータに焦点を合わせている。

↓同じくデータ社会への警鐘を鳴らす内容だが、時々筆者のオリジナル用語なのではないか思われる単語も存在する。メモリー・イフェクト、ドラマタイジング・エフェクトなる語は引用元が分からない。メモリー・イフェクトに至ってはバッテリーを放電しきらない状態での再充電を繰り返した場合に、放電中一時的に電圧が低下する現象であるメモリ効果(memory effect)が出てきてしまう。

↓簡単で分かりやすい解説をするちくまプリマーから出た谷岡一郎の本、悪い内容ではないが恐らく筆者は簡略化された説明をすることと簡単に説明をすることの違いを分かっていない。

↓私たちの心理には自分で自分を騙す自己欺瞞の機能が備わっているという話をわざわざ進化心理学の枠組みで解説している。