調査には誤差があるもの?

主任調査員 中原 慎一

多くの統計調査は、調査対象の中からサンプルを選んで調べる標本調査によって実施されています。一部を調べることにより全体を推計しているわけですから、その結果はいくらかの誤差を含んだものであることに注意しなければなりません。こうした標本調査に伴い発生する標本誤差については、政府統計などでは、報告書を見ていくと、標本の選定の仕方や計算式、標本誤差についての記述があります。この標本誤差については、こういった報告書などの記述や統計学の教科書などに詳しくかかれているのですが、もうひとつ忘れてはならない統計調査の誤差に、非標本誤差というものがあります。

ところで、この非標本誤差については、統計調査の報告書などではあまりふれられることが無いように感じます。標本誤差が数式で具体的に(かなり難解な数式ですが…)示されるものであるのに対して、非標本誤差の数値評価ができないことに起因しているのでしょうか。

では、非標本誤差とはどのようなものか、どうして発生するのか。

例としては、回答者の勘違いや記入ミス、集計のミスなどがあります。また、未回収、調査項目への無回答も非標本誤差につながります。調査へ協力的かどうか、イヤな調査項目への無回答など、調査結果にある程度のデバイスがかかることが考えられます。同じように事実と異なる内容を記入することもあり得ます(年齢を若く答える、年収を多めに、平社員なのに部長とか…)。

こうして誤差について考えていくと、コンマ1%の違いにどれほどの違いがあるのか?ということに行き着きます。

ある調査結果で、Aという事象とBという事象の大小関係でAが大きいとなった。その差は 0.1%である。Aは 100.0、Bは 99.9としよう。標準誤差率は0.1%である。

標本数が十分大きい場合の標本調査は正規分布に近づきます。その意味するところの一つは「その調査結果は95%の確率で標準誤差の 1.96倍の範囲にあることが確からしい」ということ。誤差を考えるとこの結果は、 0.1%の標準誤差率であることから、Aは 95%の確率で 99.8~ 100.2程度であり、Bは 95%の確率で 99.7~ 100.1程度となります。

つまり、Aは 99.8であるかもしれないし、Bは 100.1であるかもしれない。そうであるならばAとBの大小関係は逆になってしまう。さらにこれに「非標本誤差」があることを考えると…

実は 0.1%の標準誤差率は、指定統計調査など大規模調査で達成されるようなかなり高い精度です。多くの調査に高い精度を求めるのも費用、手間のことを考えると難しいことでしょう。

統計調査の結果をみる場合にはこういった誤差を考慮する必要があるわけで、コンマ何%かの違いで一喜一憂するものでもないでしょう。継続的に行っている調査であれば、そのすう勢をみることで、より的確な指標の見方ができるし、他の情報を加味して考えることが必要だと思います。

とは言え、コンマ何%かの違いが大きなニュースになることもあるわけで、調査を実施したり、その結果を分析したりする者にとっては「コンマ1ポイントの違い」は悩ましい話です。

(2008年 8月 20日掲載)