サンプル数再考

副主任研究員 堀 春彦

以前この欄で、「サンプル数」について記したことがあった。その時は紙幅の制約もあり、必ずしも書きたいこと全てを書いた訳ではなかった。本稿では、その時書けなかったことを補筆することにする。

SampleはObservationではない

『国勢調査』のように、調査対象全体の集団(「母集団」)を調査する全数調査は稀である。金もかかるし、時間もかかるからである。これとは対照的に、母集団のうち一部を抽出して調査するものを標本調査という。英語では標本のことをSampleと呼ぶ。「母集団のうち一部を抽出する」という説明がSampleの特徴をよく表している。例として、『賃金構造基本統計調査』を取り上げる。この調査の集計労働者数は毎年約120万人程度である。Aさんという労働者から始まって120万人目の労働者まで、給与や労働時間、勤続年数などについて調査を行っている。Sampleとは、Aさんから始まって120万人目の労働者までのデータ全体をいう。Aさん若しくはBさんなど個人に関する情報をSampleだと勘違いしている研究者が多いが、これは間違いである。これはObservationでありSampleではない。Observationの数のことを「サンプル数」と表示している研究例が多いが、これも誤りである。通常これはSample Size といい、日本語では「標本の大きさ」と呼ぶ。

サンプル数とは何か

以上通常用いられている「サンプル数」という表示は間違いであり、正しくはSample Size、または「標本の大きさ」であると説明してきた。ところで、「サンプル数」とは何であろうか。これについて説明している教科書は少ないが、ウィルクスの『初等統計解析』の説明は分かりやすい。今手元に教科書がないので、以下の説明は教科書通りではないことを了承願いたい。

母集団から大きさ75の標本(サンプル)を10個抽出するとする。すると、10個のサンプルができることになる。この10という数字のことをウィルクスは「サンプルの数」と呼んでいるが、これが「サンプル数」である。つまり、母集団からの抽出回数である。75という数のことを「サンプル数」としている研究が驚くほど多いが、これは誤りで、正しくは10という数字が「サンプル数」である。

正しい統計用語の使用が重要である

結局ここで何を伝えたかったのかというと、以下の通りである。昔に比べて誰でも驚くほど容易に統計データにアクセスできるようになり、そして誰でも簡単に計量分析を行い、簡単に結果が出せるようになった。これは大変喜ばしいことである。しかしながら、計量分析の容易さと反比例するように、計量分析の基礎となる統計用語の理解力が遅れてきているような気がする。因みに、「母数」、「95%信頼区間」という基礎的な2つの統計用語を掲げてみよう。この2つの統計用語の正しい説明ができる者がどれだけいるだろうか。「母数」は間違って「標本の大きさ」、「分母に対する分子の割合」、「分母の値」等の意味で使われることが多い。「母数」とは「母平均」や「母分散」など母集団の特性を表わす値である。また、「95%信頼区間」も「真の値が95%の確率で含まれる推定区間」だと誤って理解されていることが多い。抽出したサンプルに基づき設定される信頼区間は、信頼区間の上限・下限とも定数であり、神のみぞ知る真の値はこの信頼区間に入っているか否かのどちらかでしかない。95%信頼区間の意味するところは以下のとおりである。もし仮に母集団から100個のサンプルを抽出したとすると、それにあわせて100個の信頼区間が設定されることになる。その100個のうち95個の信頼区間は真の値を含むであろうというのが、95%信頼区間の意味するところである。

本稿では、「サンプル数」、「母数」、「95%信頼区間」等誤用が甚だしい用語を取り上げ、正しい統計用語の使用が重要であることを説いてきた。こうした用語以外にも誤用が目立つものが多い。いずれにせよ、正しい統計用語の使用が望まれる。

(2010年6月25日掲載)