サンプル数とは何か?

JILPT研究員 堀 春彦

「サンプル数」という用語の氾濫

サンプル数とは何だろうか。アカデミックな研究雑誌で計量分析を行っている論文には必ずといってよいほど登場してくるのが、このサンプル数という言葉である。分析の対象となったデータの観察個数を示すものとして使用されている。われわれの周りには、このサンプル数という用語が氾濫している。しかしながら、このサンプル数という言葉を統計学辞典で検索しても、決してお目にかかることはない。あまりにも当たり前の用語なので、統計学辞典には掲載されていないのだろうか。

以前、執筆した論文を恩師に送付したところ、恩師から「あなたは研究者をやっている資格がありませんね。」と記されたメールを受け取ったことがあった。そこには、データの観察個数を示すために使ったサンプル数という用語の間違いが指摘されていた。データの観察個数を示すとすれば、標本の大きさ(サンプル・サイズ)という用語を使わなければ間違いである旨指摘があった。さらに行間を読むと、「大学院時代にあんなに何度も何度も口を酸っぱくして教えたのに、全くあなたは基本が身に付いていませんね。研究者として全く失格です。」とも読むことができた。このメールを読んだ時、雷に打たれたような強い衝撃を受けた記憶がある(筆者は中学2年時に木曽駒ヶ岳に登山中落雷に遭遇し、実際に雷に打たれた経験を持つ。爾来、打たれ強い人生を送っているものと自認している。)。

「サンプル・サイズ」か「サンプル数」か

師匠に指摘されたからといって、それを素直に聞いているような輩ではない。早速、当機構の資料センターを中心として、数理統計学などの本にデータの観察個数を示す用語がなんと記されているのか調べてみた。また、秋の夜長に自宅で帙を繙いたりしてみた。その結果、標本の大きさないしはサンプル・サイズ(もしくはその類似、例えば「標本サイズ」を含む)が最も多く、35件であった。続いて、標本数が10件、データ数が2件、サンプル数が2件などという結果となった。標本数の場合は、標本の大きさ(サンプル・サイズ)と一緒に併記されている場合が多かった(例えば、「標本の大きさもしくは標本数という」のように記されている場合が多かった。)。また、驚くべきことに、観察個数を示す用語が記されていない本もかなり多く、31件もあった。こうして見ると、標本の大きさまたはサンプル・サイズと記されている場合が多いことがわかるが、サンプル数としている本もあり、必ずしもサンプル数という用語が間違いであるとは断定できない。

用語の使用は正しく

やっぱりこれは専門家に聞くのが一番だと判断し、統計数理研究所に電話をした。本来であれば、こうした素人の質問には統計数理研究所では一切応じないとのことであったが、そこをなんとか拝み倒し、人柄が最も良いと受付の方が話していたB先生に質問することができた。B先生によれば、「統計学者ならば、サンプル数という言葉は使いません。素人はサンプル数をもって、統計学者が言うところの「標本の大きさ」を言っています。一番困るのは、統計学者(とおぼしき人)がサンプル数と言ったときです。 (1) 素人相手なので、標本の大きさのつもりで言っているのか、 (2) 間違って言っているのか、 (3) 自分が素人なのか、 (4)日本人、中国人、韓国人というように複数の母集団から取り出した複数の標本だから、母集団の数(=標本の数)を言っているのか、わかりません。」とのことであった。

サンプル数という用語が猖獗を極めている昨今、今一度原点に立ち返り、正しい用語を使うべきではないだろうか。「赤信号皆で渡れば怖くない」といった風潮はいかがなものかと思う。異数に崇め奉られたサンプル数という用語の使用法を読者諸氏に問いたい。