データクリーニング

データクリーニングとは、原データの内容をチェックするとともに、特定の個人・法人等の識別が困難なように加工し、秘匿処理を行うことです。また、データクリーニングを行ったデータをアーカイブデータといいます。

JILPTデータ・アーカイブでは、アーカイブデータ作成に際して、SPSS形式(日本語版SPSSによるsav形式)によるソフトを用いて、統一的なデータクリーニングを行っています。

データクリーニングの内容については、以下の通りです。(参考:データの見方

変数

  • 変数名は、調査票の設問番号に基づき命名されています。
  • 変数名には、以下のような属性を表す符号を含む場合があります。
    • 「_ma」= 多重回答変数
    • 「_na」= 無回答変数(多重回答で一連の項目を一つも選択しなかった変数)
    • 「_go」= 合成変数(2つ以上の設問結果を合成した変数)
    • 「_sc」= スケール変数
    • 「_ca」= カテゴリ変数

      (注)スケール変数とカテゴリ変数の符号については、原則として同一設問に対してスケール変数とカテゴリ変数が混在する場合に付与されています。

  • 変数ラベルは、調査票の設問内容を記述しています。
  • 値ラベルは、「各設問に対する選択肢」ごとに選択肢の番号とそれに対応する内容を記述しています。

注)変数名、変数ラベル、値ラベルの例示は以下の通りです。

調査票の設問例

「問1.現在の仕事の内容についてお答えください。(あてはまるもの1つに○)」

  1. 専門的・技術的な仕事
  2. 管理的な仕事
  3. 事務の仕事
  4. 販売の仕事
  5. 保安・サービスの仕事
  6. 運輸・通信の仕事
  7. 技能工・生産工程の仕事や労務作業の仕事
  8. その他
  9. 無回答

調査票の設問例に対する表示例

  • 変数名 → 「q1」
  • 変数ラベル → 「問1.現在の仕事の内容についてお答えください。」
  • 値ラベル → 「1.専門的・技術的な仕事...」

(図 SPSS形式の画面上の表示例) 画像クリックで拡大

図 SPSS形式の画面上の表示例(クリックで拡大)

多重回答の扱い

JILPTのアーカイブデータは、多重2分グループ(2分コード化)方式です。各選択肢に対応した変数を設け、値ラベルには0=「非選択」、1=「選択」が設定されています。また、多重回答グループ(変数名の末尾に「_ma」が入っているもの)の最後には、一連の項目を一つも選択しなかったケースとして、無回答変数(変数名の末尾に「_na」を付けた変数)を設けています。(「データの見方」の多重回答参照

無回答・非該当の扱い

無回答の扱いは、カテゴリ変数では原則として「9」ないし「99」…の値が付されています。「無回答」の値の実際の桁数は、設問の内容により変化します。例えば、選択肢が9個ある設問の場合は、無回答は「99」の値が付されています。スケール変数では原則として (1)カテゴリ変数と同様に「9」ないし「99」…の値が付されていて、かつ「無回答」は欠損値指定されているもの (2)システム欠損値となっているもの―の2通りがあります。

なお、多重回答となる設問に対する無回答の扱いは、多重回答グループの最後に、無回答変数を設けています。(「データの見方」の多重回答参照

また、「非該当」の場合はデータを入力せず、システム欠損値となっています。

数値照合の確認

アーカイブデータを集計した結果と当該成果物に掲載されている集計表の数値とが一致することを確認しています。なお、ごく一部に再現できない集計表が存在しますが、その場合には注記を行っています。

秘匿処理

企業や個人のプライバシーを保護するために、企業や個人が特定される恐れのある変数については、以下の通りに対応しています。

  • 企業や個人の特定となる変数(直接識別子)は削除しています。
  • 企業や個人を特定する手がかりとなる変数や、他の変数と組み合わせることによって、特定の手がかりになる変数(間接識別子)については
    1. スケール変数は公開せずに、カテゴリ変数のみを公開しています。
    2. カテゴリ変数でも特定の手がかりとなる可能性がある場合は、カテゴリを粗く束ねています(例:いくつかの分類を一括して新しい分類にする)。
    3. 特異値(極端に高い数値や低い数値)がある場合は、変数の上限・下限を決めて、その値を超える場合は上限値・下限値に割り当てるようにしています。

なお、この統一基準以外の対応をしている場合や、データを分析する際に注意が必要となる場合は、「公開データリスト」にある各個票データの「Read me」(利用上の注意)をご覧ください。