Web上で分析可能(Mind-Repo)
Repoをインストールして分析可能
マインドリーダーをインストールして分析可能
をクリックすると、Mind-Repoで分析できます。QuintessRepo、マインドリーダーは、ダウンロードしてご利用下さい。
詳しくはこちら
データ品質を左右する3要因
回答データの偏りを防ぐ方法
不審回答データを除去する方法
データ品質を高める質問設計法
(1/10)
調査の品質は、データの品質と分析の品質により決まります。
データの品質が良くないと、当たり前のことですが、次のような問題が発生します。
分析結果の精度が下がる(不鮮明になる)
分析結果が歪む
詳細な分析ができなくなる(個々のデータを詳細に見ると矛盾が露見するため)
分析に時間がかかる(仮説と異なる結果となるため)
全データ上で均一に不良データが含まれれば、1の結果が不鮮明になるだけです。しかし、実際には、不良データが含まれる場合、均一とは限りません。よって、2のように分析結果が歪みます。
ここでは、分析結果の歪みを防ぐためのデータ品質のアップ方法を説明します。
アンケート調査の回答データの品質は、一般には、対象者の問題(母集団の代表性)と回答の正確性の2要素で語られますが、実は、次の3つの要素により決まります。
調査協力者の母集団代表性 (元名簿の歪み、サンブリング、調査告知到達率)
回答完了(回答中に質問を見てから回答脱落する比率の低さ)
回答内容の正確性(信頼できない回答の少なさ)
実際の調査で、直接的に結果を大きく歪めかねないのが、2番目の
回答完了の比率
(質問途中での回答中断の少なさ)です。質問内容に影響を受けて回答中断となるため、好意的な人に回答者が偏るなど、回答結果を直接的に左右します。
ちなみに、Repoリサーチには、この回答中脱落率からくるデータの歪みの可能性を確認できる機能があります。
また、Repoのデータ信頼性診断機能は、(3)
回答内容の正確性
(虚偽回答の有無)をチェックし、不審データを検出する機能です。
このコーナーでは、一般に語られることが多い、調査サンプルの代表性の問題以外の、回答完了率と回答の正確性について、実際的な対処策を説明します。
調査品質を左右する要素
問題ケース
対処方法
母集団(市場全体や社会全体など)とズレた結果となる。
例えば、調査方法によりサンプル層が異なると、内閣支持率が変わる。
質問を見てから回答を止めた比率が高いと、回答結果がゆがむ。
例えば、その商品に関心がある人に偏り、認知率や評価が高めに出る。
データの信頼性
未回答や二重回答、回答ルールに違反した回答の他、虚偽回答などがあると回答結果がゆがむ。特に、10代、20代の若年層や調査協力意向が低い人を対象にした調査結果の場合、結果がゆがむことがある。
回答データの偏りを防ぐ方法
不審回答データを除去する方法
データ品質を高める質問法
次へ
(2/10)
回答データの偏りを防ぐ方法
右のケースは、ブランド調査のネットリサーチの例です。10画面で構成され、回答中の脱落率が38%(回答完了率62%)というものです。一般的に、ネットリサーチの回答脱落率は、数%程度のため、回答脱落率が非常に高い例です。
質問紙調査では無理ですが、ネットリサーチでは回答ログを調べることで、質問画面ごとの回答脱落内訳を把握することができます。これを見ると、最初の質問画面で29%という多くの脱落が発生しています。この最初の質問は、ブランド認知を純粋想起で質問したもので、すぐにブランド名が思いつかない人が脱落したものと思われます。このような脱落が発生すると、最終的な回収サンプルは、ブランド認知がある程度ある回答者に偏り、分析結果であるブランドの認知率や好感度は、他の調査データより高いものとなってしまいます。
このように、質問内容により左右される回答脱落が発生すると、一般的には、好意的回答者や関心度が高い回答者が中心になるため、認知や好感度、採用意向や評価が高めになります。この数値をベースに受容予測や市場規模の推定をすると、実態よりはるかに大きなものになってしまいます。
従来からの調査セオリーでは、調査の信頼性を確認する方法として「回収率」を使います。
「回収率」とは、有効回収サンブル数/サンプリングした調査名簿数の比率です。ただ、実際には、サンプリングした調査名簿数の確定段階をどの時点にするかにより、数値は大きく変わります。社会調査の場合、本来の理論では、住民基本台帳をベースにしたランダム抽出により分母となる名簿を確定することを前提としているため、分母は客観的に確定できるのですが、住民基本台帳の100%閲覧が不可能である現在、これは成立しません。つまり、サンプリング名簿という分母の作成自体に、調査主体の手法上の影響があるため、客観的とは言えません。
さらに、ネットリサーチでも、「回収率」という概念だけでは、調査の信頼性を計測することは困難になってきています。サンプリングした調査名簿として、調査対象者リストを作成しても、Eメールの本人への到達率が、アドレスの変更やメール環境により100%ではないためです。また、本人の自主的協力行為に支えられている点でも異なります。
回収率の数値を高めるには、メールで告知したら確実にまた即座に回答してくれる層のみに調査パネルを集約すれば、回収率と回収速度は高まります。しかし、いつでも即座に回答してくる人というのが、市場全体を代表するサンプルとして適切か否かは疑問があることも容易に想像できます。多くの人は24時間インターネット接続している人ばかりではないからです。
このようなことを考えると、ネットリサーチでの回収率は、次の2つに分けて考え、管理するべきです。
ネットリサーチでの回収率=対象者アクセス率×回答完了率
対象者アクセス率=メール到達率×開封・アクセス率
回答完了率=有効回答数/調査アクセス数
前者の「対象者アクセス率」は、調査パネルを対象にした調査であれば、調査パネルの組織化方法と管理を丁寧に行っているかに左右されます。但し、特定層に偏ったインセンティブなど意図的な調査パネルの組織化や管理がされていないかぎり、比率の増減はあっても、調査結果を直接左右するわけではありません。
後者の「回答完了率」とは、質問途中で回答を中断するというもので、質問を見た上での回答中止のため回答データ自体の偏りに直接つながります。
郵送調査などの質問紙調査では、回答完了しない回答は未回収となるのに対して、ネットリサーチでは、回答ログ分析により、回答プロセスを把握できます。このため、回答プロセス管理による回収率アップと回収上の歪みを防止できます。
次へ
(3/10)
回答データの偏りを防ぐ方法
一般にはあまり意識されていないのですが、調査結果を極端に歪めかねないのが、回答完了率です。
これは、質問途中で回答を中断するというもので、質問を見た上での回答中止のため、回答者の偏りにつながります。
回答中断が多いケースには、次のようなものがあります。
純粋想起の質問のみのページ
先ほどの例がこれである。知っているブランドを自由に書いてもらうというような質問である。何も知らない人は回答意欲を無くしてしまうことがある。
記述回答のみの質問
純粋想起の質問のように記述のみの場合、適切な刺激情報などがないと回答者は答えにくいものである。何か対象となる商品やメーカー、事柄があって意見を言う場合は良いが、「あなたの生活の中で困っていることを自由に書いて下さい。」といった質問だと答えにくく、回答を中止する人が出てくる。
言葉が難解な質問
投資関係商品であるとか、一部マニアでしか通じないコンピュータに関わる用語など、専門用語、業界用語など難解な用語を使う質問の場合は中止が多くなる。
答えることに羞恥心がある質問
病気、体型、家族についてなど体や生活の悩みに関することなど、答えたくない意識が高い質問の場合は、ある一定の割合で中止者が発生する。この場合、中止者がいることを前提にそれでも調査を行う場合があるが、質問上の配慮や調査への動機付けの仕方によって、中止率を下げることが可能である。
質問数が急に多くなったり、複雑な表や画像が入り、そのページから急に重くなる場合
特定のページから急に質問数が増えたり、画面表示が遅くなるような場合、回答脱落が発生する場合がある。
質問の見せ方やHTML画面作成の工夫により、ある程度改善できる。
自分には無関係の調査のように感じさせる質問
持っていない商品や現在利用していないサービスなど自分に関係がない質問があると、回答辞退者が増えるケースがある。質問の仕方の工夫により解決できる場合がある。
以上、回答中断が発生する主なケースを挙げました。
回答中断は、調査の最初の5画面を超えると減少する傾向があります。このため、特に最初の5画面の設計を上記のようにならないように工夫することで、回答脱落を減少させることができます。
次へ
(4/10)
回答データの偏りを防ぐ方法
複数ページのネットリサーチの場合、質問ページごとの回答ログを記録しておき、これを分析することで、調査全体での回答完了率と各ページごとの脱落率を把握できます。
次のような質問ページ別の閲覧数と回答数、未回答数を把握し、回答脱落率を算出します。
質問ページ
閲覧者数
+閲覧ジャンプ数
当ページ回答で完了
回答中止
or回答中
(当ページ未回答)
脱落率
1ページ目
560
0
15
2.7%
2ページ目
520
0
40
7.1%
3ページ目
505
0
3
0.5%
4ページ目
502
500
2
0.4%
全体
560
500
60
---
全体比率
100.0%
89.3%
10.7%
10.7%
次に、全体の回答完了率を確認し、これが95%以上あれば、問題なしと考えて分析に移って下さい。もし、それ以外であれば、どの質問画面の段階で脱落が発生しているかを詳細に確認、その要因と歪み方を推定して、分析時に配慮します。
上の例は、全体で500名sのアンケート回収をした例です。しかし、最初にこのアンケートの質問を見たのは、560名いました。回答完了率は89.3%で、質問開始から回答完了までに60名が脱落したという、比較的、回答完了率が良くない例です。
これを詳細に見ると、質問の2画面目を見て回答しなかった人が40名おり、この部分での脱落が多いことがわかります。そこで、この2画面目での脱落要因を検討することになります。この調査では、2画面目の質問が難解でまた、質問量が非常に多すぎたためと推定されました。
また、調査パネルを使用したクローズド調査の場合であれば、この脱落40名のプロフィール集計を行うことで、どのような回答者属性での脱落が多く、回答にどのような歪みが発生しているかを推定することが可能となります。
もし、脱落分を補正するための追加調査をするのであれば、質問2画面目の問題を改善して行って下さい。
尚、Repoリサーチのデータ回収機能には、このように回答完了率や脱落内容が把握できる機能があります。
調査パネル型のネットリサーチの場合、回答脱落自体が発生することは多くありません。下記の数値を目安にして下さい。
水準
説明
回答完了率
妥当水準
ほとんど問題ない。
95%以上
要注意水準
回答中断が多い。
中断多発質問のチェックや回答者層の偏りのチェックが必要。
94~80%
問題水準
質問途中での回答中断が極めて多いため、回答者層が偏っている可能性が強い。回答結果を読む際には、十分な配慮が必要。
80%未満
次へ
(5/10)
不審回答を除去する方法
質問数が少ないアンケートや実態確認中心の調査ではなく、多くの質問で構成された意識調査の場合には、不誠実な回答が含まれる場合があります。つまり、回答謝礼を目的にして、質問を十分読まず短時間で回答しようとする行為です。
このようなデータは、しっかり管理された調査パネルを対象にした調査の場合は多くありませんが、継続的な調査協力を承諾したわけでない一般会員や組織化されていないアクセスユーザーを対象にした調査では少なくありません。
こうしたデータを含んで分析すると、全体的な分析精度が下がるだけでなく、実際には次のような問題が発生します。
不正確な回答、不審回答が均一に発生すれば、調査結果全体が不鮮明になります。しかし、実際には、均一に発生しません。こうした不誠実な回答は、どちらかというと10代や20代などの若年層に多いため、回収データ全体では多くなくても、年代別に詳細分析した場合には、特定層の分析結果を歪めます。
例えば、全体では不審データが1%でも、性年代別の採用意向についてクロス集計すると、20代男性に占める不審回答比率は3~5%となり、採用意向有りの比率を数%上げることもあります。ターゲット性の判断が変わってきます。
意識や意向の質問で、高関心者は「とても良い/そう思う」などといった回答をすることがありますが、不審回答の中
には、「1,1,1,....」といった回答もあり、高関心者と非協力的回答者が混在することで、ターゲット像を歪めます。
不審データの除去は、一般的には、次のような方法で不審データチェックを行っていることが多いと思います。
回答時間が極端に短いデータを除外
表組みSA型質問で、「1,1,1,1,1,1,1.....」や「5,5,5,5,,5....」との回答を除外
事前の保存情報と照合、食い違いをチェック
しかし、従来方法には、次のような問題があります。
回答時間が短いことで、正しくない回答と断定できない。20代では回答が速いため、不審回答と識別しにくい。
表組みSA質問で「1.1,1,1,.....」と回答しても、正しい回答でないと断定できない。
このような方法で検知できないものもあると考えられる。
手作業で行うことが多く、時間がかかるし、客観的とは言い難い。
Repoでは、こうした不審データの除去を、網羅的かつ効率的に行うことができます。不審回答は、Repoのデータ編集機能でデータの削除または無効化をすれば、分析対象から除外できます。
次へ
(6/10)
不審回答を除去する方法
Repoでは、不審と見られる回答と信頼できる回答の比較研究に基づき独自に開発した回答信頼性判定アルゴリズムにより、各データの信頼度スコアを算出、不審回答や信頼性が低い回答データを効率的に検出することができます。
このアルゴリズムでは、基本的に次の2種類の検出ルールを利用しています。尚、分析結果への直接的影響を避けるため、回答内容ではなく回答パターン自体をチェックしています。
回答者が質問内容を吟味せず適当に回答した回答は、一定のパターンになる場合があります。例えば、表組みSA質問で「1,1,1,1....」「5,5,5,5....」「1,2,3,4,5」といったような回答です。しかし、このような回答すべてが信頼できないわけではありません。また、回答時間が短い傾向もありますが、年代差が大きいため、一定の回答時間で判別することは困難です。
Repoでは、不審回答に見られる様々な回答パターンをチェックし、該当するパターンの疑念度合いや複数パターンへの該当を総合的にチェックすることで、信頼度水準を算出しています。
調査テーマに対する関心度や関与度が高い場合に特有の回答傾向があります。例えば、「健康」に関心が高い人では、当然ながら「健康」に関する意識質問では、関心が高いという選択をする比率が高くなり、健康グッズやサービスの利用についてのMA(複数選択)質問では選択数が多くなり、「健康のためにしていること」といったFA(自由回答)の記述は多くなります。
一方、不審回答では、調査に非協力的な態度から、MAの選択数は多くなく、自由回答の記述もわずかになります。しかし、表組みSA質問などでは、TOP選択肢(「とてもそう思う」等)のみを「1,1,1,1,...」や「1,1,1,2,2,2,..」と回答することもあります。
そこで、調査テーマへの関与度に関係するSA質問群の選択パターンとMAやFAの回答パターンを比較することで、回答パターンに論理矛盾(つまり、調査テーマに関与度が高い回答を多くしているのに、別の質問ではそうではない)を見いだすことができます。Repoでは、各質問について関与度特性を解析し、ポジティブに反応する項目に絞って診断に使用しています。
第1ルールがデータ全般をチェックするのに対して、この第2ルールは突出したデータの信頼性をチェックするものです。意向者や注目ユーザーなど、ターゲット層と見なされるデータと不審データを識別するものです。
次のようなアンケート調査のデータの診断に適してしています。(下記、1、2は必須)
消費者アンケートデータ(特に、ネットリサーチの場合。ネットリサーチ以外では未検証)
表組みSA(単数選択)形式の質問が多いデータ………… 必須。質問分岐条件の適用がないこと
選択肢数が20以上あるMA(複数選択)項目があること… 質問分岐条件の適用がないこと
比較的記述が多い自由回答項目があること……………… 質問分岐条件の適用がないこと。
回答所要時間が計測されていること
2、3、4のデータ項目がない場合は、2の項目データのみで解析します。(ルール(1)群のみで検出)
Repoのデータ信頼性診断機能とは、このような不誠実なデータを網羅的かつ効率的に検出することを目的に開発された機能です。不審回答者のリスト出力も可能です。
尚、重複回答(同一回答者が複数回回答)や回答モレ、回答規則違反(選択肢数が多すぎる等)は、Repoのデータチェック機能で可能です。
次へ
(7/10)
不審回答を除去する方法
(1)
データ信頼性診断機能は、「データ編集」パネルから、「データ信頼性診断」をクリックすると利用できます。
現在利用できるのは、「データ信頼性診断機能(評価版)」です。Basicライセンスユーザーで使用できます。
診断をすると、各データごとに、信頼度スコアを計算し、指定の信頼度に達しないデータを不審データとして一覧表示します。
信頼度は、1~0の数値で表現されます。
1.0 =信頼
0.5~0.9 =注意(内容吟味の上、除外)
0.0~0.4 =不審(除外を推奨)
この不審データを無効化や削除すると、分析対象から除外できます。
クリックすると、下のデータ信頼性診断の画面となります。
次へ
(8/10)
不審回答を除去する方法
(2)
最初に、データ信頼性診断に使用する項目を指定して下さい。
表組みSA項目……………必須
その他のSA項目(実態質問でなく意識質問。名義尺度以外)
MA項目(選択肢が20以上する項目)
FA項目
回答時間項目(秒数)
いずれも、質問分岐条件が適用されていない(全員回答)
項目を指定して下さい。
データ定義を参照して、指定可能な項目を自動抽出できます。データの項目型から判断して自動抽出したもののため、自動設定の場合は、項目を確認の上、必要に応じて修正して下さい。
FA項目がある場合は指定して下さい。
記述文字数が多い項目が適しています。
「特になし」など、記述量の計測から除外する文章を指定できます。指定を別ファイルに書き出し保存できます。
指定文章の除外は上から順番に適用されます。このため
「特になし」→「なし」では「特になし」という回答は除外されゼロ文字となりますが、「なし」→「特になし」の順に指定すると、「特に」の文字が残され、2文字とカウントされます。
回答時間(秒数)項目がある場合は指定して下さい。
回答時間は、次の2つの点で利用されます。
①回答時間自体が著しく短い回答の信頼性を下げる
②回答時間が短くないデータを元に、表組みSA項目のデータ特性を解析し、回答矛盾チェックに使用するポジティブ項目を抽出する。
②での利用の場合での時間範囲を指定する
診断した結果の各データの信頼性スコアや診断に使用した詳細な分析値を元データに追加保存できます。
「保存しない」を指定すると、診断結果と不審データの一覧画面は表示、編集できますが、各データの信頼度ストアやその背景の分析値は表示されません。
データに保存された信頼度スコアや分析値は、分析レポート画面でグラフ表示することができます。
診断すると複数の分析値が出力され、それをこの基準値を元に判定し、各データの信頼度スコアを算出します。基準値の初期値を変更、また、別ファイルに保存したり、別ファイルから読み込むことができます。
通常は、変更の必要性はありません。
(1)(2)(3)(4)SA表項目の選択肢の判定基準値
・トップ選択率:(左端)選択肢(「とてもそう思う」等)の選択
・中央選択率:中央の選択肢(「どちらとも言えない」等)の選択
・ボトム選択率:右端の選択肢(「全くそう思わない」等)の選択
(5)スライド選択率:表組みSA項目で、「1,2,3,4,5.4,3,2,1...」といった選択パターンの選択率
(6)(7)表組み以外のSA項目で、平均と異なる選択をした比率。
表組みSA項目で中央またはボトム選択傾向の場合に使用される
(8)FA量の限界値:1問当たりこの文字数以下のデータ信頼度を下げる
(9)リスト化する信頼性基準:不審データ一覧を表示する場合の基準を変更できる。
「診断実行」をクリックして下さい。
※診断に使用する表組みSA項目のサブ項目総数とデータサンプル件数が多い場合、数分程度時間がかかる場合があります。また、パソコンの処理能力の多くを使用するため、他に起動しているソフトなどある場合は、終了しておくことをお勧めします。
次へ
(9/10)
不審回答を除去する方法
(3)
診断が終了すると、下のデータ信頼性診断の画面となります。
信頼度スコアが、0.5未満のデータサンブルについては、特に注意して確認した上で、データを無効化して下さい。
次へ
(10/10)
実際のアンケート調査の実査や分析時に、精度の高い回答データを確保するために効果的なポイントをご紹介します。
質問途中での回答中断を防ぐには、個々の質問設計と質問画面の流れに配慮する必要があります。
グループ・インタビューの場合と同様に、回答者の協力意向を高めつつ、本音を引き出す工夫が必要です。
いきなり専門的な質問からスタートしない。
知識の有無を問う質問(認知ブランドの純粋想起など)だけを質問しない。
前ページより、急にページ内質問ボリュームを増やさない。
適宜、自由回答で意見を聞いたり、写真やイラストを見て意見を問う質問を組み込む
多ページ調査の場合は、最初の5画面目までの回答負荷を軽くする
回答中断の多くは、最初の5画面以内で多く発生するため、この画面での脱落防止に工夫する。または、回答しやすい質問を優先的に配置する
事後に不審回答データをチェックして除外することもできますが、事前に質問設計に工夫を加えることで、不審回答を減少させたり、比較的簡単に検出できるようになります。
不審回答を減らすには
表組み質問のサブ質問項目数を減らす。少なくとも、一回で質問する項目を減らす。
MA(複数選択)の質問の選択誌数を20以下に抑える。また、画面スペースが狭いパソコンでも一望できるよう工夫する。
対象者の事前スクリーニング用質問を設ける。
ネットリサーチシステム上困難な場合が多いが、効果は大きい。
詳しくは、Repoリサーチの自動スクリーニング機能をご覧下さい。
不審回答を検出しやすくするには
表組みSA型の質問項目では、肯定的な選択肢(「とてもそう思う」など)を左側に、否定的な選択肢(「まったくそう思わない」)を右側に配置する。また、ほぼ全員が右端選択肢を回答する質問を、チェック用として含める。 不審回答は、中央選択肢または左端選択肢のみを選択する場合が多いため、右端選択肢を選ぶのが当然の質問でも他の選択肢を選択していることで、識別できる。
ほぼ全員が回答するMA型(複数選択)、FA型(自由回答)の質問を加える。
MAの選択数やFAの記述量でチェックできる
回答時間を計測し、不審回答検出の参考にする。
尚、余談ですが、ネットリサーチでは、MA(複数選択)などで、選択肢などをランダム表示させるテクニックがありますが、これは、不審回答を減らすわけではありません。不審回答の影響を分散させることで結果の歪みを低減させるテクニックです。
よって、各選択肢の選択率の比較をした場合の歪みは防止できますが、選択率自体の歪みは残ります。つまり、ブランドAとブランドBやCの比較をした場合の大小関係は正しいと推測されますが、認知率や使用率などの数値自体は、歪んだもの(実際とは異なる数値)となりますので、注意すべきです。
©2011 Quintess,Ltd. All rights reserved.