« 覚悟なきものは去れ | トップページ | 統計-ピアソンの積率相関係数 »

2004.07.24

統計-信頼性と妥当性

問題番号(年度-番号): 4-24,5-42,6-27,8-53,9-34,11-36,13-31

本を読んで私のわかるところをまとめただけです。
● 測定
◎操作主義的定義:
測定とは、ルールに従って対象(objects)や事象(events)に数値を付与すること。
(Stevens, S. S.,1951)
◎社会科学的定義:
研究者の心の中の一般的な概念を表す言葉で、手元の感性的データ(指標)を分類するための、そしてしばしば計算するための、明確で組織的な指標(Riley, M.W., 1963)
抽象的な概念を経験的な指標に結合する過程(Zeller, R. A. & Carmines, E. G., 1980)
★ 理論的+経験的考慮、プロセス重視、観察可能
  
◎ 基礎的な測定…事象や対象に対して自然法則に従ってその性質を表すようにするべく数字を割り付ける
◎ 制令による測定…便宜的な定義によって事象や対象に対して数字を割り付けるもの
例)社会的地位、学歴

● 信頼性と妥当性に関しての大まかなイメージ
ある経験的指標が特定の理論的概念をどの程度表しているか、を測定するための2つの指標
例)ゴム製のものさし→(        )がない
イリジウム合金のものさし→(        )が高い…必ず同じ値が得られる(安定性)
目盛りのくるったイリジウム合金のものさし→(        )が低い
…本当に測りたいものを測っていない(真実性)

● 信頼性
偶然的要因によって尺度の得点が変化する度合いの少なさ。測定された数値の安定性、一貫性、正確さ、安定度係数。
信頼性係数=真値の分散/観察値の分散
       =1-(誤差の分散/観察値の分散)
       =(観察値と真値の間の相関)の2乗

◎ 再テスト法
同じ個人に対して、一定期間(2週間から1ヶ月)をおいて同じテストを実施し、そのときの相関係数を取る。
長所: 直観的、わかりやすい、速度検査(スピードテスト)にも使用できる。
短所: 実施困難、記憶テストはテスト自体がリハーサルになる。時間的コストがかかる。

◎ 代替え形式法、平行テスト法、代替テスト法
長所: 再テスト法のような記憶の効果などが防げる。速度検査にも使用できる。
短所: 並行的な問題を作成すること自体が困難。コストも高くなる。時間をおくことで、再テスト法における問題も含むことになる。

◎ 折半法
全体の項目を2つに分け、信頼性係数の推定値を求めるために、各々の得点間の相関を求める。
→Spearman-Brown(1910)の公式
長所: 簡単、簡易。一回のテストですむ。計算も楽。再検査法での記憶の効果などお問題点がない。
短所: 分類方法に注意を要する。項目を半分ずつにするときによく使う手法は奇数番号と偶数番号とに分ける(奇偶法)のだが、それが本当によいのかどうかという吟味が必要。速度検査の場合は使うべきでない。

◎ 内的整合性による方法
すべての可能な折半法から信頼性係数の推定を繰り返し、その平均値をとる方法。
→Cronbachのα係数…内的整合性の高さを示す

● 妥当性
尺度が測定しようとしているものを、実際に測っているかどうかというその程度のこと。真実性。

◎ 基準関連妥当性
ある測定用具を用いる目的が、その測定用具にとって外的な行動の重要な様式を推定する場合に、はじめて問題になる。この外的な行動様式を「基準」と呼ぶ。(Nunnally, 1978)
妥当係数…テストと基準との相関係数
① 同時的妥当性…測定値と基準とを同じ時点で相関を取る場合
② 予測的妥当性…基準が未来の場合
③ 差異妥当性
④ 増分妥当性
⑤ 交差妥当性
⑥ 交差文化妥当性

◎ 内的妥当性
例)算数の計算テストで計算能力全体を測定したいなら、加算のみしか入っていないテストはダメである。加減乗除のような全体の計算問題が必要である。
高めるための条件
① 研究者がその特定場面に関係する内容領域全体を詳細に記述できること。
② その領域全体から適当にサンプリングして項目を抜き出すこと。
③ それをテスト可能な形式に作り替えること。
★ 表面的妥当性
★ 論理的妥当性

◎ 構成概念妥当性
尺度を構成する理論のモデル・意味のネットワークが、経験的な世界と十分一致したときに構成概念妥当性が満たされる。
多特性・多法(M-M法、MTMM、多重特性多重法)
① 収束的妥当性…測定方法が異なっても同一構成概念間の相関が高い
② 弁別的妥当性…測定方法が同じでも別の構成概念であれば相関が低い
例)外向性・安定性という2つの特性を自己評価、他者評価という2つの方法で測定する場合。
→2つの方法間で、外向性どうし、内向性どうしの相関が高い→同一概念間での相関が高い→収束的妥当性が高い
→どの測定方法でも外向性と安定性の相関が上記の相関よりも低い→測定方法に依存しない→弁別的妥当性がある

4-24
A→○ 測定誤差から信頼性を求めることができる。信頼性係数の説明参照。
B→× これは妥当性
C→○ Kuder-Richardsonは調べられていません。α係数は○
D→× やや曖昧だが、安定度(安定性?)を調べるのは再テスト法

5-42
A→○ 4-24A参照
B→× Kunder-Richardson調べられていません。α係数同様、1回のテストですむようですね。
C→×
D→○ 4-24D参照
E→× 同時に行ってもよい

6-27
ア→信頼性
イ→標準化
ウ→妥当性
エ→基準

8-53
A→× 信頼性は内的整合性だけではない
B→○
C→○ 目盛りのくるったイリジウム合金のものさし
D→○ 再度同じ検査をしても同じ結果が得られる・・・検査に安定性がある

9-34
妥当性の説明文を参照
妥当性・・・①基準関連妥当性、②内容妥当性、③構成概念妥当性(収束的妥当性、弁別的妥当性)

11-36
A→× 内的整合性だけではない
B→○ 信頼係数が分かっていると標準誤差が分かるので、真値を推定できる
C→× 一般に項目数が多くなると、信頼係数は高くなる
D→○

13-31
A→× 信頼係数は測定値と真値との相関係数の2乗
B→○ わからなかったけれど、ACが×なので
C→× CATはTATの子ども版
D→○ 折半法の実施にいは同質な内容をチェクするアイテムが複数個必要

 


 


|

« 覚悟なきものは去れ | トップページ | 統計-ピアソンの積率相関係数 »

コメント

kayaさん、コメントありがとうございます。
しかし…大昔に自分が書いた書き込みは冷や汗ものです。未熟者が書いているので、割り引いてご参考になさってくださいね。お願いします。

投稿: ひろみ | 2009.09.24 23:38

かなり古い話題ですが、Kuder-Richerdsonについて調べていて、見つけたので記載しておきます。

折半法で得られたデータをもとに信頼性の計算を行う場合、Spearman-Brawnの公式が用いられますが、これをもとに一般化した公式としてKuder-Richerdsonの公式20(KR-20)とKuder-Richerdson の公式21(KR-21)が導かれたそうです。下位項目が2 項分布に従うデータ(0-1 型のダミーデータ)である場合はKR-20 を,下位項目間で正答率が等しい(難易度が均等な)場合はKR-21 を利用することができるとのことでした。

参考URLを載せておきます。

投稿: Kaya | 2009.09.23 15:47

シャロンさん、ご質問ありがとうございます。ねっからの文系で、統計も得意でないσ(^^;)ですが、取り急ぎお返事です。

ある検査が「知能」という概念を正しく測定しているか(構成概念妥当性が高いか)を知りたいのですね。「予測される変化」とはこの場合次にある「年齢・学年・集団」による変化ではないでしょうか。年齢、学年が違えば正答率が違うと予測されます。その「予測される変化」です。「予測される変化」と「実際の検査結果における差異」との相関を取り、妥当性を測定するという意味ではないでしょうか。

お答えになったかどうか・・・

投稿: ひろみ | 2004.08.22 13:14

 はじめまして。ひろみさんのHP,受験勉強の心強い先達として、折に触れ拝見しています。ご紹介されていた『キーワードコレクション』も入手し勉強中です。それについておしえていただきたいのですが・・・。
 妥当性の記述で、p33、l.17に、「予測される変化を示しているかを」とあるのですが、「検査の正答率」が、「変化」を示す、ってどういうことでしょう。執筆者でもないひろみ姉さんにお伺いするのはいかがなものかとも思うのですが、これって、「結果」の間違いでしょうか?もう感覚記憶しか残っていないのかと、自らの記憶のメカニズムを疑いたくなるような低機能の脳を受験の友とする私としては、ひろみ姉さんにおすがりするほかは・・・。よろしくご指導下さい。m(_ _)m

投稿: シャロン | 2004.08.22 12:19

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 統計-信頼性と妥当性:

« 覚悟なきものは去れ | トップページ | 統計-ピアソンの積率相関係数 »