E46F4F36-FFFC-4AB8-9832-54756B0196CE

photo&lyric by sora (@Skylit_Blue)

誰かにとっては「愛でたい花」であったとしても、自分にとっては僅かも心をかすめない「ただの花」かもしれない。でもそれはひとつの事実に過ぎず、互いにその"花"を押しつける必要もないし、わざわざ"花"を踏み潰す必要もない。そんな、いろんな花が咲き誇る世界がいいね。


◯ 公認心理師試験テスト理論・ワタシをキライにならないで。

1.序

統計法や実験法は受験生のみなさん本当にイヤイヤの人たちが多いのですが、覚えてしまえば結構な得点源になります。事例問題に絡ませるなども出題されかねないので基本だけは覚えておけば何のことを言われているかは少なくともわかるでしょう。それに公認心理師試験は計算問題は出ません。統計も国語問題の一種と言えます。今回は古典的テスト理論の記事です。過去国家総合職試験にも家裁調査官補採用試験にも論述で出ていました。

2.信頼性と妥当性

これは古典的テスト理論の概念で、あるテストを行った際にそのテストが測定しようという内容を正確に反映させているかどうかを見るものです。信頼性が高ければ必ず妥当性も高いというわけでもなくその逆も真です。バスケットのゴールに球が連続して入っているから信頼性が高いというわけではなく、隣のゴールに入っているかもしれません。また、バスケットの能力を測ろうとしているのにゴルフボールを使っていたら妥当性はないわけです。

⑴ 信頼性

これは、そのテストが測定しようとする内容がきちんと信頼できるテストとなっているかどうかを見る概念です。わかりやすく説明します。

ア 安定性(再現性)

例えば同一対象に対して同じテストをやってみて同じような結果が得られれば安定性が高いと言えます。

イ 等価性

テストが測定しようとしている構成概念が他のテストと似通っているかどうか見るものです。

ウ 内的整合性

テストの尺度内の項目それぞれが関連しているか、同じ内容を測定しようとしているかどうかです。うつ状態を測定するテストである項目はみなさん4〜5、ある項目は0〜1ということだとそのこのテストの内的整合性が認められないことになります。

※ さて、上記ア〜ウはあくまで信頼性を表す概念です。この信頼性を具体的に測定する方法は以下のとおりで、これによって求められた数値を「信頼性系数」と呼びます。エ、オ、カはそれぞれア、イ、ウに対応します。

エ 再検査法

「ア」の安定性、再現性があるかどうかを見るために一定の(1カ月ぐらい)間を置いて検査してみます。その数値が似通っていれば信頼性が高いと推定します。

オ 平行(代替)テスト法

測定対象となるテストと設問内容、問題レベルがだいたい同等のレベルのテストを用いてその結果からテストに信頼性があるのかどうか検討します。古典的テスト理論の中ではセンター試験などがこれに当たるようです。公認心理師試験もこの平行法を繰り返していると思われるのですが、いかがでしょうか。

カ 折半法

テストの項目を半分に分けて、両者の相関関係ρでその内的整合性、信頼性を検討します。

この折半法の信頼性検定には2通りあり、スピアマン・ブラウンの公式だと総合得点の信頼性係数をρ、それぞれの合計点間の相関係数をrとすると,推定のための式は
ρ=2r/(1+r)
となります。

クロンバックのα係数は、全ての分け方についてスピアマン・ブラウンの公式で相関係数を求めるやり方です。

α=項目数/(項目数-1)×(1-(各項目の分散の合計/合計点の分散)

で、項目数が増えればαは自然に高くなります。α係数が0.80を超えれば相関係数はかなり高いと言えます。ρ(相関係数)は必ず0から1の間の値を取ります。

⑵ 妥当性

ア 基準関連妥当性

外的な基準に照らし合わせて妥当性があるか。例えば社会心理学の知識を問うテストで、同じようなテストが同じ内容を測定していれば基準関連妥当性があると言えます。

時系列に従って、基準関連妥当性は同時に相関を取る場合は同時的妥当性、基準を未来にした場合の予測妥当性があります。

例えば心理学を学ぶ意欲についてのテストをやってみて、実際に1年後、心理学の成績との相関が高ければ予測して妥当性があると言えます。

また、基準関連妥当性の中には「判別妥当性」があります。うつ度に関する新しい判別性格検査を作成し、実際にうつ病の患者さんがテストの点数が高ければ判別妥当性が高いと言えます。

併存的妥当性は、例えば不安度に関する検査を作成し、それが既存の不安尺度検査と相関関係が高ければ併存的妥当性が高いと言えます。同時妥当性と似ています。

基準関連妥当性は経験的妥当性、統計的妥当性とも言われます。経験的・統計的に検証してデータの妥当性を確認するからです。

差異妥当性というのは、他の基準変数を考えた時にかなり識別力が高い妥当性のことを言います。色彩と性格に関するテストを作ったとして、赤い色を人は情熱精神科だけが高くて、攻撃性や女性性といった他の性格とは関係ないというテストができたらそのテストは攻撃性に関してだけを検出するので差異妥当性が高いということです。

増分妥当性は、ひとつだけのテストだけではなく、テストバッテリーを組んで、例えばロールシャッハ、ウェクスラー式知能検査、MMPIとテストの数を増やすとその人の知能を含めた情報処理能力や性格全般が見られるようになるわけです。

基準関連妥当性の中には交差妥当性という概念があります。テストの対象となる母集団が変わった場合の妥当性です。

関東のA高校と関西のB高校の生徒にテストを実施すると文化が違うのでテスト結果は異なって出てくるかもしれません。これがA国とB国ならもっと違う可能性があります。これを交差文化妥当性と言います。

ある特定集団に限定されている妥当性を内部妥当性、外部集団にも適用できる妥当性が外部妥当性です。

イ 構成概念妥当性

測定したい妥当性とその仮説となる構成概念が一致しているかどうかというものです。構成概念妥当性は妥当性の中でも最も中心的な概念と言われています。テストを作成する時に総合的な学力を測定しようとしたら、国語、英語、数学、ほか文系理系科目が必要なわけです。構成概念妥当性が因子的妥当性と言われるのはこういった個々の因子が妥当性に適合しているかどうかを見るためです。

構成概念妥当性を見る上で、別々の方法で行い、例えばテストAとテストBで測定してもその結果に高い相関がある場合を収束的妥当性と言います。

その逆に、同一測定法でも別の構成概念を測定するのであれば相関関係が低くなるのを弁別的妥当性と言います。性格テストで、不安性との相関が高く、テスト結果と内向性の相関が低ければこのテストは弁別的妥当性が高いと言えます。

ウ 内容的妥当性

例えば心理学全体の知識を問う試験を作成する場合には統計やテスト理論を抜いた試験は内容的妥当性がありません。

算数、書取りのような特定科目における妥当性を教科妥当性と言います。

また、例えば「基底欠損度」のようなサンプリングができないものと異なり、うまくサンプリングがしやすい「不眠状態」は標本妥当性と言います。

内容的妥当性と似ていますが、一見このテストは数学的能力を測定していると思えればそれは表面的妥当性と言えます。実際なところは分析してみないとわからないわけですが表面的にその因子を測定していると思えれば構わないわけです。

論理的に内容を吟味して、妥当性があると思えればそれは論理的妥当性です。公認心理師試験の設問それぞれが内容として適切に心理学の力を説明できると思えればそれは論理的妥当性です。

以上、古典的テスト理論について述べてみました。

読みながら頭に入れていけばテスト理論や統計は怖い科目ではありません。