●統計・研究手法に関する質問に答えて (2004年10月7日現在)

Q47 2元配置の分散分析などで、交互作用が出たらどうしますか?

A47 主効果を見ても意味がないので、以下の2つのどちらかを取れます。
1) 単純主効果の検定をする
2) 単純主効果の検定をせずに、交互作用があったことのみ述べる。
個人的には、2) だけではどこに差があったのかなど詳しいことなどが分からないので、1) を薦めます。
1) 単純主効果の検定については、以下をご覧下さい。
田中敏. (1996). 『実践心理データ解析:問題の発想・データ処理・論文の作成』. 東京:新曜社.

Q48 pretestとposttestが異なるテストの時には、比較できないのでしょうか?予備実験で難易度を調整したのですが、不十分ですか?

A48 比較のためには、厳密に言えば、平行テストであることが必要だと思います。

平行テストの条件
1) 2つのテストにおいて、同じ受験者に実施した時に、平均値が等しい (t-testで有
意差がない)
2) 2つのテストにおいて、同じ受験者に実施した時に、分散が等しい (等分散性の検
定をして、有意差がない)
3) 2つのテストにおいて、同じ受験者に実施した時に、他のテストとの共分散が等し
い (2つの相関間に有意差がない)

ただ、この3つの条件を満たすのは難しく、他の方法も考案されています。

Henning, G. (1987). A guide to language testing. Boston, MA: Heinle & Heinle. pp. 81-82

Q44 なぜ統計的に分析することが必要なのでしょうか。素点・平均値を見て解釈をしてはだめなのですか?

A44 それはとても重要な問いで、自分も未だに迷うことがあります。
 誤差によって、得点が変わる可能性があって、実際に見たい要因の違いなのか、誤差によって違いがあるように見えているだけなのかが分からないために、そこを確かめるためにするのだと思います。ただ、質的研究などで統計的なものが必要かについては、先行研究を見てもまちまちですし、よく分からないところです。今後も勉強していきたいと思います。

Q45 パラメトリックとノンパラメトリックでの結果が異なります。どちらを使ったらいいでしょうか。

A45 おかしな点があればご指摘いただきたいのですが、私は以下のように行っています。まず、パラメトリック検定を使う前提が満たされているかを見ます。(a) 満たされていれば、もしくは (b) 前提から外れていても頑健性により問題ないと判断できる場合は、パラメトリックの結果でいいと思います。
 (a) (b) どちらもだめな場合でも、(c) パラメトリックですが前提が満たされなくても使える検定がある場合もありますので、その検定を使います。例えばt検定・分散分析において等分散性の仮定が満たされないときに使う、Welch検定などがそれにあたります。(分散分析では、SPSS11.0以上であれば、basic版に入っています。Optionの中にチェックマークを入れれば分析されます。t検定については11.0以前から入っており、普通に分析すれば出てきます。)
 (a)-(c) のどれもだめな場合は、ノンパラメトリックを使います。
 ちなみに、パラメトリックとノンパラメトリックでの結果が同じ場合で、頑健性が満たされているかなど微妙なケースの場合は、どちらかを選択する方法と、妥協の方法として、パラメトリックで本文で述べ、注に、ノンパラでやっても同じ結果だったと述べるという方法もあると思います。

Q46 評価に主観性が入る可能性のある採点をしています。評価者間信頼性を出したいのですが、データが多く、他の方に全部採点していただくのは申し訳ないと思っています。何か方法はありますか。

A46 どの程度採点したデータに誤差があるかを調べるために、信頼性を出すのは必要です。ご質問に対する対策としては以下のどれかが考えられます。
(a) 評価者内信頼性を出す。自分で2回採点して、それの一致度を見る。その場合1回目と2回目の間には1ヶ月など、ある程度の期間を置いた方がよりよいと思います。
(b) 評価者間信頼性を出す場合、一部 (例:3割) だけ他の方にお願いする。その部分で高い信頼性が保てた場合、残りは自分ひとりで行う
 もちろん採点に入る前に、納得できる採点基準を作っておく必要があり、それを使って採点の練習を行ってから、実際の採点に入ります。(b) で2人の間に差が有り、それが採点基準の問題だった場合には、基準をより良くしてから、残りの採点を続けます。
 (a) と (b) どちらがいいのかについては、状況によると思いますが、私は、個人内の変動よりは、個人間の変動の方が大きく、他の方の目が入ることで、自分ひとりでは気づかなかった点が明らかになることを多く経験していますので、(b) をよく使っています。

Q42 アンケートをある指導前と指導後に行いたいと思います。方法として以下の2つのどちらがいいでしょうか。
1) 指導前に多くの項目でアンケートをして、主成分分析などで負荷量の高い項目のみを選び、指導後に、選んだ項目のみを実施する。
2) 指導前と指導後は同じアンケートをする。

A42 1) の方の利点は、2回目のアンケート時間が減ることだと思います。
ただ、2) のように、同じアンケートを実施して見えてくるものもあるかもしれません。またこれ以外に、指導前に行うアンケートを作る時点で、今までの研究に基づいた項目を使ったり、別な生徒に自由記述で書くよう求め、それに基づいて作成するなどで、1回目からあまり多くの項目を行わなくても済む方法はあると思います。

Q43 共分散分析はどういうときに使いますか?

A43 例えば男女で動機づけが異なるかを見るときに、動機づけを測った項目について、男女で異なるかのt検定を行います。しかし、男女の差があるとしても、それは性別から来るのではなく、女子の方が英語の成績が高いからかもしれません。そんなとき、英語の成績の影響を取り除き、男女での動機付けの差を見る方法があり、それが共分散分析です。

Q36 2元配置分散分析のノンパラメトリック版はあるでしょうか。

A36 私も知りたくて調べたのですが、調べた限りでは、2元配置分散分析のノンパラメトリック版は無いようです。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc026/00861.html

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc026/00867.html

よって、ノンパラメトリックを使いたいときには、1元配置分散分析に対応するノンパラメトリックを使うしかないようです。ただ、交互作用の点で、ボンフェローニの修正を使って、有意水準を下げる必要があるかについては、まだ分かっていません。

是非ご存知の方がいらしたら、お教えください。

*念のため、
クラスカルウォリスの検定の多重比較としてのマン・ホイットニー検定
フリードマン検定の多重比較としてのウィルコクスンの符号付順位検定の分析の際には、ボンフェローニの修正は必要です。

Q37 分散分析の前提の1つの「分散の等質性」を満たさず、各群の数が異なる場合、どんな問題が生じますか?

(分散分析の前提の1つの「分散の等質性」を満たさなくても、各群の数が同じ場合は「分散の等質性」を満たさなくても大丈夫のようです)

A37 Glass & Hopkins, 1996, pp. 293-294
に詳しい説明があります。以下の情報によって、判断が異なります。
1) 各群の分散
2) 分散分析の結果、差があると判断されたか

例えば、以下のような場合、
GroupX n = 34 分散 = 6
GroupY n = 38 分散 = 1

がかなり分散に違いがあるので、それとGlass & Hopkins, 1996, p. 294 のグラフで判断しますと、第1種の誤りをおかす割合が、.10を越えます。つまり、5%水準で分析しているつもりで、10%以上の水準で判断していることになり、

第1種の誤り
=帰無仮説が正しい時に、誤って帰無仮説を棄却する誤り
が高いことになります。

これは少々問題だと思います。ただ、帰無仮説が棄却されなかった時には問題ではないです。甘く見ても棄却できなかったので、辛く見たら棄却はできないでしょうから。

Q38 3群あるなかの、1群の分散だけが、他と大きく異なっています。このまま分析を続けていいでしょうか?

A38 そのような場合の可能性として、以下が考えられると思います。

1) 外れ値がある(極端に出来る人、出来ない人がいる)
→除く理由があるならば、それを除く→分散がより小さくなる

2) 外れ値がない場合
異質な集団が混ざっているかもしれないことを疑ってみる
→異質な群が混ざっている場合は、分けて分析してみる

ただ、あまりはっきりした理由が見つからない場合には、外れ値を抜いたり、群を意図的に分けたりというのも、よくないので、そのまま分析をしていいかもしれません。でも、いろいろな可能性を疑って、データを探索的に眺めることで、気付かなかった点が見えてきます。有意差検定をする前に、データをよく眺めてみるといいと思います。

Q39 過去に作られたテストをそのまま使うのですが、信頼性などの分析は必要ですか?

A39 必要です。信頼性・妥当性の検証が必要です。例えば、実験後のテストの項目分析をして (難易度・弁別力・信頼性の検討)、悪い問題を抜くことで、より見たいものが見えてくる可能性があります。また、テストの天井効果、床面効果により、有意差が出ない場合もありますので、いろいろ検討した方がいいと思います。

Q40 2元配置の分散分析をする際に、Box's M test (BoxのM検定) を見る必要がありますか?

A40 Box's M testは、分散共分散行列の相等性 (等質性;homogeneity of variance-covariance matrices) の前提を検定する方法です。

各群の数が等しい場合には、Box's M testの結果は無視してよい (Tabachnick & Fidell,1996, p. 382)
各群の数が等しくなく、Box's M testでp < .001で有意ならば、頑健性は保証されない (Tabachnick & Fidell,1996, p. 382)

とのことです。
→この場合どうしたらいいかについては、調べた限りでは分かりませんでした。もしこの場合に当てはまるときはまたご相談ください。

Q41 2元配置の分散分析をする際に、Mauchly's test of sphericity (Mauchlyの球面性検定) は必要ですか?

A41 それは、対応のある分散分析 (repeated measures ANOVA) を行う際の前提 (普通の分散分析での3つの前提に加えて) を検定する方法です。

この検定で帰無仮説が棄却された時には、ホイン・フェルトのイプシロン (Huynh-Feldt epsilon) をF分布の2つの自由度にかけて、自由度を調整する。調整された値は、SPSSの出力でも出る (石村, 1998, pp. 38-39)。

ホイン・フェルトのイプシロンは、第1種の誤りの割合について、より保守的でなく、より正確な推定値を出す。グリーンハウス・ゲイザーのイプシロン (Greenhouse-Geisser epsilon) は不必要に保守的な結果を出す (Glass & Hopkins, 1996, p. 575)。

とのことでした。

References
Glass, G. V., & Hopkins, K. D. (1996). Statistical methods in education and psychology (3rd ed.). Boston, MA: Allyn & Bacon.
石村貞夫. (1998). 『SPSSによる分散分析と多重比較の手順』. 東京:東京図書.
Tabachnick, B. G., & Fidell, L. S. (1996). Using multivariate statistics (3rd ed.). New York: HarperCollins College.

Q33 partial correlationとsemi-partial correlationはどう違うのですか?

A33 AとBの関係を調べる時に、影響する要因Cがあるとします。2つの方法はどちらも、Cの影響を取り除き、本来のAとBの関係の強さを見る方法です。

違いは、Cがどの要因に影響するかです。CがAのみに影響する場合には、AからCの影響を取り除き、残ったA'とBの関係を見ます。これがsemi-partial correlationです。一方、CがAとB両方に影響する場合には、AからCの影響を取り除き、また、BからCの影響を取り除き、残ったA'とB'の関係を見ます。これがpartial correlationです。

例:reading comprehension & background knowledge の関係を調べる際、reading proficiencyの影響もありそうです。

reading proficiencyがreading comprehension & background knowledge両方に影響すると考えれば、partial correlationを使います。

一方、background knowledgeとreading proficiencyは関係があるのか?と考えると、知能などの第3の変数を考えない限り、2つの関係はなさそうと考えると、semi-partial correlationを使うことになります。具体的には、 (reading proficiencyの影響を抜いた) reading comprehension & background knowledgeの関係を調べることになります (この考え方で分析した論文はReferencesをご覧ください)。

詳しくは、Glass, G. V., & Hopkins, K. D. (1996). Statistical methods in education and psychology (3rd ed.). Boston, MA: Allyn & Bacon. pp. 167-1
69 をご参照ください。

References
Ushiro, Y., Koizumi, R., In'nami, Y., Shimizu, M., Hijikata, Y., Kikuchi, K., Nakagawa, C., Naya, M., Ohkubo, A., & Murata, E. (2004). The effects of background knowledge on L2 reading comprehension: Special focus on background knowledge test methods. JACET Bulletin, 38, 63-77.
Ushiro, Y., Shimizu, M., Koizumi, R., In'nami, Y., & Hijikata, Y. (in press). Which affects EFL reading comprehension more, Background knowledge or reading proficiency? Annual Review of English Language Education in Japan, 15.

Q34 共分散構造分析を使った研究の例を教えてください。

A34 以下は博士論文が基になっており、手法の面できちんとしていると思います。

Purpura, J. E. (1999). Studies in language testing 8: Learner strategy use and performance on language tests: A structural equation modeling approach. Cambridge University Press.

Purpura, J. E. (1998). Investigating the effects of strategy use and second language test performance with high- and low-ability test takers: A structural equation modelling approach. Language Testing, 15, 333-379.

共分散構造分析のマニュアルの中にも参考文献を挙げましたので、もしよろしければご覧下さい。

http://icho.ipe.tsukuba.ac.jp./~s025053/koizumipage/koizumi_studylist.html

Q35 共分散分析等のマニュアルについて、その下のURLをクリックしましたが、Not foundというページしか出ませんでした。

A35 よく筑波大学のサーバーはダウンするので、そのためと思われます。何日か置いて見ていただくと、見られる可能性が高いです。

Q31: Participants研究の対象者について、どの程度記述をしたらいいのでしょうか?

A31: スペースとの関係ですが、できるだけ客観的に書ける部分は書いた方がいいだろうと思っています。どのような参加者だったかの記述が少ないと、解釈も、一般化もしにくいというのは、私の研究でよく指摘を受ける点です。

Q32: 記述統計などは、どの程度論文に載せればいいのですか?

A32: よく論文で、有意差があるかの検定だけの記述で、記述統計を載せていないものを見ます。また、載せていても、有意差があったものだけに限定されているものもあります。やはり、紙面が許す限り、有意なものだけでなく、全部の記述統計を載せた方がいいと思います。そうすれば、後の世にメタ分析をする場合などに、役立つかもしれないと思います。ただ、記述統計のうちどこまで載せるかは難しいのですが、メタ分析をする際に必要になる点は必ず入れる (e.g., M, SD, F値など統計量, N (またはn); 私も勉強中で、より詳しく分かったらまた書きたいと思います) という原則を守ることが1つの基準だと思います。

Q23: validity, reliabilityについて初めて勉強するのですが、どんな本から読んだらいいですか?できれば日本語で書かれたものがあるといいのですが。

A23: 妥当性・信頼性について分かりやすいと思う本を以下に挙げます。

・アーサー・ヒューズ著. 靜哲人訳. (2003). 『英語のテストはこう作る』. 東京:研究社. (Hughes, A. (2003). Testing for language teachers (2nd ed.). Cambridge University Press.訳)

・ブラウン著. 和田稔訳. (1999). 『言語テストの基礎知識』. 東京:大修館. (Brown, J. D. (1996). Testing in language programs. NJ: Prentice Hall Regents.訳)

また、様々な妥当性検証の方法については、初心者向けとは言い難いですが、雑誌Language Testingなどをご覧になるといいかもしれません。

テスト専門にやっていても、妥当性にはいつも悩まされます。(テスト専門だからこそ悩むのかもしれません。)

Q24: スピーキングテストは、見るからにスピーキング能力を測っていそうなのですが、それでも妥当性を調べることが必要なのでしょうか。また、既存で定評のあるテスト (例:CELTや英検) を使用した場合、validityを調べることが必要でしょうか。

A24: 昔はスピーキングテストは表面的妥当性 (見た目がきちんとスピーキング能力を測っていそうに見えること) があるために、それだけで十分だと言われましたが、今はどんなテストを使用する場合でも、妥当性の証拠をあげるべきとされています。(でもそうではない論文が多いです)

Q25: テストの信頼性 (クロンバックα)を出す方法を教えてください。

A25: 
■ソフトを使う方法
1) SPSS
-------------------------------
SPSSを使って、クロンバックαを算出する方法
1. データ入力
受験者1人1人について、項目ごとに点数を入力する。丸かバツかの場合は10で、アンケートや尺度の得点の場合は、0123などを、SPSSのそれぞれのセルに入力する。

項目1 2 3 4
生徒1 1 1 1 1
2 1 1 1 1
3 0 1 0 1
4 1 0 0 1
 ....

2. SPSSでの算出
Analyze
→Scale
→Reliability analysis
「信頼性を算出したい複数の項目」を、Items: の四角の中に入れる
*「信頼性を算出したい複数の項目」とは、例えば、アンケートを行い動機付けの項目が5個入っていたとする
 「信頼性を算出したい複数の項目」とは、その5個になる。

ModelがAlphaになっているのを確認する
OKを押す

信頼性の基準は場合によって異なる面がありますが、一般的に .7を基準とする場合が多いように思います。

3. 信頼性が低い場合に、中の信頼性を低めている項目を取り除き、再分析する方法
Analyze
→Scale
→Reliability analysis
「信頼性を算出したい複数の項目」を、Items: の四角の中に入れる
ModelがAlphaになっているのを確認する

ここまで上と同じ
Statistics
のボタンを押す
Descriptives for
Scale if item deleted
をチェック
Continue
OK

Outputの中に出てくる
Alpha If Item Deleted
にあるのが、その項目を除いた時に、残りの項目群で信頼性を算出した場合に、どの程度の値になるか。
信頼性が低い場合は、ある項目を入れた場合と入れない場合で、入れない場合に値が高くなるものを探し、その項目を削除することで信頼性を高めることも出来る。(ただ、削除すると、内容に関連した妥当性が低くなる場合もあり、全体的なバランスが必要)
-------------------------------

2) ITEMAN

3) TDAP
中村洋一 (2002). 『テストで言語能力は測れるか〜言語テストデータ分析入門〜』. 東京:桐原書店.についているソフトです (分析できるのは10データのみ)。

■手計算でやる方法
以下に式が載っています。
Ohtomo, K (大友賢二). (1996). 『項目応答理論入門』. 東京:大修館書店.
一般的には、項目ごとに10データにして入力し、計算します。、

Q26: 信頼性を出す場合、データ入力はどんな形でやった方がいいでしょうか?

A26: 主に3つの方法が考えられます。(これ以外にもあるので、細かくは専門書 (ブラウン著. 和田稔訳. (1999). 『言語テストの基礎知識』. 東京:大修館. (Brown, J. D. (1996). Testing in language programs. NJ: Prentice Hall Regents.訳 など) を見てください。)

1)
    項目1 2 3 4
生徒1 1 1 0
  2 0
....
 
正解が1、不正解が0とそれぞれのセルに入れる方法
 SPSSや手計算で分析する際には、この方法をとるのがいいと思います。その後の分析法は
Q25
をご覧ください。

2) 多肢選択問題で、選択肢 (例えばABCD) のどれを選んだかを入力する方法
ITEMAN, TDAPを使った分析の際にはこれを使います。

3) 合計得点を入力する方法
これはあまり使わない方がいいと思います。ただ、1項目では正解か不正解という10データの場合には、Kuder & Richardson 21 (K-R21) の公式があり、このデータ形式ですぐに信頼性が出せます。具体的には、その式には、テスト項目数、テスト得点の平均値、テスト得点の標準偏差を入れます (ブラウン, 1996/1999, p. 224)。ただ、値が低めに出る可能性がある (ブラウン, 1996/1999, p. 225) ので、あまりお薦めはしません。

Q27: ある程度有名なテストを使っている場合、信頼性は出さなくてもいいような気がしますが、どうですか?

A27: 信頼性は、たとえ、先行研究で高い値が出ていても、自分の対象者に対してどうだったのかを調べる必要があります。もし項目数が非常に多くても、難易度などが受験者に合っていないと、分散が小さくて、信頼性は小さく出る可能性もあります。

Q28 :テストの信頼性・妥当性が低くても、研究上どうしてもそのを抜けない場合があります。どうしたらいいでしょうか。

A28: 信頼性・妥当性が低い場合にも、分析する際に抜いてからその後の分析をする場合と、抜かず、解釈を注意しながら行うという場合のどちらもあると思います。
 また、信頼性や妥当性の記述のない論文はたくさんありますが、できれば書いた方が良いかと思います。

Q29: アンケート項目の妥当性も示す必要はありますか?

A29: はい。テストの信頼性・妥当性という場合のテストには、言語テストだけでなく、アンケートも含んでいます。検証法は、テストの場合と同じになります。

Q30: 重回帰分析での独立変数同士の相関が高すぎると、多重共線性 (multicollinearity) が起こり、問題だと聞きました。どの程度だと問題がありますか?

A30: Tabachnick & Fidell (1996, p. 84) によれば、多重共線性は、.9以上ぐらいだと問題になるようです。

Q22: 研究でテストを使う際、気をつけるべきことはなんですか?

A22: 最も大切なのは、テストで自分の測りたいもの、見たいものが、どの程度測れるテスト問題なのかどうかです。そこがしっかりしていないと、結果が解釈できなくなると思います。測りたいものを絞られて、それを十分に測れるものにすると、研究での調べたい所が見えてくると思います。もちろんその前提として、テストの信頼性も大切です。

Q21: イエーツの修正はどうやってやりますか?

A21: SPSSを使ってできるようで、以下の本に説明があります。

内田治. (1997). (2000?に新版がでたようです)『すぐわかるSPSSによるアンケートの調査・集計・解析』. 東京:東京図書. にのってます。

Q: 例えば、  
 ア) 英語を話すのが好きですか?
    2.はい   1.いいえ   0.わからない
 イ) 英語を読むのが好きですか?
    2.はい   1.いいえ   0.わからない

という、質問に対して、アとイで「はい」と答えたものの関連性を見るには、相関以外に検定をする場合、マクネマーの検定でよいのでしょうか?本には、2×2の分割表には適用できるとあるのですが、この場合、3×3になってしまいます。「わからない」は除かなければならないのでしょうか?

A: まず、0, 1, 2全部を使いたい場合は、コクランの Q 検定を使うようです。ただ、これは普通のコーディングではだめなようで、コーディングをし直す必要があり、少しやっかいみたいです。

SPSSでのやり方
Analyze
→Nonparametric Test
→K Related Samples
→Cochran's Q
を選ぶようです。

 ただ、0を選んだ人数は多いのでしょうか?もし少ない場合は、0をとって2×2の分割表で分析してもいいのでは?と思います。

Q20: テープ起こし (テープを聞いて発話を全部書き出す) はどうやってやったらいいですか?

A: 基本的に、テープを聞いて、コンピュータに入力していきます。決まったフレーズがある場合は、それを最初に入力してあるテンプレート的なものを作って、そこに打ち込んでいきます。トランスクライバーを使うと、スピード調節や自動巻き戻しができ、断然効率が良いです。入力が簡単な、テープ起こし専門のソフトもありそうですが、まだ私は使っていません。
 また、大変な場合、知り合いや業者に頼む方法もあるとは思いますが、自分は今まで、基本的に全部自分でやってきました。

Q19: スピーキングテストの流暢さを出すために、1分間で話した語数を使おうと思っています。

(1) その算出方法についてですが、質問してから発話までに要する時間も含めるのでしょうか?

A(1): どんな発話を流暢とみるかにもよるのですが、普通は質問して発話するまでの時間が短い方が、長く考えないと発話できないよりも流暢とみることを考えると、「質問してから発話までに要する時間も含める」のが妥当ではと思います。

 ただ、タスクが分かりにくかった場合、タスクを始めてから、すぐに発話できない時、タスクが悪いせいなのか、流暢さが低いせいなのかが決めにくいと思います。その場合は、話し始めてから、どのくらい流暢に話せたのか?という視点で、話し始めてから終わるまでの時間を対象にしても良いと思います。

(2) 誤った語の発話時間も含めるのでしょうか?

A(2): 誤りを含む発話全体で計っていいと思います。

(3) 発話と発話の間の時間も含めるのか

A(3): 生徒さんの発話と発話の間という意味でしょうか?それならば、入れると思います。

先生、生徒、先生というやりとりの中の間ならば、先生(試験官)のやり方で影響が出るので、入れない方がいいと思います。

Q18: スピーキングテストの評価はどのようにやればいいのですか?

A18: 2つの方法があると思います。

1) 評価尺度を使って行う方法。例えば、0 (全て沈黙) 〜4 (非常に流暢に話せている) のどこに、ある受験者が位置するのかを判断するやり方です。この評価には主観性が伴いやすいので、2人以上の評価者が評価をして評価に偏りがないかを調べます。人数が多い場合はこの評価尺度を用いるのが普通です。

2) もう一つのやり方は、発話を全部書き出して、その中にある語の数などを、極力客観的なやり方で調べるやりかたです。これが小泉 & 栗崎 (2002b) が行った研究の方法です。これは人数を厳選してやるのが普通で、私たちの
80人という数は、かなり大きな数です。

Q17: 主観性が伴いやすい評価では、2人以上の評価者が評価をするのが、絶対必要なのですか?学校では、スピーキングテスト実施だけでも大変で、2人以上が評価するなどできないです。

A17: 学校での評価でも2人必要かについては、実用性との兼ね合いがあるので、難しい問題です。私は、基準を前もって立てて、練習などしておけば、1人でもいいと思っています。

 ただ、厳密さを求める研究用の評価では、1人の受験者を最低2人が評価するのが必須だと思います。または、1人が期間を置いて2回評価する形式もあります。

Q16: なぜ、小泉さんは研究で、今までモノローグのタスクしか扱っていないのですか?

A16: interactionがあるタスクでは、 Q18の 2) を使うのが難しいと思うからです。これは、よく研究では使われているのですが、例えば、試験官がYes, Noしか言わないタスクでも、その言い方によってその後にどんな発話が出てくるかは厳密に言うと変わってくると思うのです。その影響までを含めて分析するのは難しいと感じているので、まず分析しやすいモノローグから研究しています。

Q15: SPSSで分析するのですが、最初にExcelに入力した方がいいのですか?

A15: 最初からSPSSでも問題ありませんが、私はいつもExcelに入力を最初します。理由は、集計などをする際に計算式が残るので、間違いがあった場合に前に戻りやすいと思うからです。

Q14: 2人の評価者の一致度はどのようにして出しますか?

A14: 2つの方法があります。

(1) スピーキングテストでの誤りの数の評価だとすると、全体の誤りの数を数え、Excelなどに打ち込みます。

例:  評価者A   B

生徒A     5   7

生徒B     6   8

生徒C     4   4

...

そして評価者間での相関を出す方法があります。

(2) 評価者Aが誤りとした部分とBが誤りとした部分が一致したパーセントを出し、それを基に一致度を出す方法 (Cohen's kappaなど)。

 (2) は、内容の分析が関わる場合は、こちらの方が (1) より厳密です。内容の分析というのは、例えば、スピーキングテストで誤答の数を数えた際、ある受験者について評価者Aは10個、評価者Bは10個と言う場合などです。この場合、評価者AとBの10という数は一致しているものの、どこを誤答としているかについては、一致しているかは相関では分かりません。そのようなときには (2) の方が厳密に見られます。

 詳しくは、Iacobucci, D. (2001). Journal of Consumer Psychology, 1-2. のp. 71-73にinterrater reliabilityの節がありますので、ご覧ください。

Q: p値の書き方について、2つの考え方があると思います。

(1) 5パーセント水準でOKならば p < .05、1パーセント水準でOKならば p < .01

と書く方法

(2) 有意水準を決めたら、それを満たすか満たさないかで考える

つまり、5パーセント水準で検定したとMethodに書くならば、以降も一貫して、p < .05と書く方法

2つの方法のどちらがいいのでしょうか?

A: 一般的に多いのは (1) の方法ですが、統計的に正しいのは (2) だと思います。5パーセント水準と1パーセント水準の差と言うのは、例えばt検定ならば、平均値の差の大きさの違いでなく、どの程度誤りをおかすかの確率(第1種の誤り)であることを考えると、最初に5パーセントと設定したならば、それを動かさない方がいいからです。

Q13: 多肢選択式の問題をやるのですが、実施人数が多く大変です。簡単に採点する方法はありますか?

A: 自作マークシート集計・採点ソフトウェアRemark Office OMRというソフトがあります。スキャナーで答案を読み込めば、自動的に採点でき便利です。詳しい説明は、以下です。

自作マークシート集計・採点ソフトウェアRemark Office OMRマニュアル

Q1: テストの結果に基づき、上位群と下位群にわける場合、SPSSでどのような手順になりますか?

A1: SPSSの操作ですぐにやることはできないと思います。私の場合Excelで得点順に並べて、そこから上位何人、下位何人と数えて、上位群は3、下位群は1などとコーディングし、その後、各群間の母集団に、実際に有意差があるかを調べるために、SPSSを使用しました。

Q2: 上位群・下位群の分け方はいろいろあると思います。(例: 上位下位それぞれ27%でわける) 特に、定着している一般的なわけ方はありますか?

A2: 包括的に論じた本等はまだ見たことがありません。私は大友先生の本 (大友, 1996) の27パーセントをいつも使っています。SDで分ける方法・3分の1ずつ分ける方法、結局は研究者がどのくらいの差があれば異なるグループと見るかという見方に行き着く問題かと思います。

参考文献:大友賢二. (1996). 『項目応答理論入門』. 東京:大修館書店.

Q3: Friedman検定 (3つ以上の群の対応のあるものの差を見る、ノンパラメトリック検定)を行って、有意差があると分かった場合、多重比較はどうしていますか?

A3: ボンフェローニの調整をして、有意水準を変えて検定しています。

やり方ですが、例えば、3群の比較をして、5%水準の場合、0.05/3≒0.017を基準とします。(つまり、0.05÷組み合わせの数)

ただ、もともとは同じテストを使って比較するときに使う検定だと思うので、実際これでいいのかなと不安なところはあります。

Q4: t 検定全般について質問します。論文の中で、2つの母平均の正規性を示す必要はありますか?

A4: きちんと示した論文はあまり見ないのですが、本来は書くべきことだと思います。

 ちなみに、正規性が示せない場合ですが、t 検定, ANOVAは頑健性があり、正規性がくずれても人数が多いなどの要因が満たされていれば、大丈夫と言われています。もしそれにあてはまるケースならば、t 検定を使ってもいいと思います。書き方は、きちんと書く方がいいですが、どの程度の精密さを論文に求めるかは、ご自分の気持ち次第のところがあると思います。後はjournal論文なら、スペースがあるかどうかも大きな決定要因ですね。

Q5: 1を5、2を4というふうに変換するのは、パソコンでそのように指定すればできるのですか?SPSSですか?エクセルですか?手順を教えてもらえませんか?

A5: 変換はSPSSでtransform (analyzeのとなりの列) -> recode でできます。

Q6: 2元配置の分散分析における、多重比較について質問させてください。2元配置の分散分析の結果、2つの要因のあいだに交互作用がなければ、それぞれの要因でのグループ間の差の検定に進みます。2つの要因のあいだに交互作用があった場合、どうしたらいいのでしょうか?

A6: そのままですと、検定ができないので、分解して、検定していくことになります。以下の本で私は勉強しました。いろいろな例で分析法が書いてあるので、とても役立つ本です。

参考文献:田中敏. (1996). 『実践心理データ解析:問題の発想・データ処理・論文の作成』. 東京:新曜社.

Q7: SPSSの打ち出しを見ていると、読み取り方がよくわからない場合があります。本を探しても載っていない場合、どうしていますか?

A7: 私の場合、(1) SPSSのマニュアルを読む、(2) さらに本を探す、(3) インターネットで検索する、(4) インターネットで質問に答えていただけそうな所に尋ねてみる、などしてみます。また、(5) 小さなデータセット(自分のデータを簡略化したもの) を作って、分析してみることもあります。例えば、平均値が出ているけれど、何の平均値か分からないような場合があるとします。その場合は、小さなデータを作って、自分で手計算でしてみて、SPSSでもやってみて、値があうものがそれだと解釈してみる、ということです。でもこれは、少し複雑な計算になるものだと使えませんが。

Q8: 1元配置分散分析において、分散の等質性の仮定がなぜ必要なのでしょうか?平均が異なれば、分散も異なるものではないですか?

A8: 石村貞夫. (1992). 『分散分析のはなし』. 東京:東京図書. で調べました。

p. 106
1元配置分散分析において、重要な仮定の中のひとつは、標本が「正規母集団」からのとられているというもの

この仮定は、正規母集団の母分散σ2乗は、水準(グループAとBなど)のとりかたによらない、つまり、どの水準の母分散も全て等しいとしている。

(以後は私の説明)
例えばグループA、B、Cでの平均値の差の検定をする場合、
A、B、Cそれぞれに異なる母集団からとってきているのですが、
その母集団は皆正規性があるので、分散は等しいと考えられている。

よってこの仮定のもとに成り立っている分散分析では、等分散が成り立っているかを調べる必要があるということだと思います。

Q9: 性別と英語の成績の関係を見る場合、ピアソンの相関は使えますか?

A9: その相関はこの場合使えません。性別を12とコーディングしたとしても、それは名義尺度でしかないからです。

Q10: 2変量の相関を見る場合で、正規性のないデータの場合はノンパラメトリックの相関を使いますか?また、ピアソンの相関は、2つのテスト成績を比較する場合には、どちらのテストでも正規性がないといけないのでしょうか?

A10: そうだと思います。例えば以下に書いてあります。

観測されたデータの分布の状況などからみて、母集団に2変数正規分布を仮定するのが不適当である場合には、... スピアマンの順位相関係数を利用することが出来る。
参考文献:芝祐順 & 南風原朝和. (1990). 『行動科学における統計解析法』. 東京:東京大学出版会. p. 126

相関で、分散分析などで言われる頑健性があるのかについて、少し調べてみたのですが、それについての記述はまだ見つかっていません。

Q11: 簡単に以下の統計手法がどんなことを調べられるのかを教えてください。

(1) 相関
(2) 因子分析、主成分分析
(3) 共分散構造分析

A11:
(1) 相関
2つの変量(例:英語熟達度と言語不安)の関係がどの程度あるかを見ます。

(2) 因子分析、主成分分析
2つともたくさんの変量を扱って、それぞれの変量の関係をベースに、強い関係のあるもの同士を固まりにしていく方法です。背後に因子があると想定するならば、因子分析を使います。因子を想定しないならば、主成分分析を行います。因子分析には、探索的に調べる方法 (探索的因子分析) と、自分でモデルを作ってそれに当てはまるかを調べる確証的因子分析があります。

 例えば、言語学習への適性を調べたいとして、適性に関する質問項目をたくさん作り、実施・得点化し、上の分析を行います。(普通はその場合は因子分析です) 結果として、出てきた要素に名前づけをしていきます。例えば、Skehan (1998, p. 233) は適性は(a) phonemic coding ability (音素を解読する能力)、(b) language analytic ability (言語を分析する能力)、(c) memory (記憶) の3種類に分けられています。(これが実証されているかはちょっと今分からないのですが。でも手順としては同じだと思います)同じような手順で、知能研究や性格研究などがなされてきました。

(aptitude* (適性)について、ご興味がありましたら、http://www.modern.tsukuba.ac.jp/ushiro/index.html  在学ゼミ生談話室 の ●第2言語習得 (second language acquisition: SLA) に関する用語集 をご参照ください) 

(3) 共分散構造分析
因子分析と回帰分析が組み合わさった手法です。自分でモデルを作り、そのモデルと実際のデータがどのくらい一致するかを見ます。実際に見えないものは共分散構造分析では、楕円で表され、実際に観測できるものは四角で表されます。因果関係をモデル化し、そのモデルに実際のデータがどの程度フィットしているかを確かめることが出来ます。

Q12: アンケートの結果を入力する時に、1〜5までのリカート・スケールの場合は、どのように入力するのがいいのですか?

A12: 測りたいものの量を考えて、5が多く、1が少ない形で入力するのがいいと思います。例えば、言語不安を測る時に、5が「不安がとても多い」1が「不安が全然ない」などの形です。もちろんその逆の入力でも間違いではありません。でも、私は、解釈時に解釈しやすいような形にする方が、間違えにくいので、こうしています。

●ご意見等は 小泉利恵 (筑波大学大学院生) まで koizumirie@hotmail.com

情報伝達・メディア論分野 ホームページ トップへ  小泉のページへ  

今まで勉強したこと トップへ