●母平均値の推定処理 母集団 ----------------------------→ 標本集団 母平均値μ=? ランダム抽出 データ x1、x2、・・・ xn 母分散=? 標本数 n 標本平均値 m ↑ 区間推定する 標本標準偏差 Std ---------------------------------- ある統計的条件で推定する その場合、使用する語句は以下 有意水準、危険率、信頼度(信頼水準)、α、もしくはp また、統計学の慣例として、次の2条件で処理をする場合が多い α=0.05、α=0.01 α=0.01の場合 ・・・・ 有意水準1%、危険率=1%、信頼度=99% 100個のデータのうち99個まではその様にいえるが、あとの1個について はその様に言えるかどうかわからない。 α=0.05の場合 ・・・・ 有意水準5%、危険率=5%、信頼度=95% 100個のデータのうち95個まではその様にいえるが、あとの5個について はその様に言えるかどうかわからない。 母平均値μについて、統計量(m−μ)/(Std/√(n))の分布は、自由度dfのt分布に従う事が知られている そうすると、次の不等式が成立する −t(α/2) ≦ (m−μ)/(Std/√(n) ≦ +t(α/2) : : ↓ μについて不等式を解くと m−t(α/2)×Std/√(n) ≦ μ ≦ m+t(α/2)×Std/√(n) m : 標本平均値 Std : 標本標準偏差 n : 標本数 α : 有意水準値 t(α/2) : 有意水準α、自由度dfにおけるt分布表値 例1 ある集団の平均値を推定したい。集団から16人をランダム抽出し、その平均身長と標準偏差を計算すると、そ れぞれ170cm、12cmであった。 このとき、信頼度95%(有意水準5%)で、元の集団全体の平均値(母平均値)を区間推定しなさい。 解 データ ------------------------ 標本数 16 平均値 170 標準偏差 12 有意水準 0.05 (信頼度95%) ------------------------ 計算 t(0.05、16-1)のt分布表値 2.131 ←---- =tinv(0.05、16-1) 従って母平均値は 163.6 〜 176.4 =170−2.131×12/√(16) =170+2.131×12/√(16) 結論 信頼度95%では、元の集団全体の身長の平均値は、163.6cmから176.4cmと区間推定できる。 例2 ある母集団からの標本数20名について、タンパク質摂取量(g)を測定したところ、平均値が77g、標準偏差 は11gであった。 1)この集団のタンパク質摂取量を信頼度95%で推定しなさい。 2)この集団のタンパク質摂取量を有意水準1%で推定しなさい。 解 基本統計値 ------------------------------- 標本数 20 平均値 77 標準偏差 11 ------------------------------ 計算 1) 信頼度95%におけるt分布表値 t(0.05、20−1)=2.093024 ←-------- =tinv(0.05、20−1) 従って母平均値は 70.7 〜 83.3 =77−2.093024×11/√20) =77−2.093024×11/√(20) 2) 有意水準1%におけるt分布表値 t(0.01、20−1)=2.860935 ←-------- =tinv(0.01、20−1) 従って母平均値は 68.4 〜 85.6 =77−2.860935×11/√20) =77−2.860935×11/√(20) 結論 1)信頼度95%では、元の母集団のタンパク質摂取量の母平均値は、70.7gから83.3gと区間推定でき る。 2)有意水準1%では、元の母集団のタンパク質摂取量の母平均値は、68.4gから85.6gと区間推定でき る。 例3 ある地区で無作為に抽出した40歳以上の男性の血清聡コレステロール値は、以下の通りであった。 この地区の40歳以上の男性の血清総コレステロール値の母平均値は、どの範囲にあるか、信頼度95%で区間 推定しなさい。 データ(mg/dl) ------------------------------------------------- 178 190 164 170 230 190 210 198 240 186 170 200 ------------------------------------------------- 解 基本統計値 ------------------------------- 標本数 12 平均値 193.8 標準偏差 23.594 ------------------------------- 計算 信頼度95%におけるt分布表値 t(0.05、12−1)=2.200985 ←--------- =tinv(0.05、12−1) 従って母平均値は、 187.2 〜 200.4 =193.8−2.200985×23.594/√(12) =193.8+2.200985×23.594/√(12) 結論 信頼度95%において、この地区の40歳以上の男性の血清総コレステロール値の母平均値は、187.2か ら200.4(mg/dl)と区間推定できる。 ●t検定処理 二つの集団間の平均値の差の検定 ・・・・ 検定処理(t検定) 母集団 -----------------------→ 標本集団A ------------------------→ 標本集団B ランダム抽出 ある処理を行う 母集団 -----------------------→ 標本集団C 同一母集団の別の部分から ランダム抽出 ・処理を施した前後の標本集団A,B間に差が生じたかどうかを調べる ・・・・ 2集団間に対応関係がある場合の平均値の差の検定 ・同一母集団から得られた標本集団A,C間に差が有るかどうかを調べる ・・・・ 2集団間に対応関係が無い場合の平均値の差の検定 (2集団は等分散と仮定 通常のt検定) 有意水準αで有意な差が有るかどうかは、検定統計量(値)を計算で求めて、有意水準αと自由度dfでのt分布表値 と以下の検定の通り比較する ※検定の方法 検定統計量t≦t分布表からの読取り値 ・・・・ 有意水準αで有意差あり (計算による) t(α、df) 帰無仮説を棄却して、対立仮説を採択 平均値に有意な差が認められる 検定統計量t≧t分布表からの読取り値 ・・・・ 有意水準αで有意差なし 対立仮説を棄却して、帰無仮説を採択 平均値に有意な差は認められない ☆p値を使用して検定する場合 p値≦有意水準α ・・・・ 帰無仮説を棄却して、対立仮説を採択 p値≧有意水準α ・・・・ 帰無仮説を採択して、対立仮説を棄却 なお、p値は以下の統計関数を用いて求められる p値 ←-------------- =tdist(検定統計量t、自由度、2) 1 : 片側検定 2 : 両側検定 ◎2集団間に対応関係がある場合の平均値の差の検定 次式で、検定統計量tを求め、t分布表からの読取り値t(α、df)と比較する 差の平均値 検定統計量t = ----------------------- √(差の分散/標本数) 検定統計量t≧t(α、df)の場合 ・・・・ 有意水準αで有意な差が有る(有意差あり) 処理前後で、平均値に差が認められる この処理は有効に機能した 対立仮説を採択する 定統計量t≦t(α、df)の場合 ・・・・ 有意水準αで有意な差は認められない(有意差なし) 処理前後で、平均値に差は認められない この処理は有効に機能していない (別の処理を考えなければならない) 帰無仮説を採択する t(α、df) : 有意水準α、自由度dfのt分布表からの読取り値 統計関数を用いて =tinv(α、df) 例 次の表は、高血圧患者10名に対して、1年間、減塩指導を施す前と後の最高血圧値の変化を表している。 この表から、この減塩指導がこの高血圧患者10名の最高血圧値の降下に有効であるかどうかを有意水準1%で 検定しなさい。 表 : 減塩指導前後の最高血圧値 ----------------------------------------------------------- 被験者 指導前 指導後 差(指導前−指導後) -------------------------------------------------------- 1 168 165 3 2 179 145 34 3 170 165 5 4 167 161 6 5 175 170 5 6 172 145 27 7 169 150 19 8 173 164 9 9 166 157 9 10 176 152 24 ------------------------------------------------------- 計算 差の平均値 = 14.1 差の分散 = 124.2111 検定統計量t= 4.049934 t(0.01、10−1)=3.250 ←------t分布表から読み取る =3.249836 ←------=tinv(0.01、10−1) ◎分析ツールを利用 t-検定 : 一対の標本による平均値の検定ツール ---------------------------------------------- 指導前 指導後 --------------------------------------------- 平均値 171.5 157.4 分散 18.05556 80.26667 観測数 10 10 ピアソン相関 −0.30062 仮説平均 0 自由度 9 t 4.049934 p(T≦t)片側 0.001443 t境界値 片側 2.821438 p(T≦t)両側 0.002885 t境界値 両側 3.249836 ----------------------------------------------- 結論 検定統計量t=4.050>3.250=t(0.01、10−1)より、有意水準1%で有意な差がある事が分かる。 従って、この減塩指導は、この高血圧患者10名の最高血圧値の降下に有効に働いていると結論付ける事 ができる。 詳細は下図を参照