●統計分析(基本) ・推定処理 ・検定処理 ・相関と回帰 (1変量、もしくは2変量間の関係について) ●推定処理 標本勇断を基にして、ある条件下で元のの母集団の値(平均値)を推定する。 母平均値の区間推定 ある条件 ・・・・ 信頼度、有意水準、危険率 α、pで代表する 有意水準α=0.05、or α=0.01で、t分布表から読取り、使用、または目的の有意水準と 比較する。 例 25個のデータ集団 t分布表 有意水準5%(α=0.05) -------------------------------- で処理の場合 α df ------------------------ n=25 0.05 0.01 df=25-1 --------------------------------- (自由度、標本数-1 1 ↓ α=0.05 --------------------------------- 2 ↓ ・t分布表からの読取り ---------------------------------- t(0.05、25-1)→ ◎値 3 ↓ ・エクセルの関数を利用 ---------------------------------- =tinv(α、df) ・ ↓ ----------------------------------- ・ ↓ ----------------------------------- 24 → → ◎ ----------------------------------- 25 ----------------------------------- 26 ------------------------------------ この値◎をt分布表から読み取る t分布表からの読取り t(0.05,25-1)=◎値 ランダム抽出 母集団 -------------------------→ 標本集団 母平均値μ=? データ : x1、x2、・・・・、xn 母標準偏差=? ←------------- 標本数 : n 区間推定する 標本平均値 : m 標本標準偏差 : Std ある統計的条件で推定する その場合、使用する語句は以下の用語を使用する 有意水準、危険率、信頼度(水準)、α、p また、統計学の慣例として、次の2条件で処理する場合が多い。 α=0.01、0.05 α=0.01の場合 ・・・・ 有意水準1%、危険率1%、信頼度99%、α 100個のデータのうち99個まではその様に云えるが、あとの1個についてはその 様に云えるかどうかわからない。 α=0.05の場合 ・・・・ 有意水準5%、危険率5%、信頼度95%、α 100個のデータのうち95個まではその様に云えるが、あとの5個についてはその 様に云えるかどうかわからない。 母平均値μについて、統計量(m−μ)/(Std/√(n))の分布は、自由度dfのt分布に従う事が知られ ている。 そうすると、次の不等式が成立する。 −t(α/2) ≦ (m−μ)×Std/√(n)) ≦ +t(α/2) : : μについて不等式を解くと : ↓ m−t(α/2)×Std/√(n) ≦ μ ≦ m−t(α/2)×Std/√(n) m : 標本平均値 n : 標本数 df : 自由度(=n−1) Std :標本標準偏差 α : 有意水準 t(α/2):有意水準α、自由度dfにおけるt分布表値 例1 ある集団の平均値を推定したい。集団から16名をランダム抽出し、平均身長、標準偏差を計算すると、それぞ れ170cm、12cmであった。 このとき、信頼度95%(有意水準5%)の場合で、元の集団全体の平均値(母平均値)を区間推定しなさい。 解 基本統計値 -------------------- 標本数 16 平均値 170 標準偏差 12 有意水準 0.05% -------------------- 計算 t(0.05、16−1)の読取り値 = 2.131 ←------- =tinv(0.05、16−1) 従って、母平均値μは、163.6 〜 176.4 =170−2.131×12/√(16) 〜 =170+2.131×12/√(16) 結論 信頼度95%では、元の集団全体の身長の平均値は、163.6から176.4cmと区間推定できる。 例2 ある母集団からの標本20名について、タンパク質摂取量(g)を測定したところ、平均値が77g、標準偏差は11g であった。 1)この集団のタンパク質摂取量を信頼度95%で推定しなさい。 2)この集団のタンパク質摂取量を有意水準1%で推定しなさい。 解 基本統計値 ------------------------------- 標本数 20 平均値 77 標準偏差 11 ------------------------------- 計算 1) 信頼度95%におけるt分布表値 t(0.05,20−1) = 2.093024 ←-------------- =tinv(0.05、20−1) 従って、母平均値は、70.7 〜 83.3 =77−2.093024×11/√(20) 〜 =77+2.093024×11/√(20) 2) 有意水準1%におけるt分布表値 t(0.01,20−1) = 2.860935 ←-------------- =tinv(0.01、20−1) 従って、母平均値は、68.4 〜 85.6 =77−2.093024×11/√(20) 〜 =77+2.093024×11/√(20) 結論 1) 信頼度95%では、元の母集団のタンパク質摂取量の母平均値は、70.7から83.3gと区間推定できる。 2) 有意水準1%では、元の母集団のタンパク質摂取量の母平均値は、68.4から85.6gと区間推定できる。 例3 ある地区で無作為に抽出した40歳以上の男性の血清総コレステロール値は以下の通りであった。 この地区の40歳以上の男性の血清総コレステロール値の母平均値は、どの範囲にあるか、信頼度95%で区間推 定しなさい。 データ(mg/dl) ------------------------------------------------- 178 190 164 170 230 190 210 198 240 186 170 200 ------------------------------------------------- 解 計算 基本統計値 ----------------------------- 標本数 12 平均値 193.8 標準偏差 23.594 ----------------------------- 信頼度95%におけるt分布表値 t(0.05、12‐1)=2.200985 ←------------------- =tinv(0.005、12‐1) 従って、母平均値は、187.2 〜 200.4 =193.8−2.200895×23.594/√(12) 〜=193.8+2.200895×23.594/√(12) 結論 信頼度95%では、この地区の40歳以上の男性の血清総コレステロール値の母平均値は、187.2から200.4mg/dl と区間推定できる。