基礎統計 2014/5/9 mcobaya.web.fc2.com/kisotokei/index_ut.htm [email protected] s2 ( X 1 X) 2 ... ( X N X) 2 か N s2 ( X 1 X) 2 ... ( X N X) 2 N 1 ブドウの糖度の例は、不評なので成績にしました。 で見当をつける(推定)することができる。後者の分散 前提1:母集団の分布が平均 , 分散 のとき、そこ の推定量を不偏分散という。なぜ、N ではなく N-1 でわ か ら 無 作 為 ( random) に 抽 出 ( 抜 き 取 っ た ) 標 本 を 本(不偏)分散 s2 を母分散 2 で代用してもよいとしよ 2 X 1 ,..., X N とする。このとき E ( X 1 ... X N ) N , V ( X 1 ... X N ) N 2 ここから E ( X ) , V ( X ) 2 / N は容易にわかる。 るかは後回し。N が十分大きい時は精度も高いので、標 う。N が多いのかどうかの判断基準、分散の誤差を考慮 する方法は後まわし) 問題3 Case 1:分散 2 が不明だが、N が大きい時 N=16 個の生徒の標本平均 X =25 であった。分散 s 2 前提2:正規分布に従う変数の和の分布も正規分布に =0.64,標準偏差 s 0.8(=0.64 の平方根)が十分精度 従う。(証明は後回し) の高い推定と仮定し、 2 =0.64,標準偏差 0.8 と 区間推定 しよう。 p.95 例:A クラスの生徒の平均成績 をしりたい。N 個の生 徒を無作為に抽出して成績を計測した。母集団の生徒の 2 成績の分布を X ~ N ( , ) とする。 (Case 2 2 の推定誤差を考慮にいれる場合は後回し) 2 が十分高い精度で推定される場合(または不 Case 1: 自然だが既知と仮定) 2 問題1N=1 の極端な例 p.99 X ~ N ( , ) として、A ク 2 ラスの生徒をひとり無作為にえらんで、X =25, 10 の とき、 の 99%信頼区間、95%信頼区間を求めよ。 問題2p.103 、A クラスの生徒を9人無作為にえらんで 2 N=9 X =25, 10 のとき の 99%信頼区間、95%信頼 区間を求めよ。A クラスの成績を知るのならば、9人選 んだほうが、問題1よりも精度が高くなり、信頼区間も 狭くなるはず。 注意;一番わかりにくいのは「標本平均の分布の分散」。 z ( X ) / 2 / N は平均 0,分散1の標準正規分布に なる。 E ( X ) 0, V ( X ) V ( X ) 2 / n, V (( X ) / 2 / n ) 2 / n / ( 2 / n ) 2 1, Pr(| ( X ) / 2 / N | 1.96) 0.05 より Pr( X 1.96 2 / N X 1.96 2 / N ) 0.95 Pr( X 1.96 2 / N X 1.96 2 / N ) 0.95 解釈: X は、ほぼ確実に期待値 から 1.96 2 / N 以内 の距離にある。逆に考えると、未知の はほぼ確実に X 何百人もいる学生のなかからの9人の選び方で標本平均 から 1.96 2 / N 2 SE 以内の距離にある。 は大きくなったり小さくなったりする。N を大きくとっ 注意:1.96は実務的には2と考えてよい。 たほうが、A クラスの成績の分布の平均を高い精度で知 たとえ話:推定量(推定子)が子供、真の係数が母親(母 ることができる。(分散が小さい) 数)。子供は母親から 1.96×標準誤差(推定量の分布の標 準偏差)の距離に確率 95%で存在するのならば、子供は母 分散の推定量( 10 が既知は非現実的なので、見当 親は±1.96×標準誤差の範囲に存在するはず(母親が子 をつけよう) 供の 1.96×標準誤差にいるという判断は 95%で当たる) 分散 は「変量の平均 からの偏差の二乗」の平均な 信頼係数 95%の信頼区間は 25±1.96×0.8/√16≒25±2 ので、 X は に代用できるほど精度が高いとして この方法で作る信頼区間は 95%の確率で真実の値を含む。 2 2 ×0.2=25.4 24.6 (95%の確率で魚を捕まえる網のようなもの) 5%以下の確率の滅多に起きないはずの出来事。その確率 99%の信頼区間は 25±2.6×0.2 の前提となっていることが間違っていると考える。仮説 当然、99%の信頼区間は信頼係数は高くなるが 30%広く 「 =24」は水準 5%の両側検定で棄却されたと。「B 学 なるので有用性は低くなる。 園において総*学習の影響はあった」と推論できる。 N が大きくなると、信頼区間は狭まる。 注意:分布の標準偏差/√N=推定量の標準偏差(誤りやす もしも B 学園の成績の平均が24 であるとき、抽出 い)推定量の分布の標準偏差を標準誤差(SE)という。 された生徒の標本平均が25 という値が出る確率は極 注意:95%(もしくは 99%)を使うのは習慣。1.96, 2.6 めて小さい。しかし、前提が正しいなら珍しいはずのこ という数値はよく使うので覚えておくと良い。 とが現実に起きてしまったので、その前提「この生徒の (p.109 の話は後回し。) 課程で成績の平均24」がデータから否定される。 区間推定を使った検定考え方(p.247 以降でより詳しく) 仮説を棄却する統計量の領域(棄却域)の設定のしかた 問題3続き で両側検定と片側検定がある。 X が十分大きい場合と 十分小さい場合で仮説 =24 が否定(棄却)される。 A クラスでは B 学園で一クラスだけ特に総*学習をお こなった。総*学習しない通常の教育の B 学園の生徒の 成績が =24 であることがわかっているとしよう。 仮説が棄却できない場合の判断: 総*学習をおこなった A クラスの平均成績は B 学園の通 常課程の学生の平均と同一と判断できるか。 結論「95%の信頼区間は 24 を含まないので、B 学園の通 もしも X =24.3 とすると、 ( X ) / 2 / N (24.3 24) / 0.2 1.5 常のクラスものではあり得ない。99%についても同様。」 成績の平均が =24 の「可能性がある」といえる(B 学 したがって、A クラス学生の分布の平均点は B クラスの 園の生徒の可能性はある) 学生の平均点とは異なる。 論理 両側検定 「X ならば Y」が正しいとき、との対偶「Y でないなら Pr(| X | c) 0.05 or 0.01 と い う c を 求 め 、 し て ば X でない」も正しい。この論理では主張したいこと「X | X | c のとき、仮説 E[ X ] を棄却し、仮説は疑わ でない」を導くために、前段の仮説を「X である」とし しいと判断する。X の値が十分大きくても十分小さくて た。 も仮説が棄却される。 この場合、X は「A クラスの生徒の成績分布の平均点は B 学園の通常教育の生徒の平均点と同一である。」とし、 Y は「N 人の成績分布の標本平均は =24 か ら 1.96 2 / N 以上離れることはない。」である。 両側検定が望ましい例:1)源氏物語の一部分が紫式部 の作が偽作かを特定の言葉(助詞)の使用頻度で検定す る。助詞をたくさん使いすぎても少なすぎても真作が疑 われる。 仮説の値が信頼区間の外にでることと、仮説の棄却は 注意:s 2 =0.64 は発見されたサンプルから計測されたの 同値であるので、両側検定と区間推定の結論は当然一致。 で、 片側検定:Pr( X 仮説検定 2 s 2 =0.64 と仮定。 の値が十分大きくて X ( X ) / / N (25 24) / 0.2 5 2 c) 0.05 という c をもとめ、X し か し 、 P ( X ) / 2 / N 1.96 0.05 は z ( X ) / 2 / N の絶対値が 1.96 を越えるのは、 c のとき、仮説 E[ X ] を棄却する。(片側検定の棄却域は広くなる) 片側検定が望ましい例:ある新薬が従来製品より優れて いるかどうかしりたい。(「従来品より劣っているか同 等」という前提が否定されるときだけ、製品化される) 仮説 E[ X ] (新薬の効果が従来品と同じ) を棄却す るのは X (=新薬の効果)の値が十分大きいとき。 両側検定は新薬の効果 X が十分小さいときも、仮説を棄 却するが、従来よりよい薬を製品化という目的にそぐわ ない。 注意1)期待値が指定された値と同一 E[ X ] のとき Pr( X c) 0.05 であれば、E[ X ] と期待値が 指定値より小さいときには 必ず Pr( X c) 0.05 と な る 。 し た が っ て 、 E[ X ] が 棄 却 さ れ れ ば E[ X ] は自動的に棄却されるので、 E[ X ] を 検定すれば十分。P(z<1.65)=0.95, P(z<2.3)=0.99 注意2:両側検定がよいか片側検定がよいか不明のとき は両側検定を使うのが普通。危険率(有意水準)は 0.05 か 0.01 を用いるのが普通。 不偏分散 独立な確率変数 X 1 , , X N が期待値 E( X i ) ,分散 V ( xi ) 2 の正規分布に従うならば、正規分布の和は正 規分布なので、したがって標本平均も正規分布となり、 E( X ) , V ( X ) 2 / N という期待値、分散を持つ。(p.182)以下はその計算課 程である。 X .. X n E ( X 1 ) .. E ( X n ) E( X ) E 1 , n n X .. X n 1 V (X ) V 1 2 V X 1 .. X n n n 1 2 V ( X 1 ) .. V ( X n ) n V ( X 1 X 2 ) V ( X 1 ) V ( X 2 ) 2 cov( X 1 , X 2 ), cov( X i , X j ) 0(i j ) 定 理 6.2 p.201 不 偏 分 散 s 2 =[(x1 x ) 2 +...+(xn x ) 2 ] / ( n 1) に た い し て E(s 2 ) 2 (( X1 X )2 ... ( X n X )2 ) ( X1 ) ... ( X n ) n( X )2 の期待値をとると、右辺の期待値は n 2 n( 2 / n) (n 1) 2 したがって、 E (s 2 ) n 2 n( 2 / n) 2 n 1 計算の経過 (( X 1 X ) 2 ... ( X n X ) 2 ) (( X 1 ) ( X )) 2 ... (( X n ) ( X ))2 ( X 1 ) ... ( X n ) n( X ) 2 ( X 1 )( X ) ... ( X n )( X ) ( X )( X 1 .. X n n ) n( X )( X ) 区間推定と仮説検定 正規分布を用いた推論例:ある(違法)薬物の錠剤に含ま れているに成分 B の濃度分布が、正規分布(期待値 、 分散 2 )であることがわかっている。
© Copyright 2024