 
        基礎統計 2014/5/9 mcobaya.web.fc2.com/kisotokei/index_ut.htm [email protected] s2  ( X 1  X) 2  ...  ( X N  X) 2 か N s2  ( X 1  X) 2  ...  ( X N  X) 2 N 1 ブドウの糖度の例は、不評なので成績にしました。 で見当をつける(推定)することができる。後者の分散 前提1:母集団の分布が平均  , 分散  のとき、そこ の推定量を不偏分散という。なぜ、N ではなく N-1 でわ か ら 無 作 為 ( random) に 抽 出 ( 抜 き 取 っ た ) 標 本 を 本(不偏)分散 s2 を母分散  2 で代用してもよいとしよ 2 X 1 ,..., X N とする。このとき E ( X 1  ...  X N )  N  , V ( X 1  ...  X N )  N 2 ここから E ( X )   , V ( X )   2 / N は容易にわかる。 るかは後回し。N が十分大きい時は精度も高いので、標 う。N が多いのかどうかの判断基準、分散の誤差を考慮 する方法は後まわし) 問題3 Case 1:分散  2 が不明だが、N が大きい時 N=16 個の生徒の標本平均 X =25 であった。分散 s 2 前提2:正規分布に従う変数の和の分布も正規分布に =0.64,標準偏差 s  0.8(=0.64 の平方根)が十分精度 従う。(証明は後回し) の高い推定と仮定し、  2 =0.64,標準偏差   0.8 と 区間推定 しよう。 p.95 例:A クラスの生徒の平均成績  をしりたい。N 個の生 徒を無作為に抽出して成績を計測した。母集団の生徒の 2 成績の分布を X ~ N ( ,  ) とする。 (Case 2  2 の推定誤差を考慮にいれる場合は後回し)  2 が十分高い精度で推定される場合(または不 Case 1: 自然だが既知と仮定) 2 問題1N=1 の極端な例 p.99 X ~ N ( ,  ) として、A ク 2 ラスの生徒をひとり無作為にえらんで、X =25,   10 の とき、  の 99%信頼区間、95%信頼区間を求めよ。 問題2p.103 、A クラスの生徒を9人無作為にえらんで 2 N=9 X =25,   10 のとき  の 99%信頼区間、95%信頼 区間を求めよ。A クラスの成績を知るのならば、9人選 んだほうが、問題1よりも精度が高くなり、信頼区間も 狭くなるはず。 注意;一番わかりにくいのは「標本平均の分布の分散」。 z  ( X   ) /  2 / N は平均 0,分散1の標準正規分布に なる。  E ( X   )      0, V ( X   )  V ( X )   2 / n, V (( X   ) /  2 / n )   2 / n / (  2 / n ) 2  1, Pr(| ( X   ) /  2 / N | 1.96)  0.05 より Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95 Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95 解釈: X は、ほぼ確実に期待値  から 1.96  2 / N 以内 の距離にある。逆に考えると、未知の  はほぼ確実に X 何百人もいる学生のなかからの9人の選び方で標本平均 から 1.96  2 / N  2  SE 以内の距離にある。 は大きくなったり小さくなったりする。N を大きくとっ 注意:1.96は実務的には2と考えてよい。 たほうが、A クラスの成績の分布の平均を高い精度で知 たとえ話:推定量(推定子)が子供、真の係数が母親(母 ることができる。(分散が小さい) 数)。子供は母親から 1.96×標準誤差(推定量の分布の標 準偏差)の距離に確率 95%で存在するのならば、子供は母 分散の推定量(   10 が既知は非現実的なので、見当 親は±1.96×標準誤差の範囲に存在するはず(母親が子 をつけよう) 供の 1.96×標準誤差にいるという判断は 95%で当たる) 分散  は「変量の平均  からの偏差の二乗」の平均な 信頼係数 95%の信頼区間は 25±1.96×0.8/√16≒25±2 ので、 X は  に代用できるほど精度が高いとして この方法で作る信頼区間は 95%の確率で真実の値を含む。 2 2 ×0.2=25.4 24.6 (95%の確率で魚を捕まえる網のようなもの) 5%以下の確率の滅多に起きないはずの出来事。その確率 99%の信頼区間は 25±2.6×0.2 の前提となっていることが間違っていると考える。仮説 当然、99%の信頼区間は信頼係数は高くなるが 30%広く 「  =24」は水準 5%の両側検定で棄却されたと。「B 学 なるので有用性は低くなる。 園において総*学習の影響はあった」と推論できる。 N が大きくなると、信頼区間は狭まる。 注意:分布の標準偏差/√N=推定量の標準偏差(誤りやす もしも B 学園の成績の平均が24 であるとき、抽出 い)推定量の分布の標準偏差を標準誤差(SE)という。 された生徒の標本平均が25 という値が出る確率は極 注意:95%(もしくは 99%)を使うのは習慣。1.96, 2.6 めて小さい。しかし、前提が正しいなら珍しいはずのこ という数値はよく使うので覚えておくと良い。 とが現実に起きてしまったので、その前提「この生徒の (p.109 の話は後回し。) 課程で成績の平均24」がデータから否定される。 区間推定を使った検定考え方(p.247 以降でより詳しく) 仮説を棄却する統計量の領域(棄却域)の設定のしかた 問題3続き で両側検定と片側検定がある。 X が十分大きい場合と 十分小さい場合で仮説  =24 が否定(棄却)される。 A クラスでは B 学園で一クラスだけ特に総*学習をお こなった。総*学習しない通常の教育の B 学園の生徒の 成績が  =24 であることがわかっているとしよう。 仮説が棄却できない場合の判断: 総*学習をおこなった A クラスの平均成績は B 学園の通 常課程の学生の平均と同一と判断できるか。 結論「95%の信頼区間は 24 を含まないので、B 学園の通 もしも X =24.3 とすると、 ( X   ) /  2 / N  (24.3  24) / 0.2  1.5 常のクラスものではあり得ない。99%についても同様。」 成績の平均が  =24 の「可能性がある」といえる(B 学 したがって、A クラス学生の分布の平均点は B クラスの 園の生徒の可能性はある) 学生の平均点とは異なる。 論理 両側検定 「X ならば Y」が正しいとき、との対偶「Y でないなら Pr(| X   | c)  0.05 or 0.01 と い う c を 求 め 、 し て ば X でない」も正しい。この論理では主張したいこと「X | X   | c のとき、仮説 E[ X ]   を棄却し、仮説は疑わ でない」を導くために、前段の仮説を「X である」とし しいと判断する。X の値が十分大きくても十分小さくて た。 も仮説が棄却される。 この場合、X は「A クラスの生徒の成績分布の平均点は B 学園の通常教育の生徒の平均点と同一である。」とし、 Y は「N 人の成績分布の標本平均は  =24 か ら 1.96  2 / N 以上離れることはない。」である。 両側検定が望ましい例:1)源氏物語の一部分が紫式部 の作が偽作かを特定の言葉(助詞)の使用頻度で検定す る。助詞をたくさん使いすぎても少なすぎても真作が疑 われる。 仮説の値が信頼区間の外にでることと、仮説の棄却は 注意:s 2 =0.64 は発見されたサンプルから計測されたの 同値であるので、両側検定と区間推定の結論は当然一致。 で、 片側検定:Pr( X 仮説検定  2  s 2 =0.64 と仮定。 の値が十分大きくて X ( X   ) /  / N  (25  24) / 0.2  5 2     c)  0.05 という c をもとめ、X し か し 、  P ( X   ) /  2 / N  1.96  0.05 は z  ( X   ) /  2 / N の絶対値が 1.96 を越えるのは、    c のとき、仮説 E[ X ]   を棄却する。(片側検定の棄却域は広くなる) 片側検定が望ましい例:ある新薬が従来製品より優れて いるかどうかしりたい。(「従来品より劣っているか同 等」という前提が否定されるときだけ、製品化される) 仮説 E[ X ]   (新薬の効果が従来品と同じ) を棄却す るのは X (=新薬の効果)の値が十分大きいとき。 両側検定は新薬の効果 X が十分小さいときも、仮説を棄 却するが、従来よりよい薬を製品化という目的にそぐわ ない。 注意1)期待値が指定された値と同一 E[ X ]   のとき Pr( X    c)  0.05 であれば、E[ X ]   と期待値が 指定値より小さいときには 必ず Pr( X    c)  0.05 と な る 。 し た が っ て 、 E[ X ]   が 棄 却 さ れ れ ば E[ X ]   は自動的に棄却されるので、 E[ X ]   を 検定すれば十分。P(z<1.65)=0.95, P(z<2.3)=0.99 注意2:両側検定がよいか片側検定がよいか不明のとき は両側検定を使うのが普通。危険率(有意水準)は 0.05 か 0.01 を用いるのが普通。 不偏分散 独立な確率変数 X 1 , , X N が期待値 E( X i )   ,分散 V ( xi )   2 の正規分布に従うならば、正規分布の和は正 規分布なので、したがって標本平均も正規分布となり、 E( X )  , V ( X )   2 / N という期待値、分散を持つ。(p.182)以下はその計算課 程である。  X  ..  X n  E ( X 1 )  ..  E ( X n ) E( X )  E  1  ,  n n    X  ..  X n  1 V (X )  V  1   2 V  X 1  ..  X n  n   n 1  2 V ( X 1 )  ..  V ( X n )  n V ( X 1  X 2 )  V ( X 1 )  V ( X 2 )  2 cov( X 1 , X 2 ), cov( X i , X j )  0(i  j ) 定 理 6.2 p.201 不 偏 分 散 s 2 =[(x1  x ) 2 +...+(xn  x ) 2 ] / ( n  1) に た い し て E(s 2 )   2 (( X1  X )2  ...  ( X n  X )2 )  ( X1   )  ...  ( X n   )  n( X   )2 の期待値をとると、右辺の期待値は n 2  n( 2 / n)  (n  1) 2 したがって、 E (s 2 )  n 2  n( 2 / n) 2 n 1 計算の経過 (( X 1  X ) 2  ...  ( X n  X ) 2 )  (( X 1   )  ( X   )) 2  ...  (( X n   )  ( X   ))2  ( X 1   )   ...  ( X n   )   n( X   ) 2  ( X 1   )( X   )  ...  ( X n   )( X   )  ( X   )( X 1  ..  X n  n )  n( X   )( X   ) 区間推定と仮説検定 正規分布を用いた推論例:ある(違法)薬物の錠剤に含ま れているに成分 B の濃度分布が、正規分布(期待値  、 分散  2 )であることがわかっている。
© Copyright 2025