統計学なんでもスレッド11at MATH
統計学なんでもスレッド11 - 暇つぶし2ch1:132人目の素数さん
09/11/16 16:05:22
前スレ:

統計学なんでもスレッド10
スレリンク(math板)
統計学なんでもスレッド9
スレリンク(math板)
統計学なんでもスレッド8
スレリンク(math板)
統計学なんでもスレッド7
スレリンク(math板)
統計学なんでもスレッド6
スレリンク(math板)
統計学なんでもスレッド5
スレリンク(math板)
統計学なんでもスレッド4
スレリンク(math板)
統計学なんでもスレッド3
スレリンク(math板)
統計学なんでもスレッド2
スレリンク(math板)
統計学なんでもスレッド
スレリンク(math板)


2:132人目の素数さん
09/11/16 16:08:35
統計学なんて数学じゃないだろ
スレリンク(math板)
= 統計解析フリーソフト R 【第3章】 =
スレリンク(math板)l50
=統計解析= SASプログラミング
スレリンク(math板)
統計学
スレリンク(sociology板)
経済学で使う統計学スレッド
スレリンク(economics板)
生物学での統計学スレ
スレリンク(life板)
◆統計学について語るスレ
スレリンク(sim板)
統計・解析ソフトについて
スレリンク(bsoft板)


3:132人目の素数さん
09/11/16 16:11:29
テンプレ

●学校の宿題の丸投げはやめましょう。

●質問者は質問の前に相当程度調べるなり、考えるなりしましょう。

●荒らしは基本的にスルーでお願いします。

4:132人目の素数さん
09/11/16 16:25:10
>>1-3
乙。

5:132人目の素数さん
09/11/16 22:41:19
回帰分析について一から徹底的に教えてくれ。
解説を頼む。調べてもまったくわからん。馬鹿なので。

6:132人目の素数さん
09/11/17 14:35:55
>>5
具体的に何が分からないのかが分からん。
回帰分析の目的?意味?どういう場合に使うのが良いか?とかか?

7:132人目の素数さん
09/11/17 15:16:35
>>6
根本的に分からないし、分からないなりに結果はだしたが、
あってるのか間違ってるのか、解釈の仕方、意味、目的、考察、
どういう場合に使うのか、統計用語、なにもかもわからん。

8:132人目の素数さん
09/11/17 19:11:35
>>7
まず、どういうデータがあって何を主張したいのか、を説明してほしい。
回帰分析の説明も、実例を使ってやると分かり易いから。

あと、主張したいことが何もないなら、そもそも統計解析しなくていいはず。

9:132人目の素数さん
09/11/17 19:29:42
何を主張してもいいかわからんの

10:132人目の素数さん
09/11/17 22:14:59
では、何をどのように測定したデータなのか、だけでも。

11:132人目の素数さん
09/11/17 23:42:55
統計学メコスジスレッド69

12:132人目の素数さん
09/11/18 00:19:03
職員数と仕事量の関係

13:132人目の素数さん
09/11/18 01:23:30
>>12
「仕事量」をもっと具体的にしないと、主張することが定まらないと思うよ。
「案件を片付けるまでに要した職員一人あたりの仕事量」とか、
「案件を片付けるまでに要した全職員の総仕事量」とか。
仕事量の単位は時間なのか賃金なのか、とか。

そして、主張したいことが何なのか、例えば

得られたデータより、職員数を X 人にした場合、
「案件を片付けるまでに要する全職員の総仕事量(所要時間)」 を Y 時間とすると、
Y は X を用いて以下のように推定される。・・・

とかなんとか、考える必要がある。

14:132人目の素数さん
09/11/18 01:38:21
やめとけ
善人が馬鹿を見るケース

15:132人目の素数さん
09/11/18 20:36:28
俺が統計学の書物を読み漁って考察ちゃんとしてんのに、
先輩はわけもわからずめちゃくちゃな思考で考察。
俺が、つっこむと逆切れ。俺が考察書いてきても破棄。
どうしろと?

16:132人目の素数さん
09/11/19 08:47:40
>>15
上のほうのレスでしきりに手をさしのべようと
しておられる方々もあなたのその愚痴レスを読んで
あなたの先輩に対する感想と同様の感想をあなたに持つと思う

まずあなたが先輩とどういう部署にいて
データの対象となっている現場に対して
ないしは先輩の上司に対して
どういう提言を先輩はしようと思っているらしいのか
その辺りからここに書けば少し話が進むかも

というよりもそういった自分の業務上の立場を自分で整理して
自分が先輩と違う結論だと統計学を使って説得したいのか
先輩の意向にそうような数字を出して先輩に安心してもらいたいのか
辺りから自分の気持ちを決めれば
ここでやるまでもなく自己解決するかもしれない


17:132人目の素数さん
09/11/19 14:58:49
はっきり言ってしまえばやりたくもないくそ研究と統計学なぞもう無視したい

18:132人目の素数さん
09/11/19 15:22:37
興味がないのに無理やりやらされるのは確かに辛いだろうが…

19:132人目の素数さん
09/11/19 16:45:40
俺は俺でめちゃくちゃ、先輩も先輩でめちゃくちゃだ。統計の素人。

先輩と自分は同じ部署にいる。

データの対象となっている現場に対して、スタッフと仕事量の相関性を説いて
現状の極小スタッフと過労働を訴えようとしている。職場業務改善を検討している。

自分はあくまで得られたデータを統計学的手法を使ってまとめたい。
そして、そのように先輩に言われている。あと考察も。
先輩は統計の勉強はしていない。本人曰く、わからんと。
やりたくないと。学生のころから嫌だったと。指揮をとるのは先輩。
でも統計をするのはおまえだからと。

そして、得られたデータを、まとめたデータを先輩に差し出して、
率直な考察を書いてだした。

統計の分からない先輩はわからないことに逆切れ。
理解してないからむちゃくちゃに自分なりに考察。
意味不明に仕上がり。

指摘すると逆切れ。
資料とか統計の書物とかだしても読まない。

先輩の意向に沿う形にどうしろと?



20:132人目の素数さん
09/11/19 20:14:00
>>19 そういう話だと数学板は板違いと思うが
ここは統計学の数学的な部分に達者な人が中心だろうし
数学どころか学問じゃなくて会社職業か人間関係のような

仕事と人手の組のデータがいくつかあるのだろうから
それをそのまま図示して回帰直線をそこに引いて
「データに最も近い直線がこれで
この傾きが正(負)だからどうたら」
「実際より詳しい統計学の方法で数値を出しても
どうたらで図からわかるとおりの結果である」
っていう程度のことを視覚的にわかりやすく報告すれば
納得してくれるだろう

21:132人目の素数さん
09/11/19 22:59:49
回帰直線も近似式もグラフも出した
おざなりではあるが説明もした
でも納得してくれなくてどうしろと?

22:132人目の素数さん
09/11/19 23:20:31
先輩ではなく上司に自分の考察した結果を渡してしまえば?

23:132人目の素数さん
09/11/19 23:32:38
>>19
どこの世界にもいるなあ。
そういう無知なくせに勉強はしない上司。
やたらと精神論しか言わなかったり。
結論から言えばらちがあかないから、
もっと上の立場で、かつ、
ある程度数学や統計に理解のある上司に直訴するしかあるまい。
一応ソフトはあるみたいだから、
そういう人が全くいないってことはないだろう?

24:132人目の素数さん
09/11/19 23:45:07
ソフト?Rのこと?それは俺のだけど。上司も統計知らん人間なんだよね
ましてや、先輩差し置いて一番上の人間に出しにいったらそれこそぶっころされる
もういられなくなる。


25:132人目の素数さん
09/11/20 22:38:22
もう統計とか研究とか関係なくいられなくなった
辞職に追い込まれた
もうどうでもいいわ

26:132人目の素数さん
09/11/22 14:57:05
>>922
>①生データはワイブル分布に従う。②実験前の生データは十分にある(それまでの検査データの蓄積)。
>③実験後の生データ(これもワイブル分布に従うものとします)は恐らく20個程度。
>上記のような状況で、実験の効果として、その物性の平均値と分散を検定したいのですが、この検定にt検定もしくは等分散
>検定(F検定)は使用できますでしょうか?
製造条件変更前後の物性の平均値と分散の変化が有意だと検定したいということですか?
物性値がワイブル分布しているなら、t検定もF検定も使えないのでは。

27:132人目の素数さん
09/11/22 18:00:59
質問です。

通常サンプル数が増加すると分散は小さくなると思いますが、
サンプル数が増加すると(減少すると)分散が大きくなる(小さくなる)ような状況ってどういう場合でしょうか?

28:132人目の素数さん
09/11/22 18:42:57
>>27
(1) 標本分散の定義を間違えている場合
(2) 母分散が無い(無限大の)場合


29:132人目の素数さん
09/11/22 19:29:45
>>27
もし母集団が指数分布みたいな形だと、サンプルが増えるほど、とてつもない
最大値が出現するので、そういうことが起きることは多いよ。

もう一つは時系列の場合で、正の自己相関が強い場合、
「標本期間」を長く取るにつれて、標本分散が大きくなる傾向を持つ。
例えば、コサイン(サインでも同じ)・カーブは、狭いところでの変化は
小さいが、範囲を広げてるにつれて変化が大きくなる。(周期内での話し)

30:29
09/11/22 19:32:33
×範囲を広げてるにつれて  ○範囲を広げるにつれて

31:132人目の素数さん
09/11/22 22:19:37
サンプル数が増加すると分散が小さくなるのが通常なのか?意味わからん。

32:132人目の素数さん
09/11/22 22:20:04
>>27
時系列的に、母集団が変化している。
サンプリングの方法に問題がある。
サンプルサイズが極端に少ない。(の場合はそのように錯覚しやすい)
信頼区間とか、計算してみました?

33:132人目の素数さん
09/11/22 22:40:03
>>31
分散というのを標本平均の分散と考えれば大数の法則からそうなるが…。
一般にはサンプル数と分散とは直接関係はない。
しかし>>27の質問は以前見たぞ。
過去ログ辿ればどこかにあるはず。
同じ人物か…?

34:132人目の素数さん
09/11/22 23:59:27
うん、見た見た
半年以上前じゃないか

35:132人目の素数さん
09/11/23 00:04:59
>>27
質問1.「何の」分散?
質問2.分散って、標本分散?母分散?

36:132人目の素数さん
09/11/23 00:27:19
分散ってはやい話、ちらばりだろ?
サンプル多くなればそんだけちらばり大きくなると思う

37:132人目の素数さん
09/11/23 10:06:49
>>36
χ平方=Σ{i≦N} (xi- x~)^2 ははデータサイズ N とともに
大きくなるが
標本分散は N で割ったものを使うので大数の法則から
(x~ のところもちゃんと計算すれば)
母分散があれば母分散に収束する
だから理論的には >>27-28 の件は
母分散が無限大の状況ということになる

実用上はいろいろ

38:132人目の素数さん
09/11/23 10:13:52

 

39:132人目の素数さん
09/11/23 18:40:58
コーシー分布とか

40:132人目の素数さん
09/11/23 20:03:16
>>938
>もしも形が不良で、実際に検定精度が悪いのなら、
>分布の歪みを取るデータの非線形変換を探す・・・・
対数関数を利用した線形変換は馴染み深いですが、歪みを取る非線形変換って、
どういう関数を使うのですか?

41:132人目の素数さん
09/11/23 20:39:20
「線形変換」の定義って最近変わったの?

42:132人目の素数さん
09/11/24 01:53:17
変換はなぜ改竄にはならないの?

43:132人目の素数さん
09/11/24 07:11:20
変換したことは秘密じゃないから

44:27
09/11/24 12:34:13
>>33

分散というのは標本分散のことです。前に一度質問しましたが、良く理解できなかったうえ、
スレッドの最後の方だったので、十分な議論が出来なかったと記憶しています。

母分散が無い(無限大の)場合とは、どういうことでしょうか?

45:132人目の素数さん
09/11/24 12:35:51
すみません、わからないので教えてください。
外れ値検定をしたいです。
その有意点を求めるところで困ってます。
個数nが800万個ほどあり, 表が使えないので, 有意点を求める計算式を知りたいです。
本を読んでも表が書いてあるだけかExcelで計算する, と書いてあって、求められません。
表の値は何かしらの計算式から算出されてるのだと思うのですが、その計算式が出てこなくて困ってます;;

46:132人目の素数さん
09/11/24 12:39:41
>>45
これで役に立つか? 一番下な。
URLリンク(aoki2.si.gunma-u.ac.jp)

47:132人目の素数さん
09/11/24 14:38:41
>>44
コーシー分布には分散ないよ

48:132人目の素数さん
09/11/24 14:57:54
>>46
ありがとう!けど, さらに質問です…。
tα/nの求めかたがわかりません。
URLリンク(aoki2.si.gunma-u.ac.jp)
の147~152で話題が上がってるのですが、
Excelではn=183以降が計算不能のようです。
プログラムが書いてあるのですが, 理解できなくて。
このプログラムを書こうと思ったら,
tα/nを求める式のようなものがあるのでは無いのかと思ったのですが…
ぜひ教えていただきたいです。お願いします。

49:132人目の素数さん
09/11/24 18:13:39
>>48
t分布は自由度を大きくしてくと、標準正規分布に収束するから、
標準正規分布を使えば良い。excelだと normsinvだっけ

50:132人目の素数さん
09/11/24 18:55:16
古典的単回帰モデルの分散不均一の場合で質問があります。
通常、Yの値が増加するにつれて誤差項の分散も増加するケース(ポアソン回帰のような場合)が多いですが、
Yの値が減少するにつれて、誤差項の分散が縮小していくような具体的なデータって、
どのようなものがありますか?


51:48
09/11/24 19:15:52
>>49
ありがとうございます!やってみます!!

52:132人目の素数さん
09/11/26 10:28:48
海外のジャーナルにリジェクトされて、同じ論文を日本のジャーナルに出す事を考えています。
日本の統計のジャーナルで、一番良いところってどこですか?

53:132人目の素数さん
09/11/26 11:21:06
AISMかJJSSじゃね?

54:132人目の素数さん
09/11/26 11:45:15
>>53
impact factor付きますか?

55:132人目の素数さん
09/11/26 19:41:34
統計スレ的には「サンプル数」と「サンプルサイズ」は区別しなくていいのか?

56:132人目の素数さん
09/11/26 20:23:11
>>55
統計用語では、サンプル数>>27とサンプルサイズ>>32は、どう違うのですか?

57:132人目の素数さん
09/11/26 21:12:01
母集団から抽出した標本(集合)がいくつかある場合、その標本の数が標本数(サンプル数)。
一つの標本の大きさが標本サイズ(サンプルサイズ)。

URLリンク(laskin.mis.hiroshima-u.ac.jp)
URLリンク(aoki2.si.gunma-u.ac.jp)


58:132人目の素数さん
09/11/26 21:31:58
>>55
なるべく正しく使った方が良いけど、あまりうるさく言う必要はないかと,、、、
>>56
sample は集合名詞なので、統計学では sample size n (標本の大きさ n) や
size n of sample (大きさ n の標本) と表現する。
けど応用分野の統計の本や論文には、「サンプル数」「標本数」という表現が
もうゴロゴロとあって、拡大再生産されているのが現状。

59:132人目の素数さん
09/11/26 21:40:26
>>50
>増加するにつれて【中略】増加する
>減少するにつれて【中略】縮小していくような

同じでは?

60:132人目の素数さん
09/11/26 22:06:43
>>54
微々たるものだけどあるんじゃね?
大体それを気にするなら別の海外の雑誌に投稿した方がいいと思うけど。

61:132人目の素数さん
09/11/26 22:34:08
>>59
50の頭の中にはおそらくたとえば時系列順というような
書かれていな仮定が含まれているのだと思う。


62:132人目の素数さん
09/11/27 02:16:28
誰か俺がこの先の人生で幸福を見出せる確率を統計で出してくれ!頼む!

63:132人目の素数さん
09/11/27 04:11:15
その確率は1だ。
まずはズボンを下げてそちらを向きたまい。

64:132人目の素数さん
09/11/27 09:32:28
>>59
すみません。文章書き間違えました。正しくは以下の通りです。

古典的単回帰モデルの分散不均一の場合で質問があります。
通常、Yの値が増加するにつれて誤差項の分散も増加するケース(ポアソン回帰のような場合)が多いですが、
Yの値が増加するにつれて、誤差項の分散が縮小していくような具体的なデータって、
どのようなものがありますか?

>>61
「時系列順」等は特に考慮していません。単純な回帰を意味しています。

65:132人目の素数さん
09/11/27 17:22:23
>>64
減少ケースはレアだと思うけど、四半期時系列で時代と共に季節変動が
小さくなってく場合とか。(季調なしデータで単回帰モデル=季節ダミーなし)

66:132人目の素数さん
09/11/27 19:04:08
地球が滅ぶ統計出せ確率出せ

67:132人目の素数さん
09/11/27 19:13:49
ほぼ100% だろーなー。地球の軌道を変えられるような技術が生まれない限り。
太陽にのまれるからね。

68:132人目の素数さん
09/11/28 00:21:06
太陽にのまれても、そのころの太陽は希薄なガス天体になってるから
地球は太陽内部を回り続けるらしいぞ。

69:132人目の素数さん
09/11/28 05:22:51
精子Aが卵子にたどり着く確率を有効数字10桁で示せ!

70:132人目の素数さん
09/12/01 01:01:27
統計ソフトのマニュアルを読み、手許の参考書を読み、グーグルで調べてもみたのですが、
分からないので教えてください。
箱ひげ図で下隣接点より小さい外れ値があるときドットが打たれることがありますが、
たまに下隣接点にもドットが打たれることがあります。
おそらく下隣接点が何㌫点かであるときにこういう処置がなされるのかと
思うのですが、どういうことでしょうか?

71:132人目の素数さん
09/12/01 04:14:57
具体的なソフト名は書けない?

72:132人目の素数さん
09/12/01 05:47:03
>>70
URLリンク(ja.wikipedia.org)


73:132人目の素数さん
09/12/01 23:28:14
不良率7%の製品があり、この不良率に対する信頼度95%のとき
信頼区間の幅が0.06以下になるには何個抽出すればいいですか?

74:132人目の素数さん
09/12/02 00:15:12
>>73
227.9個≒288個
自信はない!

75:74
09/12/02 00:19:56
>>74
277.9個≒278個だ。
打ち間違えたぜチクショーめ!

自信?
んなものはない!


76:ダス ◆8wtQv4n0kU
09/12/02 01:19:42
信頼区間の幅95%が0.06以下?
1σ 0.015306以下?だったら自信は(ry

77:132人目の素数さん
09/12/03 17:34:33
確率変数Xの期待値と、その逆数1/Xの期待値が一致するための条件って何でしょうか?

78:132人目の素数さん
09/12/03 22:04:58
ん?1/Xが確率と一致するって事?

79:132人目の素数さん
09/12/04 00:11:47
まずX=0とはならないことは必要だな。
普通はX>0だろうけど。

80:132人目の素数さん
09/12/04 05:09:06
エクセルで信頼性係数求めるのって、どうすれば?

81:132人目の素数さん
09/12/04 16:10:28
質問なんですが「ポアソン分布の分散の式」の証明がのってる本どなたか知りませんか?お願いします。

82:132人目の素数さん
09/12/04 20:56:35
>>81
う~ん…
ジョジョの8部は、確か4部の続きやるらしい

83:132人目の素数さん
09/12/05 09:39:06
>>75
応答有難うございます。277.9個を導出された過程式を、追記願えませんか。

84:132人目の素数さん
09/12/05 09:46:45
>>83
その277.9個であってる事は間違いないって言うか
確認はできてるの?

85:132人目の素数さん
09/12/05 13:02:04
>>84
算出過程式照会は、その確認が目的です。

86:132人目の素数さん
09/12/05 13:40:48
7%で起こるものを300個取ったときの95%区間は計算できますか?
できるなら逆にするだけだから分かるでしょう。

87:mii
09/12/06 01:22:03
研究で深呼吸前後の体温の変動の有意差を出すのに
T検定で有意差を調べようと思います。

協力者 安静時 深呼吸 差
1. 35.6 36.0 0.4
2. 36.9 37.3 0.4
3. 35.8 36.3 0.5
4. 36.1 36.4 0.3
5. 35.3 35.7 0.4
6. 35.8 35.9 0.1
7. 35.5 35.8 0.3
8. 36.9 37.1 0.2
9. 35.9 36.2 0.3
10. 36.2 36.5 0.3
11. 36.1 36.3 0.2
12. 35.9 36.2 0.3

よければどうすればいいか教えてください。
お願いします。

88:132人目の素数さん
09/12/06 01:32:44
T検定で有意差を調べればいいという以外に何がいえるんだろう?

もしかしてT検定がなんなのかわかってない場合は教科書を読み直す。

89:mii
09/12/06 01:52:57
医療系なんで計算の仕方がわかりません
すいません

90:132人目の素数さん
09/12/06 02:35:11
どなたか頭の良い方
URLリンク(www.econ.hit-u.ac.jp)
の4節の生産関数の推計の仕方が分かる方いらっしゃいますか?
データをプールするとは具体的にはどのような作業なのでしょう?

初歩的で申し訳ありませぬ。

91:132人目の素数さん
09/12/06 17:39:33
>>90
頭は普通だけど、「データをプールする」とか「プーリング・データ」というのは、
横断面×時系列でサンプリングしたデータのこと。
その例だと、日本の9地域ブロック×10年度=90がサンプル・サイズ。
あとは対数取って、地域ダミー放り込んで、交差項作って普通の回帰推定。

92:132人目の素数さん
09/12/07 02:23:53
>>91 
本当にありがとうございます!勉強になりました!

つまり、サンプル数90の中から年度ごとに抽出(サンプリング)行い、
各説明変数(Y,L,Kp,Kg)毎に時系列データを作成して回帰分析すればおkなのですねー

ちなみに地域ダミーの導入の仕方というのは、例えば北海道ダミーを入れる場合、
北海道ブロックから抽出したデータが含まれる年度には1(それ以外の地域には0)と
いうようにすればいいのでしょうか?


93:132人目の素数さん
09/12/07 22:50:35
どなたかお教え下さい。

正規分布を前提とした検定を考えた時、
2群標本間の場合はt検定、3群以上の標本間の場合は分散分析によるのだと思うのですが、
では、対応ある2標本間の場合の「対応あるt検定」に対して、対応ある3群以上の標本に対する
検定法とはどういうものなのでしょうか?
具体的には下記のような検定を行いたい考えているのですが・・・。

例:ある試料5個をそれぞれ2分割し、これらをA社とB社に化学分析させた場合、
  A社の分析値が5つ(A1~A5とします)、B社の分析値が5つ(B1~B5)得られます。
  分析者が異なる事による差の有無を検定する場合、A1-B1、A2-B2・・・・・・A5-B5を一対とする
  対応あるt検定によるのだと思うのですが、それでは同様の分析をC社も含めた3者で行った場合、
  3者間のA1-B1-C1、A2-B2-C2・・・・・・A5-B5-C5の各値を一組とした検定(つまり3者間の分析
  者の違いによる差の有無の検定)はどのように行うのか、
  ということです。

宜しくご教授のほどお願い申し上げます。


94:132人目の素数さん
09/12/08 19:12:51
回帰分析で、説明変数を増やせば増やすほど決定係数は1に近づいてしまう
というのは、なぜなのでしょうか?
どの本にもその事実が書いてあるだけで、その理由がわかりませんでした。
知っている方、教えてください、よろしくお願いします。

95:132人目の素数さん
09/12/08 22:21:46
>>93
すいません、>93さんのご質問に私も乗っからせて下さい。
>93さんの例では3者間の分析値についての検定に関する質問ですが、
例えば93さんの言うA社の分析値を理論値(もしくは計算値)に置き換えてみた場合はどうでしょうか?
つまり、
理論計算値1―分析値B1―分析値C1
理論計算値2―分析値B2―分析値C2
     ・
     ・
     ・
理論計算値5―分析値B5―分析値C5

のような場合も対応あるデータとならないか思うのですが、この場合の検定はどうなるのでしょうか?
(この質問の背景は、「人工的に配合したある成分の標準試料(成分量は人為的に調整してある)
をB社とC社に分析させた場合、理論値と分析値との間に有意差が見られるのかどうか」を検定したい
ところにあります。理論値とそれを分析した2者の分析値の3つの数値間に有意差が認められなければ、
その標準試料の理論値を信用しても良いということにし、有意差が認められれば、標準試料を作り直す
ことにしようということです。)

どうか宜しくお願い致します。
(そして93さん、勝手に割り込んでしまってすいません。)


96:132人目の素数さん
09/12/10 05:33:33
初めて相談させて頂きます

ある実験結果より得られる2次曲線AとBに有意差があるかどうかは
どうやって検証すればよいのでしょうか?

よろしくお願いいたします

97:132人目の素数さん
09/12/10 21:01:56
>>96
どちらも確実に2次曲線であることが分かっているなら
回帰係数で検定すればいいんじゃない?

98:132人目の素数さん
09/12/10 22:23:38
>>93
対応のある分散分析

99:132人目の素数さん
09/12/10 23:42:26
当方、社会人で通信の大学に通っており、それのレポートの問題です。
どうにもわからず困っております
丸投げ禁止を承知の上で書き込みます。

「あるメーカーで製造されているボールベアリングの直径xは
正規分布N(8.003,0.0015^2)に従っているという。
このとき以下の問いに答えなさい。
1.Pr(x=>8.0045)
2.Pr(7.998<x=<8.005)
3.Pr(8.004<x=<8.006)
4.Pr(x=<8.001)
5.Pr(x>c)=0.10となるcの値

自分なりに参考書を調べたのですが、解答を見ても途中経過がわからず、
とても困っています。
ネットで調べるにしても、何で検索してよいのかわからないので、
そのヒントだけでもお願いできないでしょうか?

よろしくお願いします。

100:132人目の素数さん
09/12/11 04:58:16
標準正規分布表をみたりしてはいけないものなのか?


> 通信の大学に通う

素朴な疑問なんだが、通わないから 通信なんではないのか?

いやじつは俺も通信制の大学に在籍はしてるが、通ってはいない。



101:99
09/12/11 08:38:47
>>100 コメントありがとうございます!
自分で計算すると、正規分布表をはるかに越えた値になってしまうのです。
それは、自力で計算をしろということなのか、私の計算ミスなのかすらわからないのです。
そうですね、通ってはいないですね~。
興味本意で履修したことをほんと後悔しています。

102:132人目の素数さん
09/12/11 20:39:55
>>99
1. について。
Y~N(0,1) ならば Pr(X>=8.0045) = Pr(Y>=1) である、ということはわかります?
Y = (X-8.003)/0.0015 と変換すれば…

103:132人目の素数さん
09/12/12 00:11:43
>>99
正規分布表を参照するときは、平均値から注目する値までの間隔を標準偏差を単位にして換算する。

1.の場合、
①値は8.0045で平均は8.003なのでその間隔は標準偏差を単位に考えるとどうなるか?
 (言い換えると、間隔は標準偏差の何倍か?)
②正規分布表には、平均値から色々な値までの間隔を標準偏差を単位にした一覧表として記載されている。
 尚、平均値自身の平均値からの間隔は”平均値-平均値=0”で正規分布表では0、分布の真ん中に位置している。 
 なぜこのような書き方をするのかとなれば、%や比率のように何かの値を基準にして相対的な表示すると、色々な
 数字を直接比較できるから。本例では生データの絶対間隔は8.0045-8.003になるが、様々な場面によって、10.0-7.5とか
 1110-999とかいうこともある。差額そのもの同士は背景/事情が異なると比較できないが、差額をその標準偏差で割ると、
 比較しやすくなる。例えば重量%を例にすると、50g中5gのAという成分と100g中10gのAという成分は、絶対値で
 比べるとそれぞれ5gと10gで異なるが、それぞれの全体量で割るとどちらも10%となり、どちらも同じ割合で
 あったことがわかる。標準偏差で割るということは、重量%を求めるときにその全体量で割る事によって、単位重量
 当たりの量になおすことで比較しやすい値に換算することと似ている(ような気がする)。)
③①で考えた、平均値からある値までの(標準偏差を単位とした)間隔値と同じ値を分布表の最左列と最上段中から
 探す(普通は間隔の値は△.△△と小数2ケタまで載っていることが多い。表の一番左の列に”△.△”と
 1の位と小数1ケタ目が指定してあって、一番上の行には小数2ケタ目(0.0△といった感じ)が指定して
 ある。①で求めた間隔の値を表の左列と一番上の行の数字の組み合わせで探し出し、その行と列が交わる
 ところに書かれている数字を読み取る。
④その数字が、分布の真ん中(平均値)からある値までの面積が正規分布中に占めている面積の割合になる。
 (ただし、教科書によっては違う書き方もある。その場合も、必ず、その数字が正規分布の中でどこからどこまでの
 面積割合を示すかが書いてあるはずなので、十分に留意する)以下は上で挙げた書き方の表を仮定して進める。)


104:132人目の素数さん
09/12/12 00:13:04
>>99
続き
⑤正規分布(に限らないが)では、分布全体の面積を1としている。そして0を中心にして+側半分に0.5、
  -側半分も0.5が配分されている。③で読み取った数字は左半分(0.5)の内、どれほどの面積がその間隔値
  (①で求めた値と平均値との間の間隔を示す)までに含まれるかを示す。(なので、最大で0.5、最小で0に
   近い数字が書かれている)
   尚、間隔値がマイナスであった(①で求めた間隔がマイナス値だと、それを標準偏差単位で割ってもマイナス
   なので、間隔値はマイナスになる場合もある)としても、考え方は同じ。
⑥Pr(x=>8.0045)とは”ある値が8.0045よりも大きくなる確率”という意味。 8.045は平均値(8.003)よりも大きい
 ので、平均値を中心として右半分の分布を考えると、③で求めた値が平均値(0)からある値(この場合は8.0045)
 までの面積を示すわけだから、8.0045を超えるとなれば、求める確率はその面積を全体から省いた後の残りの面積。
⑦全体の面積は(今は右半分を考えているので)0.5であったから(ただし④で書いたように、教科書よって書き方が
 異なるので注意)、結局8.0045を超える確率は、最大確率である0.5から平均値~ある値(8.0045)になる確率を
 引いた残りということになる。
⑧尚、問1の場合は8.0045を超える確率を求める訳なので、分布の左側半分(平均値よりも小さな値)をとる確率分の
 0.5は今回は対象外の確率となる。よって、全体の確率1からまず左半分の0.5を引き、次に④で求めた確率を引くと
 残った確率がある値(8.0045)を超える確率となる。
⑨他の問題も同じ考え方。ただし問5は先に確率値が与えられているので、順番が逆になる。正規分布表で確率0.1になる
 間隔値(標準偏差を単位にした値。もし表に0.1がない時は一番近い値から間隔値を導く)を見つけ、それに標準偏差を
 かけるとそれが平均値と求めるある値(問題ではc)の差額になる。なので平均値にその差額を足す(もしくは引く)。

間違ってたらすまん。

105:132人目の素数さん
09/12/12 00:44:15
なんて丁寧なんだお前。
ここで通信大学開くかw

106:132人目の素数さん
09/12/12 01:19:11
>>105
俺もそう思う。
魔がさした。
反省はしていない。



107:132人目の素数さん
09/12/12 01:34:30
たくさん書いたら、めんどいので、誰も読まない、
と言う、2chの法則を知らないのね。

108:132人目の素数さん
09/12/12 01:39:24
だから魔がさしたと・・・

109:132人目の素数さん
09/12/12 01:42:27
ごめんね。
だけど、>>99 はきっと読んでくれるよ。

110:132人目の素数さん
09/12/12 01:58:57
どなたか頭いい人この問題の解答書いていただけませんか?
XとYが独立した確率変数でそれぞれ積率母関数が
m_X(t)=[0.5/(1-0.5e^t)]^2,t<log[1/(0.5)]
m_Y(t)= [0.5/(1-0.5e^t)]^3,t<log[1/(0.5)]
であるとする。Z=X+Yの確率関数を求めよ。
お願いいたします。

111:132人目の素数さん
09/12/12 12:33:02
>>110
独立なら積率母関数の積を考えればよいが…。
その積率母関数は負の二項分布だよな。

112:99
09/12/12 12:57:50
>>102>>104
ほんとうに丁寧に、ありがとうございます。
1と3だけは、なんとか類題の数だけ置き換えて計算してみたのですが、
意味はまったく理解できませんでした。

教えていただいた内容をノートに書き写してやってみます!
本当にありがとうございました。

113:132人目の素数さん
09/12/12 13:21:41
>>112
>>102~>>104の解説をよく読んだ上で、もう一度計算した値をここへ書いてみて答え合わせを
お願いしてみたら?
丸投げと違って、解説を参考に解いてみた上での答え合わせなら、誰かが応じてくれるかも
知れないよ。


114:132人目の素数さん
09/12/12 17:35:38
>>111掛けたら5乗になりますよね、そのあとどうするんですか?

115:132人目の素数さん
09/12/12 20:14:48
>>114
積率母関数を知らない人間が、積率母関数の問題の答えだけ知って
なにに使うんだ?

116:132人目の素数さん
09/12/13 00:06:38
初歩的な質問ですみませんがよろしくお願いします

実験でA群とB群について介入前後のデータを計測しました。
この場合にはどの検定を用いるのが適当でしょうか?

1.群間の比較に,A群介入前vsB群介入前,A群介入後vsB群介入後の対応のないt検定を行う
介入前後の比較にA群介入前vsA群介入後,B群介入前vsB群介入後の対応のあるt検定を行う

もしくは,
2.これらを4群とみなして,対応のある一元配置分散分析→多重比較(?)を行う

よろしくお願いします

117:132人目の素数さん
09/12/13 00:14:37
>>116
すみません
上記質問の2で使用するのは反復測定(繰り返しのある)一元配置分散分析でした
この場合,多重比較は行えないとのことなので?を付けています

118:132人目の素数さん
09/12/13 01:27:15
順序統計量の同時密度関数の証明を教えて下さい
多項分布を使うみたいです

119:132人目の素数さん
09/12/13 03:48:34
>>115どーしても必要なんです。なんかこれテストに出るみたいで・・・解答お願いします(>_<。)

120:132人目の素数さん
09/12/13 11:20:13
>>116
1因子に対応があり、1因子には対応がない、二元配置の分散分析。

121:132人目の素数さん
09/12/14 15:27:30
>>120
分散じゃなく、多重比較ね。すいません。
えーっと、何だろう。調べてみます。

122:132人目の素数さん
09/12/14 22:38:17
どなたか>>110できないですか?

123:132人目の素数さん
09/12/15 14:27:34
>>122
負の二項分布って知ってる?

124:132人目の素数さん
09/12/15 15:11:49
>>123いや、知らないです

125:132人目の素数さん
09/12/16 22:42:58
ワイブル分布での平均値と標準偏差について、いま一つ飲み込めません。
どちらも計算で導きはできますが、ワイブル分布での平均値と標準偏差の意味を分かりやすく
お教え願えませんか?
(例えば、平均値はなぜ算術平均値ではなく、あのように複雑な式によって表わされることになるのか、
標準偏差は、例えば正規分布ではデータのの含有割合を示す指標として利用できますが、ワイブル
分布中での標準偏差も同じように使えるのでしょうか?正規分布でない以上、3σ≒0.997とはいかない
のでしょうが、このあたりはやはりチェビシェフの不等式によるしかないのでしょうか?)

126:132人目の素数さん
09/12/17 11:08:16
>>125
>例えば、平均値はなぜ算術平均値ではなく、あのように複雑な式によって表わされることになるのか
母平均と標本平均の違いは理解していますか?
分布が正規だろうがワイブルだろうが、標本平均は値を足してサンプルサイズで割ったもの、です。

>このあたりはやはりチェビシェフの不等式によるしかないのでしょうか?
(あるパラメータの)ワイブル分布で、平均+3σより大きい値をとる確率、といったものは正確に計算可能です。
URLリンク(keisan.casio.jp)

127:132人目の素数さん
09/12/17 16:12:57
>>122
OKwaveで見たことあるかと思ったら、同じ人か。
大学の教科書あされば、同じような問題あるんじゃね。

128:132人目の素数さん
09/12/17 18:03:20
>>127OKwaveってなんだ?

129:132人目の素数さん
09/12/17 20:55:02
ノンパラ回帰でAICって使えるのでしょうか?
パラメトリック回帰の場合、誤差項を正規分布と仮定するので、
RSSを代用してAICが求められますが、ノンパラなのに
誤差項に分布を仮定することは出来ないですよね。

130:132人目の素数さん
09/12/17 23:47:27
>>129
漸近理論で正規近似とかじゃないの?よく知らないけど。

131:132人目の素数さん
09/12/18 02:13:25
>>126
ご回答をありがとうございます。

平均値について、改めて考えてみました。
ワイブル分布の母平均(期待値)は
E(X)=η*Γ(1+1/m)   
(η:尺度母数  m:形状母数 Γ:ガンマ関数)
ということでした。
なので標本の算術平均値と母平均が異なるのは当たり前と言えば当たり前なのですね。
そして、ワイブル分布する対象からサンプルを採り続け、その標本平均をとり続ければ、
それは母平均(期待値)へ近づいていくということで良いのでしょうか・・・。

実は今回の質問は、”ワイブル分布においてX=ηの時、累積確率は約63.2%になり、この時の
Xが平均とされている”という記述を(ネット上で)見かけたからなのです。
確かにワイブルの累積破壊関数にx=ηと代入すると0.632が算出されますが、これが平均(=
期待値)とされることがよく理解できなかったことから発したものでした。
正規分布に慣れすぎた私にとって、平均と言えば確率密度曲線が最も高い所だったのですが
(そして正規分布の場合はその点が累積確率0.5ともなり、理解しやすい)、
ワイブル分布の場合、「平均値」として最も世間に受け入れられやすい点は、累積確率が0.5に
なる点とはならないのでしょうか?やはり63.2%となる点なのでしょうか?
(ちなみに私の持つデータではmが≒7となり、E(X)≒0.936ηとなります)


132:132人目の素数さん
09/12/18 14:02:11
>>131
なんで累積確率を平均とをそんなに結びつけたいの?

133:132人目の素数さん
09/12/18 16:58:59
>>131
>確率密度曲線が最も高い所
これは最頻値です。

>累積確率が0.5になる点
これは中央値です。

>「平均値」として最も世間に受け入れられやすい点は、
>累積確率が0.5になる点とはならないのでしょうか?
その場合は平均値ではなく中央値を使ってください。
平均値という用語の意味を勝手に変えたら
世間に受け入れられる事はないでしょう。

集計方法と指標の定義: さまざまな平均値/中央値/最頻値
URLリンク(web-tan.forum.impressrd.jp)

134:132人目の素数さん
09/12/18 22:28:52
ワイブル解析、私も勉強中なんですが、どなたかお勧めの参考書か教科書を教えて頂けませんか?
実際の本屋で一から探すには限界があるし、かといってネットで探しても実際に手にとって中身を試読できるわけでは
ないので購入するのを躊躇してしまいます。皆さんのお勧めがあれば大変参考になると思いますので、
どうかお願い致します。

135:132人目の素数さん
09/12/19 01:26:26
>>133
明確なご回答をありがとうございます。
ワイブル分布の形状や数式にとらわれるあまり、私は様々な代表値のある事を忘れていたようでした。
分布の中における代表値の意味を今一度、よく考えてみることに致します。
この度はありがとうございました。

>>132
質問をしたきっかけが、”ワイブル分布においてX=ηの時、累積確率は約63.2%になり、この時の
Xが平均とされている”という記述を(ネット上で)見かけたのですが、なぜそういう風に扱われるかを
知りたかったから、です。



136:あぼーん
あぼーん
あぼーん

137:132人目の素数さん
09/12/19 16:18:12
>>134
>ワイブル解析、私も勉強中・・・お勧めの参考書か教科書を・・・・
貴方は、学生?社会人?ワイブル解析を学んで何を解析する予定なの?
ワイブル関数だけを扱った書籍は先ずないだろうから、貴方の専門分野等の
情報を書いてくれないと推奨レスがつかないのでは。
若し貴方が統計初心者で、専門が信頼性工学なら、これなどはどう?
入門 信頼性工学―確率・統計の信頼性への適用 福井泰好/著 森北出版 2006.7 ¥2,940
URLリンク(bookweb.kinokuniya.co.jp)

138:132人目の素数さん
09/12/19 23:22:59
>>137
私は社会人3年目の者です。
私は今、あるセラミックス製品の抗折強度(簡単に言いますと、セラミックスの試験片に荷重をかけて、それを折る
試験です)を測る業務に就いています。
色々と聞いたところ、セラミックスの強度はワイブル分布に従うということらしく、是非知っておきたいのです。
私は理学部出身で、恥ずかしながらワイブル分布という言葉は最近知りました。
会社の先輩にも聞いてみましてが、どうもすっきりとせず、かといって何回も質問を重ねてあまりお仕事を邪魔するわけにもいかないしで、
頼りになる本を手元に置いておきたいのです。
統計学については正規分布による統計学は一通り学びましたけど、まだまだ統計初学者です。
お勧め頂いた本、まずは本屋で探してみます。
もし見つからなくても、今度は137さんのお勧めという根拠がありますのでネットでの購入も真剣に考えます。
(もちろん、どこまで理解できるかは私自身の責任ですから、その点については137さん、ご心配なさらないで下さいね。)

情報をありがとうございました!!




139:132人目の素数さん
09/12/19 23:46:59
>>会社の先輩にも聞いてみましてが、どうもすっきりとせず、かといって何回も質問を重ねてあまりお仕事を邪魔するわけにもいかないしで、
頼りになる本を手元に置いておきたいのです。
と、先輩に打ち明けて、
その先輩のお薦めの本を買えば良い。

140:132人目の素数さん
09/12/20 02:37:33
>>139
お前、一理ある。
だけど、どこか惜しい奴だな。

141:132人目の素数さん
09/12/20 18:24:42
先輩にお勧めの本があるならとっくに紹介してるな、たぶん。

142:132人目の素数さん
09/12/22 00:13:14
追い越されたくない先輩か。
お気の毒。

143:132人目の素数さん
09/12/22 20:45:52
ラインフィッティングについて勉強しているのですが、
入力と出力両方に誤差がある場合は全最小二乗法を使うと
点と直線の距離の2乗和を最小にするパラメータが得られると聞きました。
英語版ウィキペディアに載っている方法を実装したのですが、結果は通常の最小二乗法と変わりませんでした。

通常の最小二乗法と何が違うのでしょうか?

144:132人目の素数さん
09/12/23 01:57:33
Wikipediaの記述が間違っているか、実装を間違えたかのどちらかだな。

145:132人目の素数さん
09/12/29 17:35:37
重回帰分析でトレランスの値はいくつくらいが望ましいんでしょうか?
高いに越したことがないのはわかるんですが、0.3くらいの値だと
分析結果としてはいまいちと考えるのでしょうか?

146:132人目の素数さん
10/01/04 17:25:20
論文を投稿するときに、エディターを選択肢から選択出来るジャーナルがありますが、誰を選ぶかということに関して注意すべき事ってありますか?

147:132人目の素数さん
10/01/05 11:39:46
>>146
自分のやってることを理解(評価)してくれそうな人を選ぶ。
状況によっては、同じ研究をしてるライバルがエディターなら避けるってのもある。

148:132人目の素数さん
10/01/07 20:14:33
重回帰分析の結果を比べたい場合データの個数が著しく違う場合
例えば、重回帰A n=100 重回帰B n=10
で分析した結果は、よろしくないですか?


149:132人目の素数さん
10/01/07 20:17:07
>>148
なんでもないです…。スルーしてください


150:132人目の素数さん
10/01/08 05:48:05
グラフの比較について、どなたか教えて下さい。
下記のように、サンプル間比較を横棒で明示することがあります。
URLリンク(imepita.jp)

1. これには名称はあるのでしょうか。
2. これを自動で設定してくれるソフトはあるでしょうか (現在は R 2.10.01 を使用)。

以上宜しくおねがいします。

151:132人目の素数さん
10/01/10 23:17:41
両側二項検定について質問です。

「有意に高いか」の片側二項検定は、「有意に低いか」の片側二項検定の余事象のような物になると思うのですが、
両側行うとはどういう事なのでしょうか?
帰無仮説を2つ用意するのでしょうか?

152:132人目の素数さん
10/01/11 02:17:38
デンドログラムに見えないこともないが、他の物と云われれば、そうかなとも思える。
cluster analysisだったらRにあるよ。

AとBの差について検定をする場合、通常は両側にしておくと無難。
片側にするときは、どうしてそのようにしたかをちゃんと説明することが必要。
帰無仮説は、「採択」するものではなくて、
「棄却する」か、「棄却することができない」、
のどちらか、だと思う。


153:132人目の素数さん
10/01/11 10:22:06
>>152
うーん、例えば
URLリンク(ja.wikipedia.org)
wikipediaの記事のサイコロの例は、片側二項検定の意味がわかりやすいのですが、
両側二項検定はどういう意味になるのか、またどういうケースで必要になるのかイメージできないです。

154:132人目の素数さん
10/01/11 11:55:31
>>153
片側検定は、両側検定よりも範囲が広くなるから、結果を出しやすくなる。
サイコロの例だと、事前にはある目が多く出るように歪んでいるかはわからないよね。
この場合は、両側を使う。

やっちゃいけないのは、データをみてから検定の方法を決めること。あくまでも、事前に知りたいことを決め、検定方法を決めて分析する。

155:132人目の素数さん
10/01/11 12:58:59
>>154
データ見てから検定の方法を決めるのがだめっていうのは、
サイコロの例で言えば、「235回中6の目が51回は期待値(235/6)より高いから、有意に高いか片側検定する」という判断も当てはまるのでしょうか?

6の目が出る確率が1/6になるようにサイコロが作られているか両側二項検定するということは、
・1/6を帰無仮説とし、235回のうち6の目が51回以上出る確率が有意水準より低いか
・1/6を帰無仮説とし、235回のうち6の目が51回以下出る確率が有意水準より高いか
この2つを調べ、両方とも真ならば6の目についてサイコロは公正に作られているという意味ですか?

156:132人目の素数さん
10/01/11 13:56:52
仮説を検証すると言う目的を考えれば
仮説もなしに検定ができるわけがない
その意味で検定手順や優位水準は先に決まる

仮説が外れた場合は仕方がないので
何か尤もらしい言い訳を考える必要がある

157:132人目の素数さん
10/01/11 16:12:38
>>155
>>154だけど(ちなみに、>>152とは別人)

最初にサイコロを235回振ってる段階で、6の目が公平かを調べようとしてるよね。
その段階では、多くでるか、少なくでるかはわかってないでしょ。

ところが降ってみたら、6の目が多くでた。
だから、6の目が多くでることを統計的に”片側”検定しよう。
とデータを見てから検定方法を決めてる。

これは、統計の手順としては、認められない。
>>155の場合、235回サイコロを振る前に、仮設を決めるとしたら、6の目が多いか
という仮設にはならないで、6の目が1/6の確率ででるかって仮設になるでしょ。

なんで、こういうことを気にするかと言うと、偶然、目が多くでたり、小さくでたり
することがあるので、偶然の結果を知ってから仮説を立てるのはダメだってことなのね。
(後出しじゃんけんになります)

5%で検定するなら、両側を2.5%ずつにして、全体で5%になるように検定
すればいい。

ただし、サイコロだと難しいけど、6の目が多くでることが問題であって、少なく
でることは問題ではない場合(薬の効果があることが大切で、効果が無いとかは
気にしないといった状況)ならば、片側検定になる。

158:132人目の素数さん
10/01/11 18:30:07
>>155
>>157だけど補足しておくね。

データを見てから分析方法を決めてもいいのではと思いがちだけど、
統計的な分析をするときは、データの取り方も含めて最初に計画する。

つまり、どういうことを知りたいのかという仮説を立てて、それを
どの程度の精度で確認したいかを考えて、そのためにはどのような
方法で、どれくらいのデータをとればいいのか、ってのを計画する。

そういった、統計分析を適切に行うための流れとして、仮設を立てる
というのが、データよりも先にくる。

とはいえ、状況によっては、すでにあるデータから分析をしないといけ
ない場合もあるけど、きちんと計画して集めたデータではないから、統
計学的には妥当といえない分析であることが多い。

159:132人目の素数さん
10/01/11 18:45:15
仮説

160:統計初心者
10/01/11 19:52:27
初めての書き込みです。
以下のような場合にどのような統計処理を行えば良いのかがどうしてもわからず、
有識者の方にご助言いただければと思い質問させていただきました。

100文字の文字列の中に、Aが40、Bが15、Cが30、Dが15個ある。
その中から無作為に4文字を選び、Xに置換する。 → (1)
この(1)の操作を50回行った時、「A→Xと置換された文字列」の個数はいくつになるか?

この場合、解答は正規分布のような形になると思うのですが。。
解析するにあたり、他に必要なパラメーターが必要な場合はそれもご指摘いただければ幸いです。
また、もし分野違いでしたら、どのような分野が適当かをご教示いただけないでしょうか。
よろしくお願いいたします。

161:132人目の素数さん
10/01/11 19:56:37
置換されなかったAの数を求めれば良い

162:統計初心者
10/01/11 20:09:47
>>161
レスありがとうございます。

置換されなかったAの数は、どのようにして求めれば良いのでしょうか?
何分素人なもので、勝手がよくわかりません。
お手数おかけいたします。

163:132人目の素数さん
10/01/11 21:18:21
A以外の文字が選ばれる確率
それが4連続で起こる確率
100%から↑を引くとXにAが含まれる確率

164:統計初心者
10/01/11 22:47:52
>>161,163
なんとなくわかりました!

ありがとうございます。
とても参考になりました。

165:132人目の素数さん
10/01/12 02:46:57
>>156-158
納得しました。
thxでした。

166:統計素人
10/01/13 23:06:31
初めて書き込みます、ほんとバカでごめんなさい。
以下の問題がわからなくて助けて頂けたら嬉しいです。

C=1.59845(0.456)+0.544653(71.398)Y 
の計測式に表れる2つの数値0.544635および71.398を利用して、
推定した限界係数の標準偏差を求めなさい。
そうした上で、国民所得Yに係る係数の区間推定を行いなさい。



167:132人目の素数さん
10/01/15 15:33:06
この問題の解き方が分からず困っています。解答解説を途中まででもいいのでお願いします。(単位:10兆円)


民間消費(Y) / GDP(X) / GDP成長率
1年目 19 / 32 / ━
2年目 20 / 34 / 6.3
3年目 21 / 35 / 2.9
4年目 22 / 37 / 5.7
5年目 23 / 40 / 8.1
6年目 25 / 43 / 7.5
7年目 26 / 46 / 7
8年目 27 / 47 / 2.2
9年目 28 / 48 / 2.1
10年目 29 / 48 / 0
平均 24 / 41 / 4.6
標準偏差 3.32 / 5.88 / 2.71
不偏標準編纂 3.5 / 6.2 / 2.88

【1】母集団でGDP成長率は3%以上といえるか検定してください。有意水準は0.05とします

帰無仮説H0:
対立仮説Ha:
検定の型(タイプ):
臨界点:
検定統計量:
結論:

168:132人目の素数さん
10/01/15 16:26:04
シーズンだね。

>>166
71.398は授業で「t値」と呼んでる値。それを調べる。

>>167
左片側検定で検定統計量は t だろう。教科書問題だから。

169:132人目の素数さん
10/01/15 23:32:03
>>168
パソコンで試験を解かせてるんだけど、気をつけないと、試験中にネットで聞くのがいるので、IEとか開いてたらカンニングって言ってる。

170:132人目の素数さん
10/01/15 23:41:42
>>169
マイナーなブラウザ使うやつがいたりしてなw

171:132人目の素数さん
10/01/16 00:56:53
パソコンの管理人にインターネットつなげられないような設定を作ってもらうべきじゃね?

172:132人目の素数さん
10/01/16 00:59:20
>>167

3%以上と言えるかどうかを検定したい。→期待する結果は”成長率(の平均)は3%以上である”と結論付けたい。→そこで、
帰無仮説(棄却される(無に帰する)事を期待する仮説)は”成長率は3%以上とは言えない”ということになる。
さらに言えば、今回判断の基準となるのは3%であるので帰無仮説は”成長率は3%である”とおき、これが棄却できたら”3%である
とは言えない”→”3%以上である”とみなすことにする。
(厳密には棄却できたからと言って積極的に成長率が3%を超えているとは言いきれないし、逆に棄却できなかったからと言っても
”成長率は3%”であると積極的には肯定できない。あくまでも確率的にそう考えた方が自然というくらいのニュアンスだが、実際に
応用されている現場ではそんなことでは話が進まない。検定は推定を下敷きにしている(そもそも人が神ではない以上、物事の判定
には必ず推定が入る)わけで、その推定に客観性を持たせるのが検定であると思います。)

今回の調査の結果では4.6%。これだけ見ると確かに3%以上ということになる。
大事なのはこの4.6%という数字がどれくらいアテになるか?ということ。何故なら、たまたまデータの平均が4.6%になった
だけじゃないかとも考えられるから。
で、この4.6%という値がたまたまじゃなく本当に3%より大きいそう=この差は有意(意味がある)かどうかを検定するには・・・
以下、一旦切ります。



173:132人目の素数さん
10/01/16 01:00:04
1.まず得られた成長率(4.6%)と基準となる成長率(3%)の差額=4.6-3=1.6ポイントが有意(意味がある)かないか?
2.有意かどうかを判定するには、この差額が十分な差と言えるかどうか?
3.十分な差とは何か?→偶然に左右されるデータのばらつき具合(標準偏差)と比べてみて、それよりも差額の方が大きいようなら
 その差額は”大きい”すなわち有意な差であると考える。
4.そこで差額が標準偏差の何倍かを計算するが、この標準偏差は不偏では「ない」方の標準偏差をデータ数-1(n-1)のルートで
 割ったものを使う。(これの結果がいわゆるt値になります。)式で書くとt=「差額/(標本標準偏差/√(n-1)」=
 「差額×√(n-1)/標本標準偏差」となる。
 →長くなりすぎるのでハショりますが、標準偏差はデータ数が増えるほど小さく(精度が上がる)なります。
5.ではこの比が何倍あれば”十分に差がある”ということになるのか?それは、有意水準による。
 (有意水準についても書こうとしたが文が長くなりすぎそうです。ここはどうかご自分で調べてみて!)
6.問いでは有意水準は0.05なので、(今は機械的に)t分布表(教科書には必ずあります)で正規分布に占める面積の割合が0.05
 である列を探す。それも今回は片側検定(これも長くなるのでどうか考えてみて!)なので、正規分布表の右端側の面積が0.05
 である列をさがす。
7.次にその列の何番目の行を見るかだが、(これも今は機械的に)データ数が10なので10-1で9(自由度が9という意味)の行を
 探す。→今回は1.833となると思います。
8.この1.833と手順5.までに求めた比を比べる。もし求めた比が1.833よりも大きい場合は、最初に考えた帰無仮説は棄却する。
 つまり、”成長率は3%である”という仮説は棄却され、”成長率は3%以上である”となる。
 (冒頭にも書いた通り、これは積極的な棄却ではなく、そう考えるのが自然ということです。)

具体的な計算方法は教科書等に必ず書いてあります。どうかご自分でなさってみて下さい。
最後に、決まり文句。
間違ってたらすまん。

174:132人目の素数さん
10/01/16 01:09:43
解説ありがとうございました

175:168
10/01/16 18:21:14
>>167
ごめん数値見てなかった。 ×左片側検定 ○右片側検定

>>169
どこでいつやってるかわからない試験のために一般のネットユーザが
遠慮する、というのはヘンだと思いませんか?
(1年中24時間、世界のどっかでやってる可能性あり)

>>172
・「差額」はヘン。「差」または(帰無仮説値からの標本平均の)「乖離」かな、、、
・「t = 差額 / { 標本標準偏差 / √(n-1) } 」 は意味的にわかりにくいから、
 「t = 乖離 / (不偏標準偏差 / √n ) = √n × ( 乖離 / 不偏標準偏差 ) 」が吉かと。
 (わざわざわかりにくい不偏値を世間で使うのは、この種の統計量表現のため)

176:132人目の素数さん
10/01/16 18:50:40
>>175
試験に関しては、時期が夏前と年明けに偏るので、その時期に大学定期試験レベルの質問か日中にあったら、夕方か次の日までコメントを待てばいいと思うよ。

177:132人目の素数さん
10/01/16 21:54:44
>>173はずいぶん丁寧に教えてくれているのに、そのお礼が何とも素っ気ない気がする。
教えてもらって理解できたんなら、早速解いてみて答えを書きこんであげれば、173も
「あぁ、分かってくれたんだな。レスして良かったぜ。」
となるんじゃないだろうか?あるいは他の人が、さらなる解説を引き受けてくれるかも知れないよ。
それともまずは取り急ぎでお礼をしておいて、今懸命に問題を解いている最中かな。
もしそうだったらごめんなさい。

しかしGDP成長率ってt分布で表わせるものなのかな。
あくまでt検定の勉強の為の例題なのか・・・。


178:132人目の素数さん
10/01/16 21:57:00
>>173はずいぶん丁寧に教えてくれているのに、そのお礼が何とも素っ気ない気がする。
教えてもらって理解できたんなら、早速解いてみて答えを書きこんであげれば、173も
「あぁ、分かってくれたんだな。レスして良かったぜ。」
となるんじゃないだろうか?あるいは他の人が、さらなる解説を引き受けてくれるかも知れないよ。
それともまずは取り急ぎでお礼をしておいて、今懸命に問題を解いている最中かな。
もしそうだったらごめんなさい。

しかしGDP成長率ってt分布で表わせるものなのかな。
あくまでt検定の勉強の為の例題なのか・・・。

179:132人目の素数さん
10/01/17 09:41:34
ある観測値の平均値を時系列等で分析したい。

観測値自体が平均値の時、それをさらに平均化していいものでしょうか。

例えばA国B国...X国の平均気温をさらに平均化させて、
そのまま世界の平均気温と考えていいか。

A地区とB地区の平均収入をさらに平均化させて、
時系列分析などをして意味があるのか。

分散や尖度、歪度に差が無い言える時に有効とか、
トレンド、周期性の差が無い時に有効とか、
何か明確な基準みたないなものがあれば教えて下さい。

180:132人目の素数さん
10/01/17 11:39:24
日本とアメリカの平均気温を平均して
何か意味があると思うならすればいい。

181:179
10/01/17 12:23:30
>>180
回答ありがとう御座いました。

URLリンク(www.data.kishou.go.jp)
一応、こういった事例は見ておりまして、
陸地海上などの観測点の条件や面積、緯度の違いによる重み付けなどで調整し、
平均値が扱われているのは承知しております。

個別案件としてではなく、何か普遍的な考え方があればと思いまして、
他に詳しい方がいらしたら、再度お願いします><

これで終わるのも少々悲しいので・・・




182:132人目の素数さん
10/01/17 14:19:38
>>181
普遍的な考え方。
状況に応じて重み付けして平均する。

クラス毎の平均点から学年の平均を出す時は、各クラスの人数を考慮するってのは、小学校で教わること。

183:132人目の素数さん
10/01/17 14:24:02
ベイズの定理の問題がうまく解けません、教えてください

ガンの検診にあたって、自覚症状がある人(S)が25%、ない人(NS)が75%であるとする。
Sのうち6%がガンを持ち、NSのうち1%がガンを持っていることわかっているとする。ガンにかかっている人(C)で自覚症状がない確率P(NS|C)を求めてください。


184:132人目の素数さん
10/01/17 15:10:11
>>181
気象統計の基準だって定期的に見直しが入って変わってるよ
そこにある手法だって今現在の気象庁が提示する一案に過ぎない
統計手法は目的によって選択されるものであって、統計学者以外に
気象学者と経済学者が存在するのはそういう理由だ

本当に普遍的で意味のある議論がしたいなら
普遍的な課題を抽出して明確に定義してみたらいい

185:132人目の素数さん
10/01/19 14:59:28
統計というか時系列解析の内容なんですが、

ARモデルの次数決定にAICを使っているのですが、プログラムで計算させるとなぜか負の値も出てきます。
テキストには「AICは小さいほどよいモデルが選択できる」とのことなのですが、これは0に近い値をとるのか、マイナスの最小の値を取るのかわかりません。
そもそもマイナスなんて出てこないのでしょうか?AIC計算に使った式は

AIC(m) = n * (log(2 * pi * variance ) + 1) + 2 * ( m + 1 );

です。varianceは分散のことです。分散が 0<variance<1のときだとマイナスは出ると思うんですが…
どうかご教示お願いします!ちなみに使ってるプログラミングツールはMATLABです。

186:132人目の素数さん
10/01/19 16:04:50
>>185
その式を見る限り variance が小さければ負になりうる

ただたしかその variance は生の計測量の分散ではなくて
規格化(標準正規分布にしたがう変数の2乗になるように)
して定義するのではないだろうか?

生のデータは数値の単位をどうとるかで分散は変わってしまう
(たとえば長さならば m と km で数値は1000倍変わる)


187:132人目の素数さん
10/01/19 19:29:59
>>185
式が間違っていると思います。AICは負の値はとりません。

188:132人目の素数さん
10/01/19 23:14:30
モデルの適合が悪く最大尤度がとても小さいと負の値も取るよ。
式は時系列問題に詳しくないので正しいのかどうか分からないが。
(通常の回帰で正規分布の場合と少し違うけど)


189:132人目の素数さん
10/01/19 23:16:36
ごめん逆だった。適合がよすぎる場合だった。最大尤度が大きい場合ね。

190:132人目の素数さん
10/01/20 00:17:51
AIC = -2log L + 2k
右辺の第一項も第二項も負の値を取りえない。

AIC = -2log L + 2(k + 1)
という定義でも同様。

191:132人目の素数さん
10/01/20 00:23:08
尤度を勘違いしてない?
離散分布なら確率だから0と1の間しか取らないけど
連続分布ならそんな制限はないよ。

192:132人目の素数さん
10/01/20 16:29:00
ちょっとお聞きしたいんですが、
統計学の内容って経済、数学科、工学部(情報系?)のそれそれで学べる内容が違うんでしょうか?
それとも学べる内容などは同じで論文書くときにどの分野で使うか程度の違いなんでしょうか?

ちなみに野球やサッカーなどのスポーツでのデータを色んな角度から検証できるような
分析方法を学びたいと思ってます。

193:132人目の素数さん
10/01/20 19:24:20
>>185
小さければ小さいほどは
マイナスならばマイナスほどです。

エントリピーじゃないから0におさまるわけじゃ~ない

194:132人目の素数さん
10/01/20 20:17:47
>>192
入門なら基礎知識部分は同じ。でも例が分野によって随分違う。
中級以上では応用的手法が中心になるので、扱う内容が分野で全く違う。
スポーツだと医学系の統計が近い感じ。
その3分野の中だと実験ありの工学系かな・・・

195:132人目の素数さん
10/01/21 00:06:28
>>192
分野によってデータに癖がある。
経済学で用いられる統計は、実験が難しいなどの理由から、理工系の統計とは違う技術が必要だったりする。

まあ、基本は一緒だけどね。

196:132人目の素数さん
10/01/21 00:43:28
どなたかお願い致します!

10個の試料について、ある物性値を測定原理の異なるA法とB法で測定しました。
いずれの方法の分析誤差とも(ほぼ)正規分布に従うこととしまして、

この2つの方法による各測定値は等しいといえるのかどうか(A法による値とB法による値との間に差がないのかあるのか)
検定したい時は一対標本のt検定を行えば宜しいのでしょうか?
また、3つ以上の分析方法(A,B、C法等)間で同様の検定を行いたい時はどんな検定方法があるのでしょうか?
(3つ以上にまたがる対象間での検定には分散分析と用いると聞きましたが、上の例の場合、
 対応ある場合の3つ以上の値の分散分析のようなものがあるのでしょうか?)

上記2点、お教え下さいませんでしょうか?

お願い致します!



197:132人目の素数さん
10/01/21 07:33:13
>>192
野球やサッカーのデータを入手できるあてはあるの?
あと、例えデータを入手できたとしても大学の卒業研究や修士論文のテーマ
として一回それらを分析し、それっきりになる(職業にはできない)と思うけど、
それでいいの?

198:132人目の素数さん
10/01/21 22:43:17
趣味にしろ何にしろ学びたいから学ぶ。それでいいでしょ?

199:132人目の素数さん
10/01/22 00:02:55
アメリカに行けばいいんじゃね?

200:132人目の素数さん
10/01/22 00:07:03
>>196
反復測定分散分析でggr

201:132人目の素数さん
10/01/22 13:48:35
二変量データ(X1i, X2i)i=1,...,nから、カーネルで密度関数推定を行ったとします。
データが相関を持つような場合は、どのような方法を使えばよいのでしょうか? 
通常のカーネルを利用しても良いのでしょうか?

202:132人目の素数さん
10/01/22 21:40:41
メビウス反転公式の途中で
 
 
 Σd|n μ(d)Σa|n/d f(a)=Σa|nΣd|n/af(a)μ(d)

の等号成立の理由がわかりません。

どなたか教えてください。

203:132人目の素数さん
10/01/22 23:53:26
重回帰分析に詳しい方、お願いします。
説明変数にダミー変数を用いる数量化理論1類において、
構築された回帰式を回帰診断したいのですが、
残差プロットはどう見ても規則性があります。
どこからみても、回帰式の前提である残差のランダム性、均一性、正規性が得られて
いるようには見えません。

数量化理論1類の回帰式では残差による回帰診断は必要ないものなんでしょうか?

204:132人目の素数さん
10/01/23 01:03:02
>>203
アイテム・カテゴリが少ないと縞模様になったりするかもしれないが、
誤差に正規性が仮定できるような状態だと回帰診断も普通にできると思う。


205:132人目の素数さん
10/01/24 00:33:18
>>204
ご回答ありがとうございます。
2変数で回帰式を構築すると縞模様どころか平行2本線になりますが、
こんな残差プロットでも世間様に認めていただけるものなのでしょうか??

206:132人目の素数さん
10/01/24 02:44:25
>>205
2変数?1アイテム2カテゴリということ?
回帰診断より説明変数が少ないことが問題だと思うけど。

207:132人目の素数さん
10/01/24 11:21:09
重回帰分析の場合では、説明変数(変量数、カテゴリに相当)
の数が少ない方が、よりよい回帰モデルと見なされることはご存じですよね?
標本数が少ないことは問題になりますが、変量数が少ないことが問題と
言われても。。。



208:132人目の素数さん
10/01/24 13:00:16
次の問題がチンプンカンプンです。ヒントでもいいですから宜しくお願いします。

【問】ある癌の危険因子の研究において、喫煙の有無と癌の有無に関する次のデータがある。

喫煙者    非喫煙者    計
癌有      100 120 220
癌無      170 280 450
計       270 400 670

(1) 喫煙者に対する非喫煙者の癌の相対オッズを推定しなさい。
(2) 相対オッズの95%信頼区間を計算しなさい。ただし。ln(OR)の標準誤差が
  √(1/a + 1/b + 1/c + 1/d)
であることを用いること。(lnは自然対数、a、b、c、dは2x2分割表の各セルの数を表す)
(3)喫煙と癌の有無の間に関連はないという帰無仮説を有意水準0.05で仮説検定しなさい。

209:132人目の素数さん
10/01/24 14:42:58
>>207
単に変数が少なければいいってもんじゃなく、モデルとして適切な状態で、少なくできるなら、少ない方がいいって話。

回帰分析の結果がおかしい時は、定式化がおかしい場合が多く、その中には変数が足りないってのもある。
誤差項の動きがおかしい時に、変数を増やしたらうまくいくことは多く、それは必要な変数が抜けてたってこと。

210:132人目の素数さん
10/01/24 15:04:23
>>209
私の理解が間違っていなければ、2種類のダミー変数からなる重回帰式で
「残差プロット」を描画すると、必ずランダム性のない二本線が描かれます。
他の統計量、回帰診断に異常が認められなくても、です。
これは、あなたの言う「モデルとして適切な状態」と言えるのでしょうか。

あるいは、2カテゴリの数量化理論1類そのものが邪道だということに
なるのでしょうか???

211:132人目の素数さん
10/01/24 18:28:14
Xi ,i=1,2,…,nを正規分布N(μ,δ^2)に従う独立な確率変数とする時の
標本平均Xがμの有効推定量となることを証明するのはどうしたらいいのでしょう?

212:132人目の素数さん
10/01/24 18:32:52
>>211
不偏推定量の範囲でだったらクラメルラオの不等式利用とかでどうなる?

213:132人目の素数さん
10/01/24 18:57:19
すんません、独立だったら中心極限定理がそのまま使えるのですね。
>>212
さんくす

214:132人目の素数さん
10/01/24 22:30:23
連続型の数値の母集団平均を推定しようと思ったから、
サンプルサイズを決めたいけど、回答比率が判らん。

しかも酷い歪度か双方形なのは明らか。

nを決める式が判らんw

誤差表の50%のところ見て、適当に決めようかな。

215:132人目の素数さん
10/01/24 22:53:31
間違えた、回答比率じゃなくてs

あ~マジどーしよー

216:132人目の素数さん
10/01/25 00:39:53
>>210
話が変わってきてない?
最初の話では回帰診断が異常なんだけどってことで
よく聞いたらカテゴリが2つだけ。
それなら変数が少ないんじゃないのかってこと。
異常じゃないなら2つでもいいよ。

217:132人目の素数さん
10/01/25 08:23:49
>>216
私の質問の仕方が悪かったようで申し訳ありません。
趣旨は、「残差プロット」の「ランダム性の欠如」が認められる
回帰モデルでも「正常」と判断してよいのか否か。
です。

一般の重回帰モデルの残差プロットでは、横軸に予測値を使用したとき、
「パターンが認められないこと」が回帰診断の内容の一つに数えられます。
これは、おっしゃるとおり不適切な変量を看破するためだと考えます。
しかし、ダミー変数のみで構築した回帰式では、このパターンができて
しまいます。
そこで、数量化理論と一般の重回帰分析では残差プロットの取り扱い方に
相違があるのではないかと考えた次第です。

いかがなものでしょう?

218:132人目の素数さん
10/01/25 22:03:02
線になるとしても外れ値や正規性の判断を見ることはできる。
しかし、説明変数が少ないと決定係数も低いだろうし、
外れ値が出たり、正規性が狂ったりするのはある程度は仕方がない。


219:132人目の素数さん
10/01/25 23:35:10
毎月のデータを3年間取ると、3回の周期になると思われ。
補正するためには、気温とか、年間行事の変数が必要だわな。
ものの例えだよ。

220:219
10/01/25 23:38:17
s/年間行事の変数が/年間行事の変数とかが/

221:132人目の素数さん
10/01/26 00:09:34
>>218
確認ですが、モデルの回帰診断に関して
数量化理論1類においては残差プロットのランダム性の確認は不要、
ということで良いということですね。

そうすると、連続変数を説明変数とする一般の重回帰分析で
なんでランダム性が意味を持つかわかりませんね。
数量化理論ではなにかを諦めているんでしょうか。。

222:132人目の素数さん
10/01/26 00:41:23
>>221
不要とは言っていない。程度の問題。
とてもひどい外れ値だったらやはりおかしいし、
正規性も端の方ではなく真ん中あたりでも
全然直線じゃないといくらなんでも違うと言える。

数量化理論で諦めている部分はこう考えたら分かる。
X,Yともに量的な変数でY=X+eと正規分布に従う誤差で
きれいに説明できるとする。このXに対し、平均より大きいものを1
小さいものを0としてカテゴリにすると当然説明力は落ちる。
そしてそのずれが回帰診断にも影響する。
こういう状態ではなくカテゴリが真に定数の効果をもつなら
連続変数の場合と変わりなく回帰診断できるだろう。

223:132人目の素数さん
10/01/26 00:51:40
>>221
なんで残差のランダム性が重要かといえば、回帰分析は誤差項が独立で
平均0、分散σ^2の正規分布に従うと仮定されたで求められているから。
これは、どういうことかといえば、推計された結果が、推計式を中心に
分散σ^2の正規分布をしていると考えることができるということ。

推計結果のずれが本当の値を中心に分布してるってこと。これがあるから、
推計結果を統計的に評価できるわけ。
これが崩れると、推計結果を評価する時にいろいろ問題がおきるので、
さまざまな対処方法がある。

それと、残差プロットがランダムかどうかが重要なのは時系列データ。
これは、データの順番が残差の順番を規定するから。
残差に何らかの傾向があるということは、定式化の間違っている。

クロスセクションの場合、データの順番を入れ替えれば残差プロットは
変化するので、プロットの動き自体にはあまり意味が無い。
その場合に大切なのは、分散が一定になっているかといったチェック。

どちらの場合も、残差の分布が正規分布をしているかどうかが大切で、
これが、おかしいと回帰分析の前提条件が崩れる。

224:132人目の素数さん
10/01/26 10:18:41
修士でインパクトファクターがあるのは凄いですか?

225:132人目の素数さん
10/01/26 19:49:07
日本語でok

226:132人目の素数さん
10/01/26 23:18:41
>>222
>こういう状態ではなくカテゴリが真に定数の効果をもつなら
>連続変数の場合と変わりなく回帰診断できるだろう。

カテゴリが真に定数の効果をもつ数量化1類が想像できません。
どんな方法でも良いので例示していただけると幸甚です。

>>223
>平均0、分散σ^2の正規分布に従うと仮定されたで求められているから。

残差プロットにパターンが認められても正規性バッチリなことはあります。
パターンがイクナイ説明になってないんでないでしょうか?

>それと、残差プロットがランダムかどうかが重要なのは時系列データ。

y推定値に対する残差プロットもランダム性が重要だと言われているようですが。。


227:132人目の素数さん
10/01/26 23:59:30
>>226
性別による効果のような初めから分類であるものなら定数もありうると思う。

228:132人目の素数さん
10/01/27 00:24:10
>>227
元から分類の例としてアヤメの種類を使ったとします。
がくの長さを目的変数として数量化理論でモデル化すると、
がく長予測値に対する残差プロットはきれいな垂直3本線となります。
しかし、正規性はあります。推定値も有意です。てこ比も正常です。

さて、これは良いモデル?悪いモデル?

229:132人目の素数さん
10/01/27 01:51:52
>>228
まさによいモデルの例なんじゃない?
3本の線ではあるが、そのこと以外は回帰診断で問題はない。

230:132人目の素数さん
10/01/27 02:21:43
>3本の線ではあるが、そのこと以外は回帰診断で問題はない。

「そのこと以外は回帰診断で問題はない」のは先刻承知です。
もんだいは「そのこと」。
これが良いモデルなら、連続変数を用いた一般的な重回帰モデルで
同様のパターンが現れても、「そのこと以外は回帰診断で問題はない」
という理由で良いモデルと承認されることにならないか。
ここらへんの判定基準を知りたいわけです。

231:132人目の素数さん
10/01/27 12:04:13
>>226
まず、正規性とパターンの話は、仮に残差の分布が正規分布に(みえるもの)
になっていたとしても、残差にパターンがあるということは、誤差が相互に
独立という仮定を満たしていない。
ということは、残差のパターンを考慮することで、より適切な結果を推計
できるってこと。
誤差が個々に独立で、ある正規分布に従うということは、それ以上の推計の
改善が見込めないってことになる。

残差のパターンについては、例えば出席番号順に並べた成績のデータが
あったとして、その残差にパターンがみられたとしても、出席番号の並び
自体に成績との因果が無いのであれば、そのパターンは考える必要が無い
よね。
ただし、データの並び自体に意味がある場合(例にだした時系列など)は、
その残差がどういうパターンを示すかに意味がある。

また、非説明変数を小さいものから並べた場合、大きくなるしたがい、
誤差の分散が大きくなることがある。こういうのを不均一分散というけど、
これが起こると、誤差が個々に独立で一定の正規分布に従うという仮定が
崩れる。(σ^2が変化してしまっているということ)
この不均一分散の場合も推計結果の統計的な評価に問題が起こる。

普通、グラフを書く時は、右上に行くにしたがって数値が大きくなるので、
この場合、それに対応する形でデータを小さいものから並べて残差をみれば
不均一分散のせいで残差にパターン(右に行くほどばらつきが大きくなる)
などがみられる。

回帰分析の意味(どういう仮定がおかれた上で分析されており、それによって
どういう統計的な評価ができるのか)を考えてみた方がいいと思うよ。

232:132人目の素数さん
10/01/27 23:03:59
教えて下さい。

はかりの校正をしようとしています。
規格幅1.43g-1.57g ±0.07gの物を計る計量器の器差は分銅の0.02%とする
という手順書があります。
この根拠が知りたいです。

また、規格幅0.49g-0.51g ±0.01gの物を計る計量器の器差は分銅の何パーセントとすれば
良いのでしょうか?


233:132人目の素数さん
10/01/27 23:07:19
>>81
ポアソン分布を載せてて、その分散の導出を載せてない本の方がレアだよね

234:132人目の素数さん
10/01/28 00:43:24
>>231
>残差にパターンがあるということは、誤差が相互に独立という仮定を満たしていない。
>ということは、残差のパターンを考慮することで、より適切な結果を推計できるってこと。

適切な連続変数との組み合わせによってパターンが消失することは確かにありますね。
しかし、ダミー変数のみで構築された重回帰式ではパターンが消えることはありません。
すなわち、数量化理論1類では誤差独立の仮定を満たしていません。
なのに、回帰診断で「不適切」なモデルとして棄却されはしない。

>>228で例示したアヤメの例では、交差検証しても十分な予測性が確認できるので、
どうやら数量化理論そのものに無理があるというわけではないんじゃないかと思う次第。

謎が謎を呼び、もうわけわかりません。
たくさんの言葉と例示を使って懇切丁寧に解説していただいたというのに、ものわかりが悪くて申し訳ない。。

>回帰分析の意味(どういう仮定がおかれた上で分析されており、それによって
>どういう統計的な評価ができるのか)を考えてみた方がいいと思うよ。

問題点は次のように(私の中で)進化を遂げました。
「数量化理論1類モデルは、誤差が相互に独立という仮定が満たされないくせに
どうして重回帰モデルとして堅牢でいられるのか。」



235:132人目の素数さん
10/01/28 02:46:54
すみません、ほぼ統計学初心者なんですが
読んでる本に、
N(μ,σ^2)でμ,σ^2 も未知という状況でσ^2を推定するには、
N(μ,σ^2)に従う独立な確率変数を2つ以上観測しなければならない
 とあったのですが、何故なのですか???

236:132人目の素数さん
10/01/28 03:15:03
>>234
数量化理論でも誤差は互いに独立なんだけど
何を勘違いしているのかな?
(3本の直線になることと誤差の独立とは直接的に関係ないよ。)

237:132人目の素数さん
10/01/28 03:16:58
>>235
その本にはσ^2を推定するための式は書いてないの?
書いてあれば実際データが1つしかないときに計算してみたら分かるよ。

238:132人目の素数さん
10/01/28 05:59:22
>>235
分散てのは、データの散らばりかたを表してるってのはいいかな?

観測されたデータが一個しかない(つまり散らばってない)時に、そこから母集団の散らばりかたを表せると思う?

239:132人目の素数さん
10/01/28 12:57:12
X1、・・・、Xn~P0(θ)
      i.i.d
のとき、θの最尤推定量を求めよ。

よろしくお願いしますm(__)m

240:132人目の素数さん
10/01/28 18:47:42
>>239
P0(θ)はポアソン分布ですか?


241:132人目の素数さん
10/01/28 23:22:10
二次元同士の相関性求める方法ってあるかな?

グラフAにある特定の係数かけて、
更に切片つけたデータから出来たように見える
グラフBがある。幾つかのデータは改ざんされて
いるので、係数と切片の特定は困難。

統計的に一致率が高いとしたいです。
いい方法あったらよろしくお願いします。

242:132人目の素数さん
10/01/29 00:16:08
>>232
最初にことわっておくが、私も計量器を使うことがあるというだけの素人です。
>>232にレスがないようなので敢えて挑戦します。
誰か、間違いを見つけた方がいらっしゃったら、バンバンご指摘願いたく・・・。

例えば、計量器で規格下限の1.43gが表示される場合、その分銅の重さは計量器内部で1.425g~1.434g(Δ=0.009g)
になっていることになる。つまり正しく1.430gの分銅を測った時に、計量器の誤差が±0.0045g(=4.5mg)に収まって
いれば計量器の表示は1.43gとなり、性能を満たしていると判定できる。
「器差」という用語は俺はあまり使わないのでピンとこないのだが、計量器の校正をしようとしている訳だから、ここでは
計量器の標準偏差だと思うことにする。違ったらすまん。
標準偏差をσとおくと、0.0045/3σ=0.0015g(=1.5mg)だから、標準偏差が0.0015gであれば、この計量器は
実用上でほぼ問題はない。(いわゆる3シグマって奴。)
要するに、正しく1.430gの分銅を測った時の標準偏差が0.0015g以下であればよいことになるので、
0.0015/1.43≒0.1%が必要な精度となる。
同じように、上限側1.57gで考えても0.0015/1.57≒0.1%
>>232の言う0.02%となると、およそ15σだから過剰なスペックのような気がする。
(もっとラフに考えると、レスにある規格範囲の中央値は1.50gだがその0.02%となると0.0003g(=0.3mg)であって、
これは一般に化学天秤とか精密天秤とか呼ばれる計量器での最小ケタ数のオーダーに匹敵する。つまり化学分析並みの計量精度を
求めているようにも思えるが、そんなに精密な計量が必要なの?)

2つ目の質問は上の内容(間違ってなければだが)を逆に辿れば計算できると思う。
とまぁ、適当にレスしてみたが、レスした自分が一番自信がない。

参考になれば幸いなのだが・・・。

243:132人目の素数さん
10/01/29 09:13:39
>>236
そうなんですか?
残差がランダム(独立)であれば、パターンは認められないという認識ではいけないの?
重回帰分析の誤差項における仮定(正規性、不偏性、等分散性、独立性)のうち、
等分散性、独立性(不偏性も?)が欠落しているという認識なのですが。。



244:132人目の素数さん
10/01/29 20:02:09
>>242
回答ありがとうございます。
器差というのは、分銅の真の値と実際に表示される値との差のことです。
つまり、誤差です。

私も今、QC検定2級の勉強をしてまして、統計学を勉強している最中です。

245:132人目の素数さん
10/01/29 22:41:09
>>243
残差プロットでみるのは上下の動き。
左右の動きは固定なので関係ない。
たとえば曲がっているかどうかも上下の動きが
安定していないことを見ている。
もちろんXが量的である場合、3カ所でしか測定していないなら
その3カ所ではOKでも、その間は?という問題が生じるが、
これは誤差に関する情報が足りないと言うだけ。
その3カ所に関しては仮定と矛盾しない状況はありうる。

246:132人目の素数さん
10/01/29 22:42:16
>>243
残差プロットでみるのは上下の動き。
左右の動きは固定なので関係ない。
たとえば曲がっているかどうかも上下の動きが
安定していないことを見ている。
もちろんXが量的である場合、3カ所でしか測定していないなら
その3カ所ではOKでも、その間は?という問題が生じるが、
これは誤差に関する情報が足りないと言うだけ。
その3カ所に関しては仮定と矛盾しない状況はありうる。

247:132人目の素数さん
10/01/29 23:40:49
わかって参りました!
本当にものわかりの悪いやつですんません。

ランダム性(独立性)ってのは、隣り合う残差間に相関がないこと、ですね。
だったら、あやめの例における残差プロット縦三本線のパタンでは、独立性ありですね。

この例では等分散性が微妙なのですが、これは数量化理論の問題ではないようです。

もし残差プロット、斜めに3本線が現れるような数量化理論1類モデルができちゃったら、
これはランダム性に問題ありという判定になるのでしょうね、きっと。

これで間違いが無いようでしたら、粘着質問を終了します。
長々とおつきあいいただいてホントにありがとうございましたm(_ _)m


248:132人目の素数さん
10/01/30 04:39:19
1vs1で行うスポーツのデータ
プレイヤー1 11勝15敗
プレイヤー2 9勝6敗
...
プレイヤーn 24勝25敗
があるとします。

1からnまでの各プレイヤーの勝敗を表裏50%のコイントスで決めた際の分布と、実際の分布がどれだけ違うか調べるにはどうすればいいですか?
プレイヤーの実力差がどれだけあるか、データから求めたいです。

249:132人目の素数さん
10/01/30 12:10:30
>>241

プロクラステス回転とかで調べてみたらどう?

250:132人目の素数さん
10/01/30 14:00:42
>>249
結局、元データと改ざんデータを散布図で打ち出して、
紙の縮尺変更と回転で合う座標とそれ以外をしらべたよ。

後は順番に並べて合う座標の相関みたら0.99だった。
合わないデータに使用したと推定される一次関数を調べて終了。

という感じのごり押しで今回は処理できました。
プロクラステス回転は勉強してみます。レスサンクス。

251:132人目の素数さん
10/01/31 01:56:42
50%の勝ち負けなら2項分布だろ。と。
だけど、スポーツの勝敗は、統計に馴染まない気がする。
グーチョキパーの関係もあるし、
賞金が高いと「それは無いだろ」と言うのが、逆にありそうにも思える。
格闘技なんか、サンプル少ないし。
体壊れるからね。

252:251
10/01/31 02:09:14
あ、別に50%でなくても良いよ。
うっかりした。

253:132人目の素数さん
10/01/31 02:42:34
>>251
とりあえず複雑な因子は考えず、単純に勝敗だけを見るつもりでいます。
二項分布とデータの分布がどれだけ違うか(逆に言えばどれだけ一致しているか)を表す、指標のような物は求められないでしょうか?

254:132人目の素数さん
10/01/31 07:38:48
>>251
言ってることがちょっとわかんないわ

あと、どんな分析なら統計に馴染むの?

255:132人目の素数さん
10/01/31 07:54:28
>>248
プレイヤーの実力差を見るならベイズだと思うが。
・Aの実力
・Bの実力
・環境や運の寄与
の三要素で事前確率(仮定)と実際を考えていく。
最初にA-nの実力を仮定して、対戦結果で修正していくわけだ。

256:132人目の素数さん
10/01/31 11:35:23
またまた残差プロットの質問です。
重回帰分析にお詳しい方にご教授をいただけると幸いです。

さて、線形判別関数を用いた判別分析は、従属変数をダミー変数とした重回帰分析と等価です。

そこで、「あやめ」の"Iris-setosa"か否かをダミー変数1,0に置き換え、重回帰分析に供しました。
独立変数として"sepallength"と"sepalwidth"を用いたところ、
R2=0.79,p<0.0001の有意な重回帰式を得ました。
各要因の係数推定値も有意で、てこ比も良好なモデルが構築されました。

で、y予測値に対する残差プロットを観察したわけですが、
斜めに二本の明瞭なパターンが観察されました。(正規性はありました)

一般の重回帰分析では、意味のある序列で並んだ残差間に相関があるとき、
重回帰分析の前提のひとつである、誤差項のランダム性の仮定が成立しない、
と見なされるはずです。

yにダミー変数をおいた本例は重回帰モデルとして間違っているのでしょうか?
(単回帰でも同様の現象が認められます)


257:132人目の素数さん
10/01/31 18:42:42
>>256
判別分析と回帰分析は統計的モデルが違うよね。
だから判別式の「係数推定」にダミー回帰を使えても、
偏回帰係数以外の回帰分析結果は正しくないんじゃない?

というか、その場合、回帰式の説明変数の方が確率変数で、
従属変数の方は定数値だから、回帰モデルとは逆。
あと、残差を「確率変数」と考えるには、あるアヤメがその2種の
どちらになるかの確率分布(2項分布)を考える必要があって
なんか不自然な気がする。

258:132人目の素数さん
10/01/31 21:16:06
区間推定とかは少しできるようになったのですが少し形式が
変わると何をすればいいのかわかりません。
以下の問題お願いします

ある県内のコンビニ1店舗当たりの1日の売上xは
平均60万円、標準偏差6万円の正規分布に従っているとする。
1.売上が80万円以上の店舗は何%存在するか
2.売上が50万円以下の店舗は何%存在するか


259:257
10/01/31 21:41:24
んと、二項分布というよりベルヌーイ分布ね。

260:132人目の素数さん
10/01/31 21:50:58
>>258
それは区間推定問題じゃなく、
ある区間における正規分布の面積(=割合または確率)を求める問題。

教科書だけで解くには巻末の標準正規分布表を使う。
一般の正規分布の変域を標準正規分布の変域に変換する必要があるので、
そのために標準化(規準化とも言う)の関係式を使う。

261:132人目の素数さん
10/01/31 23:53:48
>>260
サンクスです

262:132人目の素数さん
10/02/01 02:36:52
どなたこのの問題の解き方教えてください↓


n=の復元抽出、有意水準は5パーセント 47 52 58 55 48母平均μは58と言えるのか

263:132人目の素数さん
10/02/01 02:51:36
まったく分からないので、ここに質問します(´・ω・`)

ある県の高齢者121人無作為に抽出して、1日のテレビ視聴時間を調査しました。その結果、標本平均は76.0分、標本標準偏差sは19.8分でした。
①この県の高齢者の1日の平均テレビ時間を信頼係数95%で区間推定しなさい。
②標本平均と母平均の差(推定の誤差e)を2.0分以下にするためには、標本の大きさnを少なくともいくら以上にする必要がありますか。信頼係数95%で求めなさい。

この答えを教えて下さい><

264:132人目の素数さん
10/02/01 19:14:24
>>263
さすがに指定の教科書か講義ノートに書いてあるだろう?

265:132人目の素数さん
10/02/01 22:35:55
>>262-263
どの部分がわからないか聞けばヒント貰えるかも。
全くわからないというのは教えようが無いから

266:132人目の素数さん
10/02/01 23:26:30
大学1年レベルの問題なのですが お教えください。

A大学の授業の毎年の出席者数は平均60.2、標準偏差14.4人で
今年度の授業から無作為に16回選んで出席者を調べたら
今年度の出席者平均は71.4人、標準偏差11.3人だった。

今年の出席者数は増えたのか、というキム仮説・対立仮説を使って解くのはわかる
んですが、今年の出席者数の標準偏差11.3人 はどこの計算で使うのでしょうか?
無視して毎年の平均と標準偏差と有意水準5%の片側検定では間違ってるのでしょうか?
ノートを見ても書いてないのでお教えください(´・ω・`)

267:132人目の素数さん
10/02/02 01:32:19
>>263
>>103,>>104に参考になりそうなレスがあった。
良く読んでみて、分からないなりにもまずは問題を解いて、解答をここへ書いてみては?
問題の丸投げにはレスがつきにくくても、「解いてみました!でも自信がないので検算お願いします!」
くらいならレスがつきやすいかもよ?


268:267
10/02/02 01:39:20
今気づいた。
なんかオレ、>>113と同じようなこと書いてるな。

お前は俺か!?
今、そんな気分なんだ。


269:132人目の素数さん
10/02/02 05:41:01
>>266
母標準偏差が今年も同じで既知(σ=14.4)として解く場合は、
標本標準偏差11.3人は検定に使わないね。(正規分布による検定)

けど、今年の母標準偏差が未知の場合は、
標本平均と標本標準偏差を含む t 統計量を使った検定になる。
(t 分布による検定)
この場合、去年までの σ=14.4 という情報は使わない。

現実の問題なら後者の型の方が検定として妥当だけど、
授業でその問題をやった時の型がどっちなのかはわからない。

270:132人目の素数さん
10/02/02 08:55:31
>>257
なるほど、おっしゃるとおり本例では確率変数と定数値があべこべですね。
あやめの例示は不適切でした。
以降、思考実験でお願いします。

従属変数としてなんらかの連続変数をなんらかの事情で2値化してダミー変数化したとします。
これはロジスティック回帰等にも使用される確率変数となります。
これに対してこの従属変数との間に関連の見込まれる連続変数定数値を独立変数に据えたとします。
この従属変数と独立変数の関係が、あやめの例の様になったとします。
残差プロットは斜めの二本線でした。
さて、この判別分析風重回帰モデルの評価はいかに。



271:132人目の素数さん
10/02/02 21:34:28
>>255
レス遅くなってすみません。
ベイズ推定ですか。なるほど。

URLリンク(ja.wikipedia.org)
p(a|m,n)の式のp(m,n|a)p(a)のp(a)の部分ってどういう意味になるのでしょうか?
p(m,n|a)/∫[0,1]p(m,n|a)daで済む気がしてしまいます。

272:132人目の素数さん
10/02/02 22:24:54
>>270
ロジスティック回帰を誤解しているのかな?
ロジスティック回帰は二項分布の成功の確率pを説明しようと
するもので連続量を2値化するものではないのだけど。

273:132人目の素数さん
10/02/02 22:28:16
>>271
まさかp(a)が約分できるって思ってないよね?
示している式はp(a)が一様分布なら正しい。
p(a)は一様分布以外の事前分布も考慮してのこと。


274:132人目の素数さん
10/02/02 23:47:19
>>273
p(m,n|a)が事前分布と思っていたんですが、そうではなく、
m,n,aの出現率の見込みが事前分布ということなのでしょうか?
うーん、難しいなぁ。

275:132人目の素数さん
10/02/03 00:09:29
>>274
p(a)が事前分布ってそのページに書いてあるでしょ。
p(a|m,n)が事後分布。
m,nを観測することでp(a)からp(a|m,n)に分布が変化し、
aの状況がよりよく分かるようになる。

276:132人目の素数さん
10/02/03 01:50:35
>>272
ロジスティック回帰を誤解しておりました。
ロジスティックの文言はとりあえず>>270から削除させていただくことにします。

しかしそもそも、ダミー変数を確率変数として従属変数に用いて、重回帰分析風にモデル化する
例ってのは無理なんでしょうか?

277:132人目の素数さん
10/02/03 05:18:27
>>275
たしかに書いてありました。
しかし、頭が混乱してきてさっぱりわかりません。
p(a)が事象aが発生する事前確率なら、二項分布の式であるp(m,n|a)は何になるんでしょうか?
二項分布の定義自体が事前確率のように思えてしまいます。

278:132人目の素数さん
10/02/03 17:47:04
俺がキタからもう大丈夫


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch