統計学Part17at MATH
統計学Part17 - 暇つぶし2ch672:132人目の素数さん
18/09/08 13:11:44.95 WFiBaON4.net
>>657
# t検定(生データなし,等分散不問)
Welch.test=function(n1,n2,m1,m2,sd1,sd2){
T=(m1-m2)/sqrt(sd1^2/n1+sd2^2/n2)
df=(sd1^2/n1+sd2^2/n2)^2 / (sd1^4/n1^2/(n1-1)+sd2^4/n2^2/(n2-1))
p.value=2*pt(abs(T),df,lower.tail = FALSE)
return(p.value)
}

673:132人目の素数さん
18/09/08 13:21:23.26 WFiBaON4.net
標本数n 平均m 標準偏差sdの正規分布するシミュレーションデータを作ってWelchの検定をすることもできる。
Rが使えるなら
scale(rnorm(n))*sd + m
で可能。
これを各グループで作って検定する方法もある。
>659の結果と一致するはず。

674:132人目の素数さん
18/09/16 21:33:48.81 rMRDGQ30.net
統計学と並行して高校数学からやり直してるんだけど、微分積分さえある程度できれば解析学までやる必要はないってホント?
むしろその時間で線形代数やったほうが良いってのもホント?

675:132人目の素数さん
18/09/19 00:33:36.01 2tFRgvax.net
合成関数の微分とか全微分とかあたりまでは統計でも必須

676:132人目の素数さん
18/09/19 12:00:34.51 P3TgEiwp.net
ほ~そういうものか。ありがとう

677:学術
18/09/19 12:03:01.01 KX539Fwk.net
統計三世。ルパンナポレオンより最強の(血)統系。

678:132人目の素数さん
18/10/14 16:10:05.84 tYo68Cmn.net
3個中1個が当たりのものがある。これを被験者6人中5人が当たりを引いた。
このとき、被験者は有意水準1%で当たりがわかるとは言えないが、有意水準5%で当たりがわかると言え�


679:驕B ただし(1/3)^6=0.0014とする。 これ6C5*(1/3)^6+6C6*(1/3)^6=0.0096で1%を下回るんじゃないの? 納得できないんだけど教えて偉い人



680:学術
18/10/14 19:03:49.48 yXYU+8iI.net
確率を検証して当たる確率出すなんてナンセンスだよね。賭け事は進んでいて
意外性が在る乱数になるから、何か見えないものが働いていることが数学ではよくわからない。そしてタロットも然り。同じ確率なんだけど、
運命を感じるというのも変な話で。矛盾しているよね。気持ちと心が。

681:132人目の素数さん
18/10/22 11:52:44.19 1/aHuqXD.net
練習問題の解法を教えてください。基本統計学第4版(有斐閣)の6章の問題です。
41)1つのサイコロを1,000回投げたとき、1の目が180回以上出る確率と、1の目が140回以上200回以下出る確率を求めよ。
本の答えは、0.1379と0.9875です。以下のように計算してるのですが、答えがあいません。
前段の問題
n=1000,p=1/6の2項分布を正規分布で近似して求めた。μ=1000*1/6、σ^2=1000*1/6*5/6としてN(1000/6, 5000/36)を使う
(180-1000/6)/(sqrt(5000)/6)=80/sqrt(5000)=1.1313 ->正規分布の上側確率表より【0.12924】
後段の問題
Pr(140≦x≦200)で計算する
(140-1000/6)/(sqrt(5000)/6)=-160/sqrt(5000)=-2.2627 ->正規分布の上側確率表より0.011911
(200-1000/6)/(sqrt(5000)/6)=200/sqrt(5000)=2.828 ->正規分布の上側確率表より0.0023274
1-0.011911-0.0023274=【0.9857】
【】が自分で計算した答えです。計算式のどこかで間違えているのはずなのですが、自分では気付くことができません。
よろしくお願いします。

682:132人目の素数さん
18/10/22 15:38:07.09 TgBnmqGr.net
z=(179.5-1000/6)/sqrt(5000/36)=1.08894...→1.09
z=1.09に対する分布表の値は.3621なので、0.5からこれを引いて0.1379
z1=(200.5-1000/6)/sqrt(5000/36)=2.87085...→z=2.87
z=2.87 に対する分布表の値は 0.4979
z2=(139.5-1000/6)/sqrt(5000/36)=-2.30517...→z=2.31
z=2.31 に対する分布表の値は 0.4896
これらの和は0.9875
「180回以上出る確率」の相反事象は「179回以下出る確率」なので、
179.5を境界にするのが妥当だということと、教わった手順に従って、
「適当」な場面で四捨五入を行い、数表を用いると、
テキスト通りの値に行き着くようです。

683:132人目の素数さん
18/10/23 13:31:34.14 CdMSDP6/.net
ありがとうございました。離散数値での確率密度関数の使い方がわかりました。

684:132人目の素数さん
18/10/30 21:09:05.91 rPxKt/Y8.net
ちょいとすみません。わからないところがあってここにたどり着いたズブの素人なのですが、よければ教えてください。
標準偏差て平均が基準値なんですよね?
平均じゃなくて、ある値(カットオフ値)を基準にしてそこからバラつきがどんなものか調べたい時は、計算方法は標準偏差と同じで平均値をカットオフ値に置き換えたらいいのでしょうか?
ネットで調べても平均値で計算、ばかりでわからなかったです

685:132人目の素数さん
18/11/20 22:09:26.70 cFR1wwH3.net
Wolframに入力してみました。
URLリンク(www.wolframalpha.com)(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+180+to+1000%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 180 to 1000]
sum_(n=180)^1000 ((5/6)^(1000 - n) binomial(1000, n))/6^n
=0.138430864995663940543635063874277127250218037792364115557...
URLリンク(www.wolframalpha.com)(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+140+to+200%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 140 to 200]
sum_(n=140)^200 ((5/6)^(1000 - n) binomial(1000, n))/6^n =
=0.988113644388740861240108592472945211524447200450991732557...

686:132人目の素数さん
18/11/29 23:38:51.95 oAvg0d0l.net
九州大学大学院数理学府数理学専攻数理学コース 問題と解答
基礎科目4題(150分) 専門科目2題(120分) 口頭試問 ※英語は課さない
URLリンク(www.dropbox.com)

687:132人目の素数さん
18/12/04 22:30:12.09 44qbPqb5.net
>>576
亀レスだけど、ランの検定(連の検定)
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)

688:132人目の素数さん
18/12/16 11:35:51.85 FIaML+tk.net
重回帰分析で交互作用を検討?交互作用が予想される問題に
適用すべきは、実験計画法(分散分析)ではないのか?
重回帰分析で交互作用を検討する  Posted on 2014年1月31日  
URLリンク(norimune.net)

689:132人目の素数さん
18/12/25 20:38:41.41 pRXuZdkl.net
この名大のように先端医療開発部門に生物統計とバイオインフォマティクスを
抱える統計解析室という組織があるのは、他所のの医学部でも通常なのかな?
医学部で生物統計というと新薬の薬効の統計的検定ということか?
また統計解析室長を木下文恵某とかいう若手の助教が担うのも通常なのかな?
名古屋大学医学部附属病院 先端医療開発部 先端医療・臨床研究支援センターの体制 
統計解析室--生物統計・バイオインフォマティクス
URLリンク(www.nu-camcr.org)

690:132人目の素数さん
18/12/27 00:12:12.23 MJGJAQMS.net
例えば、母集団から50枚の答案用紙を選んで、平均が
60点だとする。母集団は2500枚の答案用紙から成り立っているとして、平均は70点とする。このとき50枚の答案用紙をランダムに選んだかの検定はどの
ようにすればいいでしょうか。(つまり60点の平均点が低いので、ランダムに選んだかどうかを疑っているわけです。)

691:132人目の素数さん
18/12/30 08:45:37.63 OqurSyyP.net
>>646
EXCELの分析ツールは良くないというのは、統計専用ソフトと
出力値が合わないからですか?
お薦めの統計専用ソフトは、どれどれですか?

692:学術
18/12/30 12:25:34.69 RTlTqpwk.net
方程式に代入する速度はパソコンじゃ無理なんだろうか?そうでもないらしいね。

693:132人目の素数さん
18/12/30 15:39:18.16 VJBrhucL.net
こんなグラフの2つの系列に対する有意差検定ってどうすればいいでしょうか。
URLリンク(benesse.jp)
実際には2つの系列はそれぞれ複数の結果があります。

694:132人目の素数さん
18/12/31 12:28:26.71 BBwEFlcD.net
>>676
母集団のバラツキが大きいならランダムに選んだと言えるかもね。
母集団の分布をどう仮定するかによるんじゃね。

695:132人目の素数さん
18/12/31 23:33:19.06 oFI1Upvm.net
>>676
母集団は正規分布としてシミュレーションしてみた。
母分散が43点程度であれば標本平均が60点以下になる確率が5%を越える。
> f= function(sig){
+ x=scale(rnorm(2500))*sig + 70
+ mean(replicate(1e3,mean(sample(x,50)))<=60)
+ }
> f=Vectorize(f)
> f(1:100)
[1]


696: 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 [13] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001 [25] 0.002 0.002 0.003 0.003 0.005 0.006 0.010 0.018 0.017 0.017 0.013 0.021 [37] 0.029 0.026 0.029 0.041 0.035 0.037 0.057 0.054 0.058 0.076 0.059 0.060 [49] 0.063 0.068 0.080 0.074 0.077 0.086 0.098 0.092 0.114 0.096 0.110 0.098 [61] 0.115 0.115 0.133 0.122 0.141 0.118 0.139 0.157 0.170 0.153 0.182 0.165 [73] 0.171 0.154 0.167 0.175 0.163 0.174 0.178 0.174 0.196 0.205 0.204 0.211 [85] 0.206 0.205 0.217 0.212 0.235 0.218 0.189 0.230 0.232 0.215 0.221 0.246 [97] 0.217 0.228 0.216 0.248 >



697:132人目の素数さん
18/12/31 23:34:50.72 oFI1Upvm.net
>>679
同一濃度での反応速度データがあるならpaired t-test で検定できるのでは。

698:132人目の素数さん
18/12/31 23:58:42.47 oFI1Upvm.net
>>665
6C5*(1/3)^5*(2/3)+6C6*(1/3)^6= 0.01783265

699:132人目の素数さん
19/01/01 01:14:20.00 dni0tbHZ.net
>>682
x軸の値を実験の設定値にすれば同一ですが、測定値で補正してるので厳密には同一になりません。
散布図のプロットを繋いだような系列では難しいですね。
もしx軸を設定値としてpaired t-testする場合、レプリケートの扱いは各測点で平均化すればいいでしょうか。
それとも検定結果を平均化する方法が有るのでしょうか。

700:132人目の素数さん
19/01/01 07:21:45.66 nRsyFy0N.net
>>681
訂正
×母分散が43点程度
○ 母集団の標準偏差が43点程度

701:132人目の素数さん
19/01/01 07:42:07.71 nRsyFy0N.net
>>684
阻害剤の添加による反応速度の変化=0が帰無仮説の検定
なので両端のデータが多いと有意差なしになるだろうね。
この例での有意差検定の意味がわからなくなってきた。

702:132人目の素数さん
19/01/01 14:03:25.77 dni0tbHZ.net
>>686
専用の検定が無いとなると確かに両端に影響されますね。
有意差の数値化は諦めてグラフから説明するしかないかもしれませんね。

703:132人目の素数さん
19/01/03 05:08:06.81 9mVlT2wA.net
URLリンク(i.imgur.com)
帰無仮説、対立仮説に関する質問です。
・3つのグループの標本は同じ母集団から得られたものである。○か×か?
どちらなんでしょう。
初学者なため、自分でも何を言いたい質問なのか分かりませんが、お答えいただければ幸いです。

704:132人目の素数さん
19/01/03 12:53:01.61 QWWivxRF.net
>>688
×

705:132人目の素数さん
19/01/03 12:59:00.73 elcA+Zry.net
>>688
F分布を書くとこんなかんじ
URLリンク(i.imgur.com)

706:132人目の素数さん
19/01/03 13:43:39.06 ZOqQE5UH.net
>>688
宿題かい?

707:132人目の素数さん
19/01/03 16:24:30.86 9mVlT2wA.net
>>689-690
×なんですね。お返事ありがとうございます
それも画像付きで…感謝の極みです
>>691
Odyssey主催のビジネス統計スペシャリスト(上級)という資格試験の勉強中でして…
ベーシックに合格できたのでスペシャリストの方も取ろうと思ったら内容が一気に難しくなり、
恥ずかしながら独学でどうしても分からない所が出てきたので質問させていただきました

708:132人目の素数さん
19/01/03 17:27:28.50 xWkC5+gv.net
>>692
統計検定二級あたりの教科書で一通り手法は知っといた方がいいかもね。無料がいいなら統計WEBとかもあるし。
まあ、でも、問題に複数の会社名が出てきてる時点で同じロット(母集団)とは言えないんじゃ?と思ったけど。

709:132人目の素数さん
19/01/03 17:45:10.89 elcA+Zry.net
>>688
生データなしで計算すると
> ## m sd n
> A=c(159.0625,sqrt(3924.729167),16)
> B=c(240,sqrt(22027.5),17)
> C=c(366.35,sqrt(5329.292105),20)
>
> lh=rbind(A,B,C)
> colnames(lh)=c("m","sd","n") ; lh
m sd n
A 159.0625 62.64766 16
B 240.0000 148.41664 17
C 366.3500 73.00200 20
> mean.G=sum(lh[,"m"]*lh[,"n"])/sum(lh[,"n"])
> SS.bit=sum((lh[,"m"]-mean.G)^2*lh[,"n"])
> SS.wit=sum(lh[,"sd"]^2*(lh[,"n"]-1))
> df.bit=nrow(lh)-1
> df.wit=sum(lh[,"n"]-1)
> MS.bit=SS.bit/df.bit
> MS.wit=SS.wit/df.wit
> (F.ratio=MS.bit/MS.wit)
[1] 19.28831
> pf(F.ratio,df.bit,df.wit,lower.tail=FALSE)
[1] 6.18406e-07
> (η2=(SS.bit)/(SS.bit+SS.wit))
[1] 0.4355169

710:132人目の素数さん
19/01/03 18:05:15.25 elcA+Zry.net
どの2つが別の母集団かを検定すると
> pairwise.t.test(x,g,p.adjust='holm')
Pairwise comparisons using t tests with pooled SD
data: x and g
A B
B 0.02596 -
C 4.5e-07 0.00083
P value adjustment method: holm

711:132人目の素数さん
19/01/05 21:27:56.85 6yG70IA5.net
Zが標準正規分布に従う時、次の値を求めよ。
1:P{Z>u1}=0.05を満たすu1の値 → u1=1.645
2:P{Z<u2}=0.005を満たすu2の値 → u2=-2.576
3:P{-u3<Z<u3}=0.99を満たすu3の値 → u3=2.576
Xが正規分布N(10, 5^2)に従う時、次の確率を求めよ。
1:P{X>20} → 0.0228
2:P{X<5} → 0.1587
3:P{0<X<20} → 0.9544
途中式:URLリンク(i.imgur.com)
※P{X>20}は 0.0028 じゃなくて 0.0228 の間違い。
━━━━━━━━
Excelスレで質問したのですがスレチと言われたのでここで質問させて下さい。
上の6つの問題を標準正規分布の数値表を用いずに、
Excelの関数で求めたいのですが関数式を教えていただければ幸いです。

712:132人目の素数さん
19/01/05 22:04:26.80 yvpdTVqU.net
>>696
これを見た統計学スレの方々が答えてくれたのかはわかりませんが、
このレスの後すぐに関数式を教えていただけました。ありがとうございました!

713:132人目の素数さん
19/01/06 08:18:40.95 ef7QnJT7.net
>>697
NORMINV, NORMDIST

714:132人目の素数さん
19/01/06 09:53:57.32 a2Sn8ikL.net
>>696
Excelスレで質問?
数学板上のソフトスレは、以下しかない筈だが?
理工系分野手法操作も扱うExcelスレは、何処板に?
【R言語】統計解析フリーソフトR 第6章【GNU R】 [無断転載禁止]©2ch.net
スレリンク(math板)
統計ソフトSTATAの部屋 Ver.2
URLリンク(rio2016.2ch.net)
グラフから読み取る統計学の基本入門 [無断転載禁止]©2ch.net
スレリンク(math板)

715:132人目の素数さん
19/01/06 14:40:18.34 4nVseH61.net
Zが標準正規分布に従う時、次の値を求めよ。
1:P{Z>u1}=0.05を満たすu1の値 → u1=1.645
2:P{Z<u2}=0.005を満たすu2の値 → u2=-2.576
3:P{-u3<Z<u3}=0.99を満たすu3の値 → u3=2.576
qnorm(0.05,lower.tail = FALSE)
qnorm(0.005,lower.tail= TRUE)
qnorm((1-0.99)/2,lower.tail=FALSE)
Xが正規分布N(10, 5^2)に従う時、次の確率を求めよ。
1:P{X>20} → 0.0228
2:P{X<5} → 0.1587
3:P{0<X<20} → 0.9544
1-pnorm(20,10,5)
pnorm(5,10,5)
pnorm(20,10,5)-pnorm(0,10,5)

716:132人目の素数さん
19/01/08 14:30:28.74 6dIcngvn.net
散々ググってもわからなかったので、教えてください。
どこか間違ってるんだが、どこかわかりません。
検定の際にα=5% β=20%、右側検定(母集団の平均測定)として、
なぜ、確率の場合分けで足し合わせるように
H0となる確率=(1-α)/(1-α+β)   H1となる確率=(1-β)/(1-β+α)
ではなく
いきなり、H0の第2種の過誤=β=20%、H1第1種の過誤=α=5%なのでしょう。
そもそもμ0とμが1:1の確率で起こる前提だと、確率の場合分けができますが、前提が違うのでしょうか。
H0ならば測定値xバーはZcrit 以下に95%分布している(はず)、よってH0をrejectできない。
でもそれが間違っている確率はβ=20%よ、というのがピンときません。。。

717:132人目の素数さん
19/01/10 20:50:46.14 Ylhxumi4.net
>間違っている確率はβ=20%よ
というのは正しくないよ。
棄却  棄却しない
H0 A B
H1 C D
α=A/(A+B)
β=D/(C+D)
β=D/(B+D)ではないよ。
ちなみに
A/(A+C)はFalse Positive Report ProvbabilityとかFalse Positive Rateとか呼ばれる

718:132人目の素数さん
19/01/10 22:24:03.86 7xf256Xd.net
平均値と中央値の差の絶対値が標準偏差以下であることを示して欲しいです。よろしくお願いします。

719:132人目の素数さん
19/01/10 22:55:32.84 TC7xh35K.net
>>688,692です。
URLリンク(i.imgur.com)
質問に答えてくださった方々のお力で資格試験に無事合格できました。
このスレにいる統計学の専門者の方々から見たら、
「おいおいそんな見たことも聞いたことも無いうんちな資格取ってどーすんだ?w」と思われるかもしれませんが、
単に、お礼を伝えに来ただけなのです。ありがとうございました(、、

720:132人目の素数さん
19/01/11 08:06:00.17 R3J99zpw.net
>>704
エクセル分析ベーシック?エクセル分析スペシャリスト?
無事合格おめでとうございます。
初めて聞く資格名です。
どの方面で有能な資格なのですか?
主催odysseyというのは、どういう組織なのですか?
URLリンク(stat.odyssey-com.co.jp)

721:132人目の素数さん
19/01/13 13:27:33.24 8DXBc9Sn.net
NHKのこの「日本人の意識」調査のサンプルサイズn=5400は、
過剰で統計理論に背いているだろ?
1安倍ちゃん ★2019/01/10(木) 18:43:00.82ID:e4+I4ZlK9
・・・「日本人の意識」調査を、昭和48年から5年ごとに行っています。最新の調査は
去年6月から7月にかけて、全国の16歳以上の5400人を対象に個人面接法で実施し、
50.9%にあたる2751人から回答を得ました。
この中で、結婚についての考え方を尋ねたところ「必ずしも結婚する必要はない」と
答えた人は68%、「人は結婚するのが当たり前だ」と答えた人は27%・・・・
【NHK世論調査の異常な現実】本当にちゃんと選んでるのか?現状の生活満足が92%
スレリンク(newsplus板)

722:132人目の素数さん
19/01/18 10:00:15.52 /asQ+GeG.net
>>706
どちらにしても、アンケートを受けた本人が考えたというより、
親の考え方がそうだということにしかならんのだよな。
そう考えると、大人は理不尽だ。

723:132人目の素数さん
19/01/19 20:28:25.83 HDORvJAa.net
統計先達方に質問。先般より騒動出来の厚労省「毎月勤労統計」不正問題だが、2004年
以前まで零細企業は抽出統計、大企業は全数統計と決められていた根拠は、何なのかな?
統計の考えに立脚すれば企業規模に関わらず標本抽出統計一本でよいのじゃないか?
【伝統】厚生労働省、勤労統計を正しく装うデータ改変ソフトまで作成していた事が判明  ★2
スレリンク(newsplus板)

724:132人目の素数さん
19/01/19 20:58:33.86 unI0qWhi.net
改変ソフトって、ほんとかね?割合を合わせてるだけじゃないの?
決まりはもちろん全数だけど、件数割合を全数に合わせているとしたら
計算結果はおおきく変わらないだろうね。
だとした場合
今までの報道では、件数も合わせずに、そのまま東京の分は1/3で計算
していたと報道していた。これの方が大間違いの報道ということに
なるのだが。

725:132人目の素数さん
19/01/19 21:31:58.40 MMSrQ9rB.net
だとした場合とか妄想で言われてもw

726:132人目の素数さん
19/01/19 21:41:50.33 rSgjVqQn.net
社会人でも通いやすい統計学の大学院てどこかありませんか

727:132人目の素数さん
19/01/19 23:55:29.01 iXhYyCfN.net
東京大学大学院経済学研究科

728:132人目の素数さん
19/01/20 09:09:44.52 vbB0l4YG.net
統計学を操って役に立てるようになりたい

729:132人目の素数さん
19/01/20 09:17:48.42 FFbdUxFQ.net
デイトレやるようになって勉強し始めた
とりあえず2級が目標

730:132人目の素数さん
19/01/21 07:07:44.77 s0Etp/8a.net
ある私立医大の合格者の偏差値の平均値はm、標準偏差は10の正規分布であるとする。
合格者のうち成績上位70%は入学を辞退し下位30%の合格者が入学する。入学者の偏差値の平均値をmaとする。
m - maを算出せよ。
答はmの値によらないでいい?

731:132人目の素数さん
19/01/21 07:08:29.04 s0Etp/8a.net
>>713
p hacking とか?

732:132人目の素数さん
19/01/21 13:43:35.90 jatJic6p.net
>>708
1 全件調査は法的に決まっていた
2 サンプル抽出なら、全体支払い料を算出する際に抽出率の逆数を乗じないといけない
3 上のミスをこっそり修正したので賃金の伸び率が不自然になった

733:132人目の素数さん
19/01/25 08:03:51.68 CDJmSyfR.net
>>717
勤労統計続報
厚労省「すいません、COBOL分かる人間が少なくて勤労統計調査のチェック甘かったです」
スレリンク(news板)

734:132人目の素数さん
19/01/25 11:27:01.46 jPcz8uua.net
おまけに2004年からのデータ破棄してるって
紙のアンケートだか何か知らないがひどい

735:132人目の素数さん
19/03/05 08:32:16.40 agNxkP9Y.net
>>718
じつは指摘されるのと類似した問題が一つの要因で
ただ、言われていることとちょっと異なるんだが
ソフト環境が進んで、さらに無償で利用できる関係で研究員によって
好みのツールを使うようになり、検証が不十分になってきているところが
今回の要因の一つにある。
便利さが生んだ問題と言ったらいいのか。

736:132人目の素数さん
19/03/05 09:01:16.13 agNxkP9Y.net
高度な統計解析が必要とされるわけではないので
言い換えれば、ツールオタクが生んでしまった問題の
一つと言えなくもない。
言語で結果が変わるわけじゃないんだから、
研究と業務という意識の切り分けができていなかった
といえるかも。

737:132人目の素数さん
19/03/08 12:44:40.00 wd6xlp6H.net
書くところがここしないので書かせていただきます
公的な統計の問題が毎日ニュースで流れていますけど、
賃金構造基本統計調査=> チンコウ
毎月勤労統計調査  => マイキン
と、統計の専門家が短縮してチンコウ、マイキンと
おっしゃっていますけど、俺が耳がすこし悪いので、
聞くたびに、チンコ、マンコと聞こえてしまいます。
お願いですから、他の短縮形を使っ


738:てください! よろしくお願いします!



739:132人目の素数さん
19/03/08 14:28:40.91 zPm0EWvO.net
ちんまいのう

740:132人目の素数さん
19/03/08 14:42:02.17 MkV0Z/ug.net
賃金構造基本統計調査=> 賃本
じゃあまずいかな?
どう発音してもいいけど

741:132人目の素数さん
19/03/08 17:35:23.00 63imntGD.net
むしろマイ金的な響きある

742:132人目の素数さん
19/03/29 21:03:23.99 g6RZxVSs.net
「統計」は「疑似科学」な

743:132人目の素数さん
19/03/31 13:16:25.70 XXvSi3Mk.net
疑似科学として使う方しか知らんのだな

744:132人目の素数さん
19/03/31 20:52:08.22 4szRP/7j.net
2mのキッチンとか死んじゃうよな

745:132人目の素数さん
19/04/02 21:51:43.84 awGEUT67.net
すいません、質問です。
URLリンク(www.data-arts.jp)
この問題の(3)の解答なのですが、なぜ自由度が9になるのでしょうか。11カテゴリで自由度10にならないのでしょうか。

746:132人目の素数さん
19/04/08 23:52:13.97 WYBAYyIg.net
性犯罪率と申告率
URLリンク(hakusyo1.moj.go.jp)
この二人が暗数(未申告)を含んだ実際の被害者数を計算してるんだが
どっちが正しい?
URLリンク(twitter.com)
URLリンク(twitter.com)
(deleted an unsolicited ad)

747:132人目の素数さん
19/04/09 03:51:51.39 mCRWATXA.net
>>730
あ、これもういいです。スルーでヨロ。

748:132人目の素数さん
19/06/10 20:24:58.97 DYnR/eWG.net
相関係数について教えてください。
変数a={1,1,1,1,1,1,1,1,1,1}
変数b={1,1,1,1,1,1,1,1,1,1}
つまり2つの変数の値が全て同じだった場合に、
相関係数を計算すると計算不能になりますけど、
これは相関係数は1だと言っていいんでしょうか?
それとも計算不能でいいんでしょうか?

749:132人目の素数さん
19/06/10 23:28:12.63 QNcedATQ.net
1でok
ていうか全く同じデータの相関係数求めてどうすんの

750:132人目の素数さん
19/06/11 02:56:55.47 4gLAsdF7.net
意味ないですよね?
よくよく考えてみると、
その意味ないことを
延々と証明してるキチガイ論文見つけたので
学会発表のときに
触れてやろうと思ってます

751:バーチャル5才児
19/06/12 12:12:32.56 HTSoCTZk.net
>>733 に異を唱えてくれるステキな大人のひと、いないの?

752:132人目の素数さん
19/06/12 12:39:38.21 r8hS2Av9.net
エンタングルメントみたいな非自明ながらも完全なる相関性とかもあるんだけどね。

753:132人目の素数さん
19/06/13 00:57:42.22 1/MlBZbG.net
>>735
そんな人は研究に忙しくて
5chみてるヒマないでしょ?
ここにくるのは初心者とカスとゴミですから

754:132人目の素数さん
19/06/13 13:49:57.02 ++fphncT.net
有意ですかぁ?

755:132人目の素数さん
19/06/18 08:09:12.14 boAmwD1T.net
>>729
よく読め

756:132人目の素数さん
19/06/18 10:20:44.21 r3SGd61F.net
>>732
相関係数の公式は知らんが、
0/0は、不定値である
そもそも、aもbも全部1とのことだが
より精密に測定すれば
0.982とか1.023の感じの測定値となる
有効数字1桁ではなく、せめて、
有効数字2~3桁となるよう再測定せよ
なお、相関K数は計算上不定だが
一般に相関K数は-1~+1に定まる

757:132人目の素数さん
19/06/27 09:26:40.59 CKXGCHz7.net
藤林丈司

758:132人目の素数さん
19/06/29 16:41:15.01 DHiuKlHq.net
統計学Part17
ふうL@Fu_L12345654321
学コン1傑いただきました!
とても嬉しいです!
URLリンク(pbs.twimg.com)
URLリンク(twitter.com)
(deleted an unsolicited ad)

759:132人目の素数さん
19/07/03 19:43:12.19 dqLWAG/2.net
4315
ふうL@Fu_L12345654321
学コン1傑いただきました!
とても嬉しいです!
URLリンク(pbs.twimg.com)
URLリンク(twitter.com)
(deleted an unsolicited ad)

760:132人目の素数さん
19/08/21 15:43:37.73 R9JKCgfG.net
統計学で大学院に行って学びたいと思うけど、修論がまったく思い描けない。
既にある問題解析なら、本を買ってやればよいと思う。
統計学の修士論文って、どんなレベルなんですか?

761:132人目の素数さん
19/08/21 16:06:20.31 l33Sc9o9.net
学部なんだろ、当たり前だろ、馬鹿か
>修論がまったく思い描けない

762:132人目の素数さん
19/08/24 17:56:49.65 Eorr1XN2.net
修論のテーマなんて教授から与えられるものじゃないの

763:132人目の素数さん
19/08/25 12:22:34.43 hN+91YQ9.net
統計学は理論的なことはもうやることないだろ。

764:132人目の素数さん
19/09/15 19:00:11.32 DioDLiiu.net
統計学も今後はAI台頭で不要になると思わない?

765:132人目の素数さん
19/09/16 00:42:27.54 +jVhODrH.net
昨今AIと呼ばれているものは統計学のごく一部を応用してるにすぎないし応用と呼べるレベルにすら達していないものも多い
つまり統計学なくして理論面でのAIの発展などあり得ない

766:132人目の素数さん
19/09/17 15:37:17.58 Mzc/TNCI.net
>>749
禿同
その基本的なことさえ
全く分かってない機械学を
Pythonでやってるママゴトでも
高い給料もらえるという
データサイエンティストバブル!

767:132人目の素数さん
19/09/17 16:24:41.95 J7tompAJ.net
統計の新しい理論が出来たわけではない、馬鹿乙

768:132人目の素数さん
19/09/17 20:42:38.79 TeA5l+qf.net
>>748
残念ながら今のところ
統計学≒AI
なのよ
よろしくね!

769:132人目の素数さん
19/09/17 20:53:38.59 hX7H6s46.net
希望と現実の区別がつかない素人

770:132人目の素数さん
19/09/18 08:45:49.87 4XM7uJtX.net
アンカーつけろ馬鹿たれ!

771:132人目の素数さん
19/09/18 08:47:04.34 4XM7uJtX.net
>>753
アンカーつけろ馬鹿たれ!
例な

772:132人目の素数さん
19/09/18 09:05:29.06 BuAUiqBt.net
>>755
例えば
死ねよアホ

773:132人目の素数さん
19/09/20 13:25:10.58 KyAOfC1j.net
2515
かずきち@dy_dt_dt_dx 8月28日
学コン8月号Sコース1等賞1位とれました!
マジで嬉しいです!
来月からも理系に負けず頑張りたいと思います!
URLリンク(twitter.com)
(deleted an unsolicited ad)

774:132人目の素数さん
19/09/20 21:26:50.38 srQjZ8Bg.net
>>756
馬鹿で性格も悪いって(笑)

775:132人目の素数さん
19/09/21 09:16:38.42 uWUdAHAp.net
>>758
自己紹介乙

776:132人目の素数さん
19/09/21 14:50:35.73 OeVFSCvD.net
河村敏彦(笑)

777:132人目の素数さん
19/09/28 17:33:46.84 3Xx7diYc.net
初歩的なことかもしれませんが、「有意水準」に関して悩ましいことがあったので質問させてください。
個人的な興味のために、「n面ダイスをm回振って、全ての目が出揃う確率」について議論したいんですが、
統計学的には、その確率が99%以上であれば、有意水準1%のもと、「n面ダイスをm回以上振�


778:黷ホ、流石に全ての目が出たものとして扱ってよい」と言える、 という認識で合ってますでしょうか。 合っているとして、ここからが本題なんですが。 例えばこれをn = 100で行った場合、 「百回中一回しか起こらない事象を自分は扱ってるくせに、統計学的には1%以下を無視するなんて、どの口が言ってねん」って感覚を覚えます。 つまり、nの値が大きければ大きいほど、有意水準を引き下げたくなってしまいます。 この感覚は理論的には正しいのでしょうか?



779:132人目の素数さん
19/09/29 04:09:38.53 ICvo204V.net
検定の概念がわかってないようなのでそこから見直しって感じですかね

780:132人目の素数さん
19/09/29 11:55:16.64 YdSphJX8.net
n面ダイスが正確に作られた(=各面の出る確率が等しい)ものであればm回振って全目が出る確率は厳密に計算できる
しかし、現実には完全に正確なダイスなどあり得ないのでこの確率からのブレが生じる
手元にある実物のダイスがどのくらい不正確かは実際に振ってみて値を記録しなければ分からない
で、実際に振った以上どの目がどの確率で出るのかは分かったのだから求めたい確率も計算できる
有意水準を使った統計学的検定でできるのはダイスが正確なものか否かの判定ぐらいでしかないので今の場合は不要

781:132人目の素数さん
19/09/29 16:14:00.89 2CC0mAW5.net
なるほど……有意水準という概念を適用できる範囲を誤解していたみたいですね。
有意水準の概念は「このダイスに偏りがないか」を調べるときには使えるが、
「ダイスが正確であるとして、m回振った結果すべての目が出揃っているか」は、例えば計算した結果99.4%だとしたらそれ以上でも以下でもなく、99%以上だからと言って全ての目が出ているとして扱えるものではない、と。
勉強し直します。ありがとうございました。

782:132人目の素数さん
19/09/29 16:40:09.39 2CC0mAW5.net
ちょっと調べてみたんですが、「どの程度、低い確率で起きる事象なら無視していいか」に関しては「ボレルの法則」というものがあるらしいですね。
「10のマイナス6乗以下の確率は、人間の時間スケールではまず起こらないものとして扱ってよい」という。
この場合適用すべきはこちらでしょうか。

783:132人目の素数さん
19/09/29 18:28:41.84 82vqIqjS.net
確率と有意水準をごっちゃまぜにしているように見えます。
有意水準という用語の背景には、必ず帰無仮説があります。
帰無仮説というのは、いわば否定されることを目的に立てるような仮説です。
帰無仮説が否定されたなら、それに従って、何らかの主張が行えます。
その時の常套句が、「有意水準これこれで、これこれを主張する」等となります。
なぜ、その帰無仮説が否定できたか?
否定した理由は、あまり起こりえないことが起こったからという論法です。
偶然、たまたま起こったと言うこともあり得ます。
しかし、そう考えるより、帰無仮説が間違っていたと考える方が、無難だと考え、
帰無仮説の内容の否定にあたる主張を、「有意水準云々で、此れ此れ...」と言うのです。
帰無仮説が間違っていると考えるか、偶然起こることもあるから、帰無仮説が間違っているとまでは
言い切れないと考えるか、その判定の境界として採用されているのが、5%とか、1%とかの値です。
従って、この5%とか1%は、「その主張が間違っている確率」ではありません。
「間違って帰無仮説を棄却してしまった確率」です。
帰無仮説は正しかったのに、誤って否定し、何らかの主張を行ってしまった確率です。
主張の内容の確率ではなく、帰無仮説を否定してある主張を持ってきたときの判断の誤りの確率です。

784:132人目の素数さん
19/09/29 20:56:45.27 rVYV+GdK.net
5645
かずきち@dy_dt_dt_dx 9月29日
京大オープン経済190/550しか取ってないやつにマウント取られて草
お前より90点高いんだよ


785:黙って勉強しろ https://twitter.com/dy_dt_dt_dx (deleted an unsolicited ad)



786:132人目の素数さん
19/09/29 23:29:22.50 4yGt3Rbe.net
検定とか有意とか
フィッシャー最大の失敗だと思いますんw

787:132人目の素数さん
19/09/30 21:32:41.09 pGz8xE4o.net
河村先生は女子学生にセクハラしてるのでは?

788:
19/10/20 16:28:57 /IBhYsib.net
統計学やると今流行のデータサイエンティストになれるのか?

789:132人目の素数さん
19/10/21 00:23:39.84 h0/eah2o.net
むしろデータサイエンティストブームが終わっても生き残るために必要なのが統計学
データサイエンティストになるだけが目的ならもっと小手先のテクニック身に着ける方が手っ取り早い

790:132人目の素数さん
19/10/22 01:47:38.25 OUWgx3Yq.net
データサイエンス=機械学習 になってしまって、統計学への関心が薄れてきた印象
データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象
結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする

791:132人目の素数さん
19/10/26 17:02:21.23 qnfsZRYc.net
機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。

792:132人目の素数さん
19/10/26 17:14:56.32 80nGs05h.net
緑本が難しかったんだけど、どの本から始めたらいいですか?

793:132人目の素数さん
19/10/27 08:03:15.48 xp3AzHdF.net
機械学習のベースは統計学
ついでにいうと機械学習機械学習といっているのは日本くらいなもん

794:132人目の素数さん
19/10/27 10:08:41.82 725LjOOC.net
>>774
緑本って何?

795:132人目の素数さん
19/10/27 10:19:47.64 ZKA7UMw6.net
緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか

796:132人目の素数さん
19/10/27 10:53:15.64 QXm+1z/Q.net
赤本読んだか?

797:132人目の素数さん
19/10/27 12:59:36.48 fPVOzMOu.net
Rは数年前に既に衰退始まっててpythonに移行しつつある

798:132人目の素数さん
19/10/27 13:06:49.82 C7RbWweK.net
>>776
>>777
モデリングのほうです!

799:132人目の素数さん
19/10/27 13:22:30.81 t6dYTPS1.net
>>772
日本でいうDSだの機械学習はもう数年で終わり
今慌ててDS関係の講座作ってる大学は不良資産抱えることになる
新規採用した教員が今後20年足引っ張るよw

800:132人目の素数さん
19/10/28 00:18:55.59 xx3fOqhb.net
RはRstudioが使いやすいけど、Pythonは何使ってる?

801:132人目の素数さん
19/10/28 00:21:16.67 0lndKoC5.net
VScodeじゃん?

802:132人目の素数さん
19/12/04 23:38:03 JeLX6Nlr.net
不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、
自由度と不偏推定量はどうして関係があるのでしょうか?

不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、
という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。

803:132人目の素数さん
19/12/08 12:05:25.84 wenJp6AV.net
非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね?
いい本あったら教えてください

804:132人目の素数さん
19/12/08 12:34:39.66 2phJLplo.net
非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰すること�


805:カゃないの? 又は2次関数なりで変数変換して線型回帰に落とし込むとか いずれにせよ大層な話じゃないと思う



806:132人目の素数さん
19/12/08 16:56:44 /8FwQ3R/.net
重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね
ニューラルネットとかでもいけるんですかね?ニューラルネットは軽く調べただけであんまわかってなくてすんません

807:132人目の素数さん
19/12/08 17:24:09.87 xexp9KOA.net
単純な非線形重回帰なら一般化線形モデルでよくないか?

808:132人目の素数さん
19/12/20 02:21:53.52 yiLw1Jz8.net
2200
しろ@huwa_cororon 11月27日
苦節6ヶ月、初満点&一等賞です!
URLリンク(twitter.com)
(deleted an unsolicited ad)

809:132人目の素数さん
19/12/30 23:03:06.88 3PRRBx7S.net
条件の違う2つの群に対して、5つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか?

810:132人目の素数さん
19/12/31 20:29:52.64 uFwLZGG6.net
分散の比ならF検定かな

811:132人目の素数さん
19/12/31 20:31:56.88 uFwLZGG6.net
標準偏差の比が正しいのか

812:132人目の素数さん
19/12/31 22:11:44.84 4uBrQaIf.net
名義尺度になるから標準偏差は取れなくない?
カイ二乗検定かね?

813:132人目の素数さん
19/12/31 22:15:54.60 uFwLZGG6.net
独立性の検定は使えるかもね

814:132人目の素数さん
19/12/31 22:17:43.07 uFwLZGG6.net
好みを点数で評価してもらったら
形式上は間隔尺度になるかも

815:132人目の素数さん
20/01/17 01:21:44 uZ2HrGrW.net
要素Aについて、Aがある場合とAがない場合に、
100回中何回事象X、Y、Zが起きたか調べたデータがあるとき

X、Y、Zが起きるのは高得点である
たとえば
Xが起きる=〇点、起きない=0点
Yが起きる=△点、起きない=0点
のように何点であるかはわからないが、事象が起きると
起きないときに比べて高得点が得られるとすると、

要素Aは「高得点を得る」のに影響しているのか
というのを調べるのにはどうしたらいいでしょうか?
AとX、AとYのように個別にカイ二乗検定を行うと
p値は0.05より大きいというようなことはわかったのですが…

100回中
A ~A
X 15 10
Y 17 10
Z 12 8

816:132人目の素数さん
20/01/18 11:00:37.99 qWqQZnoU.net
>>796
Aと、Xが起きる起きないの関係でP値が5%超だと
AとXの発生は無関係って解釈になるのでは?
そのレスにあるクロス集計表だと
AとXYZのどれが発生するかの関係を調べることになると思う

817:132人目の素数さん
20/01/19 13:25:58.01 2vRPAcfj.net
>>797さん、ありがとうございます!
....A ~A
X...15 85
~X..10 90
....A ~A
Y...17 83
~Y..10 90
....A ~A
Z...12 88
~Z.. 8 92
についてそれぞれp値は5%超なので、
「高得点を得る」事象X、Y、Zについて、
帰無仮説:要素Aによって、事象X、Y、Zの発生のしやすさは変わらない
は棄却不能であるので、
Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない
Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、
それは偶然であるのか必然であるのか、このデータから推論することはできない
ということでいいのでしょうか?

818:132人目の素数さん
20/01/19 14:38:42 SmisEix1.net
>>798
H0:二つの変数は独立である。
H1:二つの変数は独立ではない(何らかの関連がある。)
でH0を棄却できないので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
になると思います

有意水準の値にもよりますけど

819:132人目の素数さん
20/01/19 15:31:21 2vRPAcfj.net
ありがとうございます

優位水準5%としたとき、p>0.05なので

AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない

同�


820:lにp>0.05なので AとY、AとZに関連があるとは言い切れない よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない (あるともないとも言い切れない) ということで大丈夫でしょうか?



821:132人目の素数さん
20/01/19 15:47:51 6nrSQfDB.net
統計学の勉強をしたいのですがお勧めの教書はありますか?とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです

822:132人目の素数さん
20/01/19 15:58:46 SmisEix1.net
>>801
図書館とかでいろいろ見てみたらいいのでは?
同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので

823:132人目の素数さん
20/01/19 16:15:09 ZOYCVHu4.net
赤本、青本

824:132人目の素数さん
20/01/20 08:19:51 4LwsNzn7.net
まず宮川公男
からの赤本

825:132人目の素数さん
20/01/20 15:41:43.88 RFS0mRu2.net
それぞれ、サイズの異なる
A B C D E が5分類有り、ONとOFFの2つの状態を持ちます。
ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。
判明している数値は、A~Eのサイズ(量)と各分類でONになった回数です。
分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、
各分類で起こった回数もトータルでの起こった回数も不明です。

826:132人目の素数さん
20/01/20 15:58:45.38 59LWl8Pz.net
スレ違だったらすまん
TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな?
ふと疑問に思ってしまった

827:132人目の素数さん
20/01/21 14:45:56 Etw7VOGJ.net
>>801
教えてもらったらレスしなさい、いやなら二度と来ないで

828:132人目の素数さん
20/01/21 16:04:38.27 pYByjpiW.net
今勉強中だから!

829:132人目の素数さん
20/01/21 18:49:54 XQhOWIM5.net
>>802
遅くなってしまい申し訳ありません。
情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。

830:132人目の素数さん
20/01/22 00:38:06 4VBFhSJv.net
>>807
うっせーんだよバーカ
老害か?

831:132人目の素数さん
20/01/22 00:54:27 ZSq/0bZF.net
とんでもねえ
あたしゃガウスだよ

832:132人目の素数さん
20/01/22 18:12:41 eTeJDHK9.net
URLリンク(i.imgur.com)
この問題って、どーやって解くんですか?

833:132人目の素数さん
20/01/22 19:30:28 KUYY19ls.net
>>812
定義とおりに計算したら求められると思います
Xが-4を取る確率をその表から読み取って掛け算して
他の値も同様にして、全部足し合わせる→平均
平均との偏差の二乗を足し合わせて個数で割る

共分散も定義の式を確認してその通りに計算する

834:132人目の素数さん
20/01/25 00:28:42 IzxreXdi.net
質問:日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合

Q1. この統計調査そのものを棄却すべきなのか
Q2. 信頼区間をいじればどうにか統計として成り立つのか
Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか

よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○%!」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。

835:132人目の素数さん
20/01/25 18:51:17


836:qRSN3fq+.net



837:132人目の素数さん
20/01/25 18:51:28 E3e004yf.net
黙れアホ死ね

838:132人目の素数さん
20/01/27 12:27:19 p+k1S3fn.net
仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな

"瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―"

839:132人目の素数さん
20/01/27 13:06:07 vv73qAWZ.net
>>805
求めたい値を変数として
今わかっている関係を数式で表す

それらを使って誤差などの評価値を最小にする値を探す

組合せ最適化問題に帰着するかもしれない

840:132人目の素数さん
20/01/27 13:11:52 vv73qAWZ.net
>>814
除外する基準が分からないなら
そのアンケートの結果としては意味があるだろうけど
対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う

別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか

841:132人目の素数さん
20/01/27 13:12:35 vv73qAWZ.net
>>817
仮説が正しい確率が小さいから仮説を棄却するんじゃね?

842:132人目の素数さん
20/01/27 21:23:53 rbwRL9KL.net
「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある
現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる

843:132人目の素数さん
20/01/27 21:38:20 vv73qAWZ.net
>>821
仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える

分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね?
中心極限定理とかで安定分布とみなせるとかあるんじゃね?

844:132人目の素数さん
20/01/27 21:40:59 vv73qAWZ.net
>>821
別の手段は何か適切なものがあるの?
ないなら近似的なものでも答えがわかった方がいいんじゃね?

845:132人目の素数さん
20/01/27 22:33:49.08 AlwQV46l.net
>>823
勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも
有限サンプルの世界ではあくまで近似でしかない
そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって
近似的に使えるものがあれば好きに使えばいい
ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる

846:132人目の素数さん
20/01/28 00:05:49 L5uOvH9/.net
この問題を教えて頂けないでしょうか?
大学1年生について,何かを失敗してしまうことへの恐怖感を感じる程度(「以下,「失敗恐怖尺度得点」)と,個人の大学生活への不適応度(以下,「不適応得点」)を測定したところ,
それぞれの記述統計量について,「失敗恐怖尺度得点」に関して平均値=4.05,標準偏差=1.17,「不適応得点」に関して平均値=20.29,標準偏差=6.49という結果が得られた。また,2変数間の共分散は2.37であった。
「失敗恐怖尺度得点」を独立変数とし,「不適応得点」を従属変数として単回帰分析を行い,それぞれ値を入力欄に記入せよ。
(1) 切片を推定せよ
(2) 回帰係数を推定せよ
(3) 決定係数を示せ
(4) 単回帰分析の結果,得られる,従属変数の予測値と,従属変数との間の相関係数を求めよ
(5) 予測の標準誤差を示せ

847:132人目の素数さん
20/01/28 06:43:17.72 zbNO1u7R.net
やっぱベイズが分かりやすくていいな。

848:132人目の素数さん
20/01/28 09:17:05 +WlMKIb4.net
ベイズって簡単なの?理解に苦しんでる笑
もう一踏ん張りしたらそのステージに上がれるかな

849:132人目の素数さん
20/01/29 06:00:24 wY0tYf5k.net
平均値100 標準偏差15で定義される知能指数で
標準大学の新入生の知能指数の平均が100
裏口シ


850:リツ医大の新入生の知能指数の平均が85であったとする。 各大学から1/10を無作為抽出して知能指数をt検定したときのp値の期待値、中央値を求めよ。 また、p値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか?



851:132人目の素数さん
20/01/29 06:51:38 wY0tYf5k.net
>>825
統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。

Rだと

library(MASS)
mx=4.05
my=20.29
sx=1.17
sy=6.49
vxy=2.37
n=1e6
mu=c(mx,my)
si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2)
dat=mvrnorm(n,mu,si)
X=dat[,1]
Y=dat[,2]
lm(Y~X)

852:132人目の素数さん
20/01/29 06:56:54 wY0tYf5k.net
近似値なら

Call:
lm(formula = Y ~ X)

Coefficients:
(Intercept) X
13.279 1.731

853:132人目の素数さん
20/01/29 07:46:51.07 wY0tYf5k.net
>>828
追加
1学年はどちらも100人

854:132人目の素数さん
20/01/29 10:50:47 QT00WVSK.net
>>824
仮説なんだから真の分布はわかるはずがないだろ
仮説が成り立つとして検定するんだから

真の分布なんて厳密に判るケースの方が少ないんじゃないか?
今あるデータだけでなく未来のデータも含めないと真の分布は厳密にはわからないんだし

855:132人目の素数さん
20/01/29 12:11:52 tswqnp9S.net
>>832
だから散々言っているように、真の分布が分からないのに仮説が正しい確率など分からないよね?ということ
あくまで自分が勝手に作ったモデルが手元のデータに対してどれぐらい使い物になるかが分かるだけ
それが有用なら使えばいいが、それは決して仮説が正しい確率ではないというだけのこと

856:132人目の素数さん
20/01/29 13:44:04.84 QT00WVSK.net
>>833
自分が勝手に作ったモデルのことを仮説と呼ぶ
仮説が正しい確率=自分のモデルが正しい確率

857:132人目の素数さん
20/01/29 14:19:09.31 J3LUoz9R.net
>>834
そこで言う「正しい」って何だよってこと
正解があって初めて自分が作ったものが正しいか間違いかを論じることができるはずだが正解を誰も知らないので「正しい」などという言葉を使ってはならない

858:132人目の素数さん
20/01/29 14:21:53 QT00WVSK.net
>>835
正しい→観測した事象が発生する確率が高い

859:132人目の素数さん
20/01/29 14:25:41 QT00WVSK.net
>>834
これは正確ではなかったかも

仮説が正しい確率=自分のモデルで対象の事象が発生する確率

自分のモデルで対象事象が発生する確率が低い→
自分のモデルつまり仮説が正しくないから仮説を棄却する

860:132人目の素数さん
20/01/29 14:27:55 QT00WVSK.net
>>837
統計量と検定に使う分布を適切に選ぶ必要はある
どの程度の精度が必要かは個別に違うだろう
近似でも有用なケースもある

861:132人目の素数さん
20/01/29 14:36:14.08 QT00WVSK.net
>>835
統計だから正しいか正しくないかの二択ではないんだよ
正しい可能性が1%なのか95%なのかで違うだろ

862:132人目の素数さん
20/01/29 15:11:01 tswqnp9S.net
正しいか正しくないかは確率変数ではないので正しい確率などという概念がおかしい
確率変数ではないのだから正しいという言葉を使った瞬間に正しいか正しくないかの二択で論じることになる
>>837にあるようにあくまで計算するのは作成したモデルで観測した事象をどれだけ説明できるかであるが
それは一般に言う「正しい」の意味合いとは大きく異なる
だから「正しい」などと大袈裟なことを言わずに正直に自分が作ったモデルとはこの程度合っていると言えばいいだけのこと

863:132人目の素数さん
20/01/29 17:57:57.14 QT00WVSK.net
>>840
正しいという言葉の定義の問題でしかないな
意思疎通ができれば問題ない
正しいとはこう言う意味に解釈すると前置きすれば解決する

864:132人目の素数さん
20/01/29 18:12:15.61 yutX131C.net
だからベイズ使えベイズ。
仮定したモデルが正しい確率だから分りやすいぞ。

865:132人目の素数さん
20/01/29 18:49:21 QT00WVSK.net
ベイズって観測するまでは事前分布を均等だとみなして
観測に合わせて分布を更新すると理解しているけど
それだと滅多に起きない事を考慮できないんじゃないの?

866:132人目の素数さん
20/01/29 21:16:02 Bb/kUddm.net
統計学は統計学
数学ではない

867:132人目の素数さん
20/01/31 12:18:53 3R+evHVz.net
>>843
無情報事前分布を当てはめるのは普通は確率分布のパラメータに対してであって最終的に知りたい確率分布自体は別のものを用意すればいい
レアな現象を扱いたいならポアソン分布とかをベースにした統計モデルがよく使われる

868:132人目の素数さん
20/01/31 18:00:11 20AlCGSm.net
別の質問スレに書いたけどスレチだったようで回答頂けなかったので、こちらで質問させてください。

あるデータを連続分布関数でフィッティングしてパラメータを決めたいのですが、累積でやるのと階級に区切ったヒストグラムでやるのはどちらがいいのでしょうか?

869:132人目の素数さん
20/02/05 08:39:16 EMFhdap/.net
累積じゃないか。
最小二乗法でフィッティングできない?

870:132人目の素数さん
20/02/05 18:12:00 CqhwK2bl.net
両方試して、実運用の成績が良さそうな方を使う

871:132人目の素数さん
20/02/05 18:23:56 X0ZPE/3a.net
自力で勉強だとどこくらいまでいけるかな

872:132人目の素数さん
20/02/18 01:50:07.55 MRffbEd5.net
>>847
俺も累積だと思うんだけど。
階級に区切るほうだと、階級幅をこっちで決めなきゃいけないからいらんパラメーターが増えるのがデメリットだけど、メリットあるのか?
どっちも最小二乗法は使えるよね。

873:132人目の素数さん
20/02/18 07:47:57 u7S9BjHY.net
最小二乗法が使えるかどうかはデータの誤差分布がどうなっているか次第なので実際のデータを見ない限り最小二乗法が使い物になるかは誰にも分からない

874:132人目の素数さん
20/02/25 22:11:40 i9jNym3/.net
日本統計学会の春季大会は中止になりました。

875:132人目の素数さん
20/02/28 14:03:26 +BoqDQ44.net
アメリカの株のセンチメントの悪化が1万年に1度の発生確率って本当ですか?

URLリンク(imgur.com)

876:132人目の素数さん
20/02/28 17:26:29 3mNEM8z5.net
収益率に正規分布を使うと大変な間違いになります。
株価は非線形的な反応をします。
ポートフォリオは毎日リスクにさらされます。

877:132人目の素数さん
20/02/28 17:35:43 zqjyPXbo.net
>>854
正規分布って線形ではないよね
株価とかがランダムウォークしたら正規分布にならない?

878:132人目の素数さん
20/02/28 17:36:54 zqjyPXbo.net
ポートフォリオがリスクにさらされないと価格変動はなくなるからキャピタルゲインを得られない

879:132人目の素数さん
20/02/28 17:49:00 3mNEM8z5.net
>>855
平時はそうだけど
裾はもっと分厚い

非線形というのは例えばコロナだけの問題ではないということで
連鎖反応がある

880:132人目の素数さん
20/02/29 01:12:54 9VrNPLAR.net
> センチメント分析とは、文字通り消費者の「センチメント = 感情」を分析する
> ことを意味します。ウェブ上に投稿されたコメントなどを分析することによって、
> 消費者が持っている感情がネガティブなのかポジティブなのか、また、どの程度の
> 強さなのかを知ることができます。

そのセンチメント分析が何をどういう方法で分析したのか不明なのだから、
5σと言われても、さっぱりなんのことやらわからんよ。
単に否定的な単語の出現頻度が上昇したとか、そんなところだろ?
だって、テレビも新聞もウィルスの記事だらけ。
そんなの分析したら極端な結果になるんだろうね。
だけど5σと判断した基準がわからんのだから、
さっぱり意味不明だね。
その意味不明だということが理解できない人が、馬鹿ということ。

つーか、非線形と線形がどういう意味なのか
知ってる奴がいないということに驚


881:いてる。 少しは勉強したほうがいいね。



882:132人目の素数さん
20/02/29 07:47:57.93 HVbT+JBd.net
>>858
線形、非線形を知っているのがいないってどうやって確認したの?
確認できない→いない
と判断した?

883:132人目の素数さん
20/03/01 00:47:01.48 xtXMQc/Z.net
SPSSで2グループの判別分析をおこなうと、正準判別関数と分類関数が出力されます。
この二つの違いは何でしょうか。
実際に分類を行う場合には、分類関数を使用するのでしょうか。

884:132人目の素数さん
20/03/10 23:31:53 qimc2JEn.net
初めてこのスレに来た!
データ分析のために統計学を学ぼうとしていて、調べるとちょうど6月に検定試験があってちょうどいいなと思ってた今日この頃
皆さんは受験しますか?

885:132人目の素数さん
20/03/11 01:44:41.71 EAYVYeBW.net
>>851
たまに真顔でこういう人がいるから困る
検定と推定は別物な
>>840
841がおかしいけど
センセーショナルなほうがもてはやされるんだろうね

886:132人目の素数さん
20/03/11 09:35:31 BYdSeDgC.net
>>862
R2が小さくても使えると?

887:132人目の素数さん
20/03/11 11:43:01 SrjUptyu.net
使える=計算して何らかの結果が出せる、という意味なら使える
使える=計算して得た結果が役に立つ、という意味なら使えない

888:132人目の素数さん
20/03/11 11:50:18 BYdSeDgC.net
>>864
計算可能かどうかは学問的には興味があるだろうけど
最小二乗法を学問的に研究しても面白くないんじゃないか?

事業とかの役に立つという意味で使えるという用語を使用する人が多いだろうよ

889:132人目の素数さん
20/03/11 20:11:15 pvvBKa5t.net
誤差が正規分布はblueの条件じゃないことをいいたいんだろう
正規分布に従っていればモデルのフィッテングがいいわけじゃない
決定係数が高くても外れ値で見かけ上の直線性になっているだけかもしれない
相関係数の検定結果で悦にひたっていた人を思い出すわ

890:132人目の素数さん
20/03/11 21:08:54 KSMk05c1.net
だから結局は実際のデータをプロットしたりして見てみないとどんな方法が最適かなど誰にも分からない
あらゆるデータに対して有用な結果を出せるような都合のいい手法など存在しない

891:132人目の素数さん
20/03/12 00:19:32 oP6dIOya.net
データを重視するって大事だよねー

892:25
20/03/21 22:18:20 OJKhoHNQ.net
人がいないので、質問を破棄します。
どうぞよろしく。

893:132人目の素数さん
20/03/21 22:22:48 OJKhoHNQ.net
>>869は間違いなので無視してください


すみませんが、確率論統計学オタクの方々、日本のコロナウイルス感染者数を
計算できませんか
このコロナ騒ぎ以来日本政府はなんか態度が怪しげで外国のように検査数を
増やすつもりもないようです。
そこで、実際の感染者数をなんとか計算でだせないかと。

3月20日現在の、感染者数
日本国内 1015人
重症者49人
死亡者35人

致死率は1%から2%

NHKが毎日更新してる新型コロナの日本のデータ
URLリンク(www3.nhk.or.jp)

ジョンズホプキンス大学が毎日更新してる新型コロナ世界の感染者数
URLリンク(gisanddata.maps.arcgis.com)

よろしくお願いしますm(_ _)m

894:132人目の素数さん
20/03/22 00:39:49 lg1RjcFm.net
医療体制も国民の意識も栄誉状態も国内外の移動の頻繁さも全く違う国のデータを並べて一体何が推定できるようになると思っているのか

895:132人目の素数さん
20/03/22 01:21:28 fIGjbcow.net
よろしくお願いしますm(_ _)m

896:132人目の素数さん
20/03/22 01:27:33 a1rnwvta.net
海外と比較して優位な差があるとかは分かるかもしれない

その理由はなぜかは海外との違う点が候補になるくらいじゃないかな

897:132人目の素数さん
20/03/22 09:49:16 u67prFqL.net
>>870
ガイガーとか地面においてたタイプの人?

898:132人目の素数さん
20/03/24 21:56:25 JJA4CvUW.net
統計学を1から勉強してるけど難しいな
アウトプットが足りない

899:132人目の素数さん
20/03/26 08:48:13.00 KpkCprwW.net
例えば、現在の都内の感染者数は正しいと仮定して、
都内の1ヶ月後の感染者数を
予測してみよう。
n:現在の感染者数を120人
d:接触率(1日に1人が何人と濃厚接触するか人数)=5人
c:感染率(人と濃厚接触して感染させる確率)=20%
M:都内の昼間人口

難しいのは感染者同士なら感染しない
一度感染した人は感染しないこと
また接触率を一定とする.
これから仕事なので
続きはまた後で・・・

900:132人目の素数さん
20/03/26 09:22:24 iPGeyjQw.net
マルコフ連鎖?

901:132人目の素数さん
20/03/26 15:38:09.17 Enner7kW.net
感染者数を教えてください。
森岡正博
@Sukuitohananika
みんな冷静に計算してほしいけど、東京都の新コロナ感染者数は現在171人。
東京から無作為に200人をピックアップしたときに、その中に超有名人の志村けん氏が入ってる確率ってどのくらいだと思う?
現在の感染拡大ペースは我々の想像をはるかに超えてるよ。
桁違いの感染者数になってるよ。
URLリンク(twitter.com)
(deleted an unsolicited ad)

902:132人目の素数さん
20/03/26 18:41:46.26 iPGeyjQw.net
>>878
超有名人かどうかは個人を特定した時にその値をどう解釈するかというだけじゃないの?
有名人かどうかに関わらず感染する確率は変わらない
有名人だから感染する確率が高くなるとか低くなるとは思えない
個人の行動範囲とか多数の人と会う機会が多いとかは影響するかも知れないし
有名人だから街で握手したりする機会が多いなら高くなるだろうけど
行動で感染するかどうかの結果は変わるだろう

903:132人目の素数さん
20/03/26 23:02:19 pyG83tbh.net
>>878
「統計でウソをつく方法」というのを思い出したw

904:132人目の素数さん
20/03/27 00:59:55 BtjmJaHD.net
>>879
ある国の人口は100,000,000人で、
そのうちの1,000人が「有名人」です。

いま、ある感染症に、1人の有名人が罹患しました。

なお、この感染症は国民にランダムに罹患するものとします。


?この条件だけで、全国民の感染症患者数は、ほぼ100,000人と推計できるでしょうか?

?「他の999人は罹患していないことが分かっている」という条件を付け加えたとき、
 上記の推計結果は変わるでしょうか?

?罹患した有名人が2人のとき、単純に200,000人と推計できるのでしょうか?



罹患している人の確率よりも、罹患していない人の確率を計算して1から引く?
よくわからない。

905:132人目の素数さん
20/03/27 08:03:46.59 4yRXOLUB.net
志村けんが感染する確率なら結構低いかもしれないが、今気にしてるのはあくまで一定以上の知名度の有名人が感染する確率だから特に都内に限定すれば大して珍しいことではない

906:132人目の素数さん
20/03/27 10:39:09.59 RlLzJRqB.net
主観ではテレビ業界はインフル蔓延しがち

907:132人目の素数さん
20/03/27 13:20:56.10 Hl3wuGgz.net
>>881
1については母比率の推定から類推できそうだけど
芸能人に限定するとランダムサンプリングではないから
少し調整が必要だろうな


908: どんな調整が適切かは判らないけど 例えば、ダイヤモンドプリンセスをサンプルに感染率の推定をしても値が妥当でないのと同じだと思う



909:132人目の素数さん
20/03/27 16:01:36 0CEq6ZGF.net
>>881
人口がN=1億で、感染者の数がA、非感染者の数がN-Aとし、有名人の数がU=1千とすると、
有名人の感染者の数がnである確率は、C[U,n]C[N-U,A-n]/C[N,A]

A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、
これだけの情報では範囲が荒すぎて?「ほぼ100,000人」なんて言えず、?も当然言えない
A=24230のとき、n≧2の確率は2.5%、A=720600のとき、n≦2の確率は2.5%だから、
これだけの情報では範囲が荒すぎて?「ほぼ200,000人」なんて言えない

そもそも、感染者を見つけてからそのサンプルの珍しさを後出しで主張するのは反則だよね
人は大きい集合に属していたり同時に小さい集合にも属していたりするので、
小さい集合から出たサンプルであると、後出しならいくらでも都合よく主張できてしまう

910:132人目の素数さん
20/03/27 16:36:21.98 XqeWjxGb.net
>>882
毎夜の六本木での志村のご乱行を
知っているので
感染しても当然としか思わない。
阪神の藤浪選手も同じような
ご乱行により感染したのだ。
これ業界では有名よ!

911:132人目の素数さん
20/03/28 00:19:05 UmPDo3qE.net
>>885
ありがとう
なんとなく雰囲気は分かりました。

学者なら、こういう議論くらいしてほしいよね。

912:132人目の素数さん
20/03/28 08:06:46 bVA1Z4ji.net
>>867
現時点をt=0とし、時点tにおける感染者の割合をp(t)とする
感染者は一人あたり、一日に5人と接触する
その5人のうち非感染者は、時点tにおいて、5*(1-p(t))人そのうち20%の人間に移す
なので感染者一人が作る一日の新規の感染者は、0.2*5*(1-p(t))=(1-p(t))人
感染者みんなで作る一日の新規の感染者は、それのp(t)倍に比例する量となる
よって、感染者の増加率は、p(t)(1-p(t))に比例し、dp(t)/dt=Kp(t)(1-p(t))と書ける
dp(t)/{p(t)(1-p(t))}=Kdt、∫dp(t){1/p(t)+1/(1-p(t))}=∫Kdt、ln(p(t))-ln(1-p(t))=Kt+C
ln(1/p(t)-1)=-Kt-C、1/p(t)-1=Aexp(-Kt)、p(t)=1/(1+Aexp(-Kt))、(ただし、A=1/p(0)-1)

また、p(t)に比例した量の死亡者が出ることで感染者の減少分があると考えるなら、
p(t)の増加率は、dp(t)/dt=Kp(t)(1-p(t))-KTp(t)=Kp(t)(1-T-p(t))=と考えて、
dp(t)/{Kp(t)(1-T-p(t))}=dt、dp(t){1/p(t)+1/(1-T-p(t))}/(1-T)=Kdt
ln(p(t))-ln(1-T-p(t))=∫K(1-T)dt=K(1-T)t+C、(1-T)/p(t)-1=Aexp(-K(1-T)t)
p(t)=(1-T)/(1+Aexp(-K(1-T)t)) ただし、A=(1-T)/p(0)-1

913:132人目の素数さん
20/03/28 09:59:49 3DwQ8k4x.net
>>887
>なんとなく雰囲気は分かりました

間違いのもとです

914:132人目の素数さん
20/03/28 10:03:17 NZGOL9Pc.net
雰囲気で学者をありがたる統計信者(笑)

915:132人目の素数さん
20/03/28 19:58:07 UmPDo3qE.net
議論するほど賢くないもので

A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、

なぜここで2530と555900を選んだのかが分からない

916:132人目の素数さん
20/03/28 21:29:42 0Jknegzy.net
95%信頼度で両側に2.5%ずつになる値かと思う

917:132人目の素数さん
20/04/22 23:32:09 2xpQr0fg.net
やっとt検定まで理解できたつもりになった
ちゃんと理解せねば

918:132人目の素数さん
20/04/26 13:41:50.94 gXBBEOS0.net
統計学なんて独学でやってもさっぱりわからんね。
わかったと思っても使わないとすぐ忘れる。

919:132人目の素数さん
20/04/26 17:13:21 oxK12DPO.net
区間推定とか検定とかの考え方は忘れないだろ
具体的な計算方法は調べたりプログラムで実行したりすれば良い

920:132人目の素数さん
20/04/26 20:41:00.48 pzcxYlyC.net
URLリンク(twitter.com)
なぜこんなに事後確率が高くなるんだろう
ベイズの定理って未だに理解できない
(deleted an unsolicited ad)

921:132人目の素数さん
20/04/28 11:32:33 yBKE5vIS.net
>>894
確率が分かってれば応用だろ

922:132人目の素数さん
20/04/28 11:47:56 FGKtvkLj.net
統計勉強してる人はなんのプログラム言語を学習するべき?

923:132人目の素数さん
20/04/28 12:52:43 z4Y/dZK3.net
python
R

924:132人目の素数さん
20/04/28 16:02:51 lEM49v7s.net
1人じゃ進まねえ
学校ってありがたいもんだったな

925:132人目の素数さん
20/04/28 17:36:45.69 ztrrzbj+.net
>>898
プログラムは手段だから実現したいことが簡単になるものを選んだり学んだりしたらいい
とくにないならPythonは情報もモジュールも多いし悪くないと思う

926:132人目の素数さん
20/04/28 17:37:39.47 ztrrzbj+.net
あとPythonでWebサービス実装したりもできるし
一応汎用言語だから

927:132人目の素数さん
20/04/28 18:31:31 Ncn08YEb.net
>>900
俺には時間の無駄の極致だったな

928:132人目の素数さん
20/04/30 13:20:55.48 IPHijBTr.net
有益無益は本人次第

929:132人目の素数さん
20/05/01 12:00:58 nb1D09Me.net
>>900
>>903
俺の先生は、教えるのが下手であるし、
教えるのはめんどくさいという人で、
ホントに全く何も教わってないです。

しかし、他の先生方の勉強会に連れて行って
くれたりしたので、いろんな先生と出会って
結果としてそれが良かったです。

統計関連のいろんな先生に今まで何度も助けてもらったり、いろいろと教わることができました。
というのも、教えて欲しいことは、
壁にぶつかったときのひと言なんです。

自分で必死に考えて、必死に調べてもわからない。

そゆときに先生方に相談すると、
黄金のひと言をいただけるのです。
そうやってなんとか勉強を続けて、
現在に至ります。

自分で全く調べても考えてもいない人には教えても無駄なことが多いので、
考えてから質問する人に教えたいです。

930:132人目の素数さん
20/05/03 16:57:23 rOyG2x6v.net
>>851
>最小二乗法が使い物になるか・・・・・・・・・
収集値の残差分布が正規分布を呈していたら
最小二乗法が使えると判断してよいだろ?

931:132人目の素数さん
20/05/03 17:13:40.85 oOCf+D3d.net
収集値が母集団から満遍なくサンプリングされていることが保証できるならokだが実用上はそんなこと仮定できないことの方が多いだろう
実用化しようとしたら机上で考慮しなかったパターンのデータが侵入してまともに機能しないというのはあるある

932:132人目の素数さん
20/05/03 22:16:23 KIjxj67j.net
それ言っちゃなんもできんがな

933:132人目の素数さん
20/05/04 00:19:36 29QxuROc.net
何もできないなんて誰も言っていない
最小二乗法を使うための前提が成立しないのに最小二乗法は使えないぞと言っているだけ
別の方法を検討すればいい

934:132人目の素数さん
20/05/04 15:21:29.87 jDRWX2Ph.net
3月の宿題で(1)のみ正解の数弱@shukudai_sujaku
昨年度の大学への数学(大数)での勝率は、
学コンBコースが 1/1 = 100% ,
宿題が 3/10 = 30% でした!
宿題の勝率が低すぎると思うので、
これからは一層精進していきたいです!
URLリンク(twitter.com)
(deleted an unsolicited ad)

935:132人目の素数さん
20/05/08 18:49:49 u87MCJWT.net
仕事でつかえるかもと思い統計学を勉強中のものですが、
以下の問いがまったくわからないので教えてください。

YesかNoで答える質問で、以下のような回答データがある。
2010年 20% n=100
2011年 30% n=120
2012年 23% n=80
2013年 25% n=150
2014


936:年 10% n=100 この時、2014年の回答に対し、 「たまたまだ」「何か原因があるはずだ」 のどちらかの判断を下したいとき、どのように導けばよいか。 標本検定で母平均?母分散の比?を検定すればよいのか、 過去のデータから確率の理論値を出してカイ2乗検定をするのか、 そもそも統計学で結論を出すべき問題ではないのか・・・



937:132人目の素数さん
20/05/08 21:59:24 1eCSLYeq.net
>>911
母比率の信頼区間かな
95%信頼度でも99%でも有意差があると思う

938:132人目の素数さん
20/05/08 22:05:46 YIfAlxBg.net
テューキーの多重比較

939:132人目の素数さん
20/05/08 22:09:52 YIfAlxBg.net
>>912
各年を独立な観測とするならp値を修正する必要がある

940:132人目の素数さん
20/05/08 22:24:07 1eCSLYeq.net
2014年の信頼区間を求めて他の値がその区間に含まれるかどうかでよくないか?

941:132人目の素数さん
20/05/08 23:00:50.85 YIfAlxBg.net
k群の個々同士で有意水準αで検定したら
1-(1-α)^(kC2)=1-(1-0.01)^(5c2)=0.096の確率で帰無仮説を棄却することになる
この補正方法には何種類かあってどれを使うかは検出力次第
あとテューキーは等分散仮定しないとだめか

942:132人目の素数さん
20/05/08 23:13:29.64 1eCSLYeq.net
>>916
分散分析の方が良くないか?
2014年の結果が有意差あるかどうかを知りたいだけだから
2014年の母比率の信頼区間に他の年の結果が入るかどうかで良くない?
ダメな理由は?

943:132人目の素数さん
20/05/08 23:51:11 I8M8FBD6.net
ANOVAは全体として等平均性があるか検定してるけど1群だけ異なっているケースは棄却されにくい
そして特定の群だけに注目して他の群を見なかったことにするのは多重比較を前提にした実験で一番やってはいけないこと

944:132人目の素数さん
20/05/09 00:00:16 dCAy3uxZ.net
「2014年は他と差がありそう」っていうのはあくまで結果を見るまで分からないというのが統計のスタンス
それを調べるには全通り調べるしかない

945:132人目の素数さん
20/05/09 00:10:23 sHvoXVnK.net
>>919
で、具体的にどうやって検定したらいいの?
2014年と2013年の場合は?
2014年と2012年の場合は?
最終的にどう修正してどんな結果になる?

946:132人目の素数さん
20/05/09 00:27:57 dCAy3uxZ.net
多重比較とか比率の差の検定で調べればすぐに見つかる

947:132人目の素数さん
20/05/09 00:37:15 sHvoXVnK.net
>>921
結果は?
他の年と比べて誤差とは言えない有意な差がある?

948:911
20/05/09 01:36:05 gSOud7OB.net
みなさんありがとう。
私は過去4年の平均だして、有意水準95パーセントで区間推定して、その最小値を確率の理論値としてカイ2乗検定してみたんだけど、全然違うみたいだね。

教えていただいたキーワード調べてみます。

949:132人目の素数さん
20/05/10 15:16:21 gRX6XcIe.net
>>870
2月初めのダイプリ号報道以来新型コロナウイルス感染問題
一色になり当数学板にも新型コロナウイルス感染数理に特化
した以下スレが2/29に新設されていますね。
数学 統計に詳しい人が語るコロナウイルス
スレリンク(math板)

950:132人目の素数さん
20/05/16 03:41:44 awnDvamU.net
基準群Nと刺激群A,B,Cがあって,
基準群とA,B,Cそれぞれの組に違いがあるかをフィッシャーの正確確率検定で比較しようとしているのだけど,
この場合普通にN-A,N-B,N-Cを2つずつ比較してしまって構わないのかな?
それともこれらをやったあとに多重比較の補正を行う必要があるのかしらん?

951:132人目の素数さん
20/05/16 11:10:25 BzZNoWVh.net
>>925
フィッシャーの正確確率検定をどう適用する?
URLリンク(ja.m.wikipedia.org)フィッシャーの正確確率検定
2×2分割表みたいにすると思うけど
何を行に割り当てて
何を列に割り当てる?

952:132人目の素数さん
20/05/16 14:23:38 awnDvamU.net
>>926
心理的な評価内容で,行に群(N,A,B,C)を振って,列に選択した行動3種類(X,Y,Z)を振り,各セルに選択した人数を入れて適用しようとしてます
3×3の分割表ですね

953:132人目の素数さん
20/05/16 14:24:17 awnDvamU.net
3×3じゃないや,2×3か4×3の分割表かな

954:132人目の素数さん
20/05/16 19:22:20 BzZNoWVh.net
>>927
それで何が判るの?
最初に書いていたものと違うものが判るような気がするけど

955:132人目の素数さん
20/05/16 21:30:16 91NtAzyJ.net
>>929
妥当そうに見えるけど、間違ってるのか?

956:132人目の素数さん
20/05/16 22:01:49 BzZNoWVh.net
>>930
N,A,B,Cの結果に差がある事を確認したいのが元の目的
それを確認できるかな?

957:132人目の素数さん
20/05/16 23:38:25 awnDvamU.net
>>931
できないんですかね?もしかして私フィッシャーテストを勘違いしてる?

958:132人目の素数さん
20/05/22 06:22:09 CccJC99t.net
>>932
フィッシャーテスト?
実験計画法使ってますか?
スレリンク(sim板)

959:132人目の素数さん
20/07/07 13:10:46 CNs2wBlh.net
ガンマ分布関数の最頻値の確立変数を求めたいんだけど
最頻値の値は、式が見つかるんだけど
そのX座標みたいなものの式が見つからないんだよね

960:132人目の素数さん
20/07/07 13:25:28.81 CNs2wBlh.net
計算したら、
x=exp(log(a-1)/a-2))
になった。なるほど

961:132人目の素数さん
20/07/07 13:33:53 CNs2wBlh.net
違った

x=exp(log((a-1)Xb)/a-2))

だった。なるほど

962:132人目の素数さん
20/07/07 13:45:00.91 CNs2wBlh.net
間違っていた
b(a-1)
だった、聞くまでもなった

963:132人目の素数さん
20/07/10 20:28:26 ocJiF1i7.net
真面目かっ

964:132人目の素数さん
20/07/12 00:35:05 Q+EVygQj.net
普通に微分するだけやん

965:132人目の素数さん
20/07/19 23:40:40.77 EQ49CF6w.net
「異端の統計学ベイズ」が面白かった
こんな別世界があったなんて気づかなかった

966:132人目の素数さん
20/07/25 18:04:42.56 51B6JAyF.net
>>940
ベイズは異端でもなんでもないです
普通にデータ分析すればベイズになります
そういうタイトルを付ければ
釣られて本買うアホがいる
ということです

967:132人目の素数さん
20/07/26 01:19:01 zHu+NBBN.net
頻度論 VS ベイズみたいな構造で別物として考えようとする限りベイズを理解できているとは言えないだろうな

968:132人目の素数さん
20/07/26 04:15:28 2QCnkYEJ.net
>>941
歴史を知らない知ったかぶりのバカw

969:132人目の素数さん
20/07/26 11:50:07.18 7dVh5Mc5.net
ベイズを理解できなかった人の成れの果てのような記事
島根県の事例からも数字で明らかになる「検査をすると患者が増える」説のデタラメさ
URLリンク(hbol.jp)
>島根県、陽性者発生と大規模検査をベイズ推定で検証!

970:132人目の素数さん
20/07/26 12:03:13.28 bwMDUrJ9.net
>>943
お前がバカ過ぎるの
笑えるぐらいバカw

971:132人目の素数さん
20/07/26 12:06:32.17 bwMDUrJ9.net
このスレって初心者しかいないんだねえ(笑)
「ベイズってスゲーッ!」って
書けばいいの?(笑)
じゃベイズってなんだよ?
本読んで勉強したんだろ?(笑)
>>943はベイズを説明してみな。
できないだろうな
バカだからね(笑)

972:132人目の素数さん
20/07/26 16:43:23.50 2QCnkYEJ.net
>>945,946
悔しくて2連投。涙ふけよww
バカと言われた返しがこれ↓
>「ベイズってスゲーッ!」って
バカ丸出し。やはりただの知ったかぶりだったな
お前はこのスレで1番の知ったかぶりのバカと認定してやるよw
「お前が知ったかぶりかつバカである」という仮定の事前


973:確率は0.9だったが お前のレスで事後確率は、0.9999999になったw



974:132人目の素数さん
20/08/06 14:33:33 1/AtprVO.net
>>784
自分も気になってたから自分なりにまとめてみた

まず同じ確率分布を持つ変数x_iたちのどんな2次形式の平均値も元の確率分布の平均μと分散σ^2を使って書ける
実際、ベクトル表記x=(x_i)∈R^nと行列A∈M_n(R)を使って
一般に2次形式はx^tAxと書けるが、その平均E[x^tAx]は
σ^2tr(A)+μ^2(Σ_i,jA_ij)と計算できる
σ^2だけを得たい(σ^2の不偏推定量がほしい)のであれば
2項目つまりΣ_i,jA_ijがゼロであればよい
例えば、 Aが(1,1,…,1)に垂直な(n-1)次元超平面への射影行列であれば満たされる
この時、σ^2の係数であるtr(A)は(n-1)となる
(射影行列のトレースは像空間の次元に一致する)
こうしてE[x^tAx]=(n-1)σ^2を得る
同じように
一般にAが(1,1,…,1)に垂直な(n-k)次元超平面への射影行列であれば、E[x^tAx]=(n-k)σ^2を得る
多重線形回帰はこの射影する次元をパラメータを推定することで下げてると見ることができる

しかしσ^2の不偏推定量がほしいだけであればΣ_i,jA_ij=0であるどんな2次形式x^tAxを使ってもいい
そのときσ^2の係数はtr(A)だけズレる

975:132人目の素数さん
20/08/06 15:14:03.41 1/AtprVO.net
>>948
補足
標本の分散をn倍したものΣ(x_i-(Σx_k)/n)^2は
A=I-1/nP(Iは単位行列、Pは全ての成分が1の行列)を使って
x^tAxという2次形式になっている
この行列Aは対称かつ冪等なので射影行列であり
(1,1,…,1)に垂直な(n-1)次元超平面への射影になっていて
実際トレースは(n-1)である

976:132人目の素数さん
20/08/07 20:11:02 ptGcwOri.net
>>948
計画行列から射影行列を計算して二次形式の期待値を計算すれば(n-1)σ^2が求まるということですか?

977:132人目の素数さん
20/08/07 20:16:03 ptGcwOri.net
というか射影される次元はrank(A)に依存するか

978:132人目の素数さん
20/08/11 02:43:32 O8s6arxs.net
検定やら回帰分析は統計学でカバーしているが,
機械学習はクラスタリングや決定木とか、統計学の範囲を超えた部分もあるので,
そこらへんは機械学習使わんといかんと思います。

979:132人目の素数さん
20/08/11 12:57:02.48 vIooQgP1.net
誰かわかる?
TOEICみたいな英米の選択式試験て素点をスケーリングしてスコアにすることがほとんどだけど
英医学部適性試験UCATの資料みると
昨年の試験のある部分
素点平均21.27標準偏差5.78最高39
最高のZ値=(39-21.27)/5.78=3.06...
300から900にスケーリングするってんだが、結果
平均557.5標準偏差74.21最高890
最高のZ値=(890-557.5)/74.21=4.48...???
英米のこの手の換算かなり見たけど
おおざっぱではあってもほぼ線形
Z値ほぼ変わらない
しかし
この結果
いったいどういうスケーリングしたんだろ?
まったく想像できない

980:132人目の素数さん
20/08/11 18:24:30.58 FOYNfiZF.net
>>953
少なくとも、線形でスケーリングするなんて今時どこもやっていない。
たまたま数字が合っただけかと。

981:132人目の素数さん
20/08/11 19:26:42 vIooQgP1.net
偏差値は?
平均50
標準偏差10
線形スケーリング

982:132人目の素数さん
20/08/11 19:31:57 vIooQgP1.net
URLリンク(collegedunia.com)
上と下はあやしいが
ほぼ線形
英米ってなんでこうすんだろう
SATとかIQテストもこういうの多い
変換後5とか10きざみ
ある程度以上だと変換後スコア同じ
ある程度以下だと変換後スコア同じ
ってのがよくある

983:132人目の素数さん
20/08/12 17:14:06 981ZzhAP.net
選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる

984:132人目の素数さん
20/08/12 17:14:07 981ZzhAP.net
選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる

985:132人目の素数さん
20/08/22 00:20:07.51 PIye8TW8.net
そうなんだ

986:132人目の素数さん
20/08/24 05:50:54.16 KEAGmUNo.net
この問題分からないから誰か教えてくれ

不偏推定量と有効推定量についての問題
母平均μ(≠0)が分からない母集団分布から無作為抽出された標本X(1)、X(2)、X(3)、X(4)をとる。母分散は12である。
(1)母平均μの3つの推定量
T(1)=(X(1)+X(2)+X(3)X(4))/4
T(2)=(X(1)+2X(2)+2X(3)X(4))/6
T(3) =(X(1)+X(2)+X(3)X(4))/3
の中でどの推定量が不偏推定量であるか
(2)3つの推定量の中でどれが最も有効な推定量であるか

987:132人目の素数さん
20/08/24 06:27:12 ByIpMOCk.net
>>960
誤字ってないか
X(3)とX(4)の間に+がないとどれも不偏推定量にならん気が

988:132人目の素数さん
20/08/24 06:38:02 KEAGmUNo.net
>>961
誤字ってました。すいません

T(1)=(X(1)+X(2)+X(3)+X(4))/4
T(2)=(X(1)+2X(2)+2X(3)+X(4))/6
T(3) =(X(1)+X(2)+X(3)+X(4))/3

ですね

989:132人目の素数さん
20/08/24 07:34:13.35 ByIpMOCk.net
一括してT=aX(1)+bX(2)+cX(3)+dX(4)とおいて計算する
T(1)のとき、a=1/4,b=1/4,c=1/4,d=1/4
T(2)のとき、a=1/6,b=2/6,c=2/6,d=1/6
T(3)のとき、a=1/3,b=1/3,c=1/3,d=1/3
X(i)の期待値はE[X(i)]=μ
X(i)X(j)(i≠j)の期待値はE[X(i)X(j)]=E[X(i)]E[X(j)]=μ^2
X(i)^2の期待値はE[X(i)^2]=σ^2+μ^2=12+μ^2
である
(1)
Tがμの不偏推定量であるためにはTの期待値E[T]がμと一致しなければならない
E[T]=E[aX(1)+bX(2)+cX(3)+dX(4)]
=aE[X(1)]+bE[X(2)]+cE[X(3)]+dE[X(4)]
=aμ+bμ+cμ+dμ=(a+b+c+d)μ
よって(a+b+c+d)=1となっているT(1)とT(2)が不偏推定量である
(2)
Tが最も有効となるのはTが不偏かつその分散E[(T-E[T])^2]が最も小さくなるときである
E[(T-E[T])^2]=E[T^2]-E[T]^2
= E[(aX(1)+bX(2)+cX(3)+dX(4))^2]-((a+b+c+d)μ)^2
=a^2E[X(1)^2]+b^2E[X(2)^2]+c^2E[X(3)^2]+d^2E[X(4)^2]2abE[X(1)X(2)]+…+2cdE[X(3)X(4)]-((a+b+c+d)μ)^2
=(a^2+b^2+c^2+d^2)σ^2
=12(a^2+b^2+c^2+d^2)
となるので、結局a~dの平方和が最も小さいものが最も有効となる
この平方和はT(1)では1/4、T(2)では5/18となる
よって、T(1)がこの中で最も有効である

990:132人目の素数さん
20/08/24 07:47:11.91 KEAGmUNo.net
>>963
本当にありがとうございます。感謝しかないです。

991:132人目の素数さん
20/08/25 02:12:44.78 N98fFl99.net
カシオのWebアプリClassPad.net
URLリンク(youtu.be)
手書きの図をきれいに出力してくれたり
ユーザー定義関数を使えるのがいいね

992:132人目の素数さん
20/08/25 18:47:05.05 LqiSh/C2.net
よいですね

993:132人目の素数さん
20/08/26 10:35:32.62 8ae+cQFx.net
統計は教養ですね

994:132人目の素数さん
20/08/26 14:04:21.29 Ocbo+ot2.net
質問なのですが、最近GNIの統計を調べていたんですが、国連の統計で2018年の2年前までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、GNIの統計データが2017年になっていて、なるほど2年前のデータです。
なぜ1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。

995:132人目の素数さん
20/08/26 14:06:18.71 Ocbo+ot2.net
質問なのですが、最近GNIの統計を調べていたのですが、国連の統計で2年前の2018年までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、載っているGNIの統計データが2017年になっていて、なるほど2年前のデータです。
1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。
(日本語がおかしかったので修正しました)

996:132人目の素数さん
20/09/01 19:28:27 2qjbTlF5.net
2830
学コン・宿題ボイコット実行委員会@gakkon_boycott 9月1日
#拡散希望
#みんなで学コン・宿題をボイコットしよう
雑誌「大学への数学」の誌上で毎月開催されている学力コンテスト(学コン)と宿題は、添削が雑で採点ミスが多く、訂正をお願いしても応じてもらえない悪質なコンテストです。(私も7月号の宿題でその被害に遭いました。)このようなコンテストに参加するのは時間と努力の無駄であり、参加する価値はありません。そこで私は、これ以上の被害者を出さないようにするため、また、出版社に反省と改善を促すために、学コン・宿題のボイコットを呼び掛けることにしました。少しでも多くの方がこの活動にご賛同頂き、このツイートを拡散して頂ければ幸いです。
URLリンク(twitter.com)
(deleted an unsolicited ad)

997:132人目の素数さん
20/09/11 22:16:44.90 TPAXeVgK.net
2.0 4.9
12.7 28.4
0.7 2.3
5.4 11.9
0.9 8.9
3.9 13.9
6.2 26.5
31.3 47.2
26.5 37.0
9.2 26.4
10.1 27.3
5.7 19.8
21.9 ?
左の列の数字の時に右の列の数字が出るとして、
?が30以上になる確率を求める方法が知りたいです。
エクセルのFORECAST関数で36.67くらいになりそうだということまでは分かったのですが。
(左が予備校生のうち試験で成績が悪かった人の割合%、
右が試験受験者全体のうち試験で成績が悪かった人の割合%です。
予備校生のデータから未発表の全体の割合が30%を超える確率が知りたいです。)

998:132人目の素数さん
20/09/16 17:43:09.30 FMyxTy7q.net
ExcelのMINVERSEって
内部でやってるのはLU分解でしょうか?

999:132人目の素数さん
20/10/06 01:59:45.02 lsvBhfOa.net
逆行列を返すからLU分解してんのかもな
途中の処理を知ってどうするの?

1000:132人目の素数さん
20/10/12 17:31:41.82 8cn/otD4.net
こちらの論文をもとにサンプルサイズを計算したいのですが、式5(ミュー>0
のとき)を使って計算しても再現できないのです。この論文の式、間違っていると思われるのですが、正しい式わかりました(導出できる方いました)ら、お教え下さい。
URLリンク(www.degruyter.com)

1001:132人目の素数さん
20/10/16 10:31:52.88 qga+Q3cK.net
統計学の初心者です。
セミコロンの意味について教えてください。
最尤推定量の説明の中に、
L(Θ;x) = f(x;Θ)という説明がでてきたのですが、
数学において(少なくともピュアマスでは)
セミコロンがこのような場所で使われたことを見たことがありません。
なので統計学特有の使い方と思いますが、
説明がありません。
(統計学者にとっては常識???)
どういう意味かわかるかたいましたら教えてください。

1002:132人目の素数さん
20/10/16 12:51:32.85 kt7nYwS3.net
条件付き確率の事だと思うけど
|を使う書き方と同じじゃないかな?
違いがあるのかな?

1003:132人目の素数さん
20/10/16 16:02:36.64 ujcxTA5a.net
統計では普通に使う
単純にセミコロンの後はパラメータを書いているだけ


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch