統計学Part17 [無断転載禁止]©2ch.net

学術 · 2018/09/19(水) 12:03:01.01

統計三世。ルパンナポレオンより最強の（血）統系。

**１３２人目の素数さん** · 2018/10/14(日) 16:10:05.84

3個中1個が当たりのものがある。これを被験者6人中5人が当たりを引いた。
このとき、被験者は有意水準１％で当たりがわかるとは言えないが、有意水準５％で当たりがわかると言える。
ただし(1/3)^6=0.0014とする。

これ6C5*(1/3)^6+6C6*(1/3)^6＝0.0096で１％を下回るんじゃないの？
納得できないんだけど教えて偉い人

学術 · 2018/10/14(日) 19:03:49.48

確率を検証して当たる確率出すなんてナンセンスだよね。賭け事は進んでいて
意外性が在る乱数になるから、何か見えないものが働いていることが数学ではよくわからない。そしてタロットも然り。同じ確率なんだけど、
運命を感じるというのも変な話で。矛盾しているよね。気持ちと心が。

**１３２人目の素数さん** · 2018/10/22(月) 11:52:44.19

練習問題の解法を教えてください。基本統計学第4版（有斐閣）の6章の問題です。

41）1つのサイコロを1,000回投げたとき、1の目が180回以上出る確率と、1の目が140回以上200回以下出る確率を求めよ。
本の答えは、0.1379と0.9875です。以下のように計算してるのですが、答えがあいません。

前段の問題
n=1000,p=1/6の2項分布を正規分布で近似して求めた。μ=1000*1/6、σ^2=1000*1/6*5/6としてN(1000/6, 5000/36)を使う
(180－1000/6)/(sqrt(5000)/6)=80/sqrt(5000)=1.1313 －>正規分布の上側確率表より【0.12924】

後段の問題
Pr(140≦x≦200)で計算する
(140－1000/6)/(sqrt(5000)/6)=－160/sqrt(5000)=－2.2627 －>正規分布の上側確率表より0.011911
(200－1000/6)/(sqrt(5000)/6)=200/sqrt(5000)=2.828 －>正規分布の上側確率表より0.0023274
1－0.011911－0.0023274=【0.9857】

【】が自分で計算した答えです。計算式のどこかで間違えているのはずなのですが、自分では気付くことができません。
よろしくお願いします。

**１３２人目の素数さん** · 2018/10/22(月) 15:38:07.09

z=(179.5-1000/6)/sqrt(5000/36)=1.08894...→1.09
z=1.09に対する分布表の値は.3621なので、0.5からこれを引いて0.1379

z1=(200.5-1000/6)/sqrt(5000/36)=2.87085...→z=2.87
z=2.87 に対する分布表の値は　0.4979
z2=(139.5-1000/6)/sqrt(5000/36)=-2.30517...→z=2.31
z=2.31 に対する分布表の値は　0.4896
これらの和は0.9875

「180回以上出る確率」の相反事象は「179回以下出る確率」なので、
179.5を境界にするのが妥当だということと、教わった手順に従って、
「適当」な場面で四捨五入を行い、数表を用いると、
テキスト通りの値に行き着くようです。

**１３２人目の素数さん** · 2018/10/23(火) 13:31:34.14

ありがとうございました。離散数値での確率密度関数の使い方がわかりました。

**１３２人目の素数さん** · 2018/10/30(火) 21:09:05.91

ちょいとすみません。わからないところがあってここにたどり着いたズブの素人なのですが、よければ教えてください。
標準偏差て平均が基準値なんですよね？
平均じゃなくて、ある値(カットオフ値)を基準にしてそこからバラつきがどんなものか調べたい時は、計算方法は標準偏差と同じで平均値をカットオフ値に置き換えたらいいのでしょうか？
ネットで調べても平均値で計算、ばかりでわからなかったです

**１３２人目の素数さん** · 2018/11/20(火) 22:09:26.70

Wolframに入力してみました。

https://www.wolframalpha.com/input/?i=sum%5Bchoose(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+180+to+1000%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 180 to 1000]
sum_(n=180)^1000 ((5/6)^(1000 - n) binomial(1000, n))/6^n
=0.138430864995663940543635063874277127250218037792364115557...

https://www.wolframalpha.com/input/?i=sum%5Bchoose(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+140+to+200%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 140 to 200]
sum_(n=140)^200 ((5/6)^(1000 - n) binomial(1000, n))/6^n =
=0.988113644388740861240108592472945211524447200450991732557...

**１３２人目の素数さん** · 2018/11/29(木) 23:38:51.95

九州大学大学院数理学府数理学専攻数理学コース問題と解答
基礎科目4題(150分) 専門科目2題(120分) 口頭試問 ※英語は課さない
https://www.dropbox.com/sh/vx4soup3t782d91/AAD4Izg4yNB-8jXUmkUSftO_a?dl=0

**１３２人目の素数さん** · 2018/12/04(火) 22:30:12.09

>>576
亀レスだけど、ランの検定(連の検定)
https://i.imgur.com/P6UhJlr.png
https://i.imgur.com/4hFQYwF.png
https://i.imgur.com/Khhp9Tg.png

**１３２人目の素数さん** · 2018/12/16(日) 11:35:51.85

重回帰分析で交互作用を検討?交互作用が予想される問題に
適用すべきは、実験計画法（分散分析）ではないのか?
重回帰分析で交互作用を検討する　　Posted on 2014年1月31日　
http://norimune.net/1733

**１３２人目の素数さん** · 2018/12/25(火) 20:38:41.41

この名大のように先端医療開発部門に生物統計とバイオインフォマティクスを
抱える統計解析室という組織があるのは、他所のの医学部でも通常なのかな?
医学部で生物統計というと新薬の薬効の統計的検定ということか?
また統計解析室長を木下文恵某とかいう若手の助教が担うのも通常なのかな?
名古屋大学医学部附属病院　先端医療開発部　先端医療・臨床研究支援センターの体制　
統計解析室－－生物統計・バイオインフォマティクス
http://www.nu-camcr.org/cms/center_index/center_staff/

**１３２人目の素数さん** · 2018/12/27(木) 00:12:12.23

例えば、母集団から50枚の答案用紙を選んで、平均が
60点だとする。母集団は2500枚の答案用紙から成り立っているとして、平均は70点とする。このとき50枚の答案用紙をランダムに選んだかの検定はどの

ようにすればいいでしょうか。（つまり60点の平均点が低いので、ランダムに選んだかどうかを疑っているわけです。）

**１３２人目の素数さん** · 2018/12/30(日) 08:45:37.63

>>646
EXCELの分析ツールは良くないというのは、統計専用ソフトと
出力値が合わないからですか?
お薦めの統計専用ソフトは、どれどれですか?

学術 · 2018/12/30(日) 12:25:34.69

方程式に代入する速度はパソコンじゃ無理なんだろうか？そうでもないらしいね。

**１３２人目の素数さん** · 2018/12/30(日) 15:39:18.16

こんなグラフの2つの系列に対する有意差検定ってどうすればいいでしょうか。
ttps://benesse.jp/teikitest/_resource/img/kou/science/k_sc_619_6.png
実際には2つの系列はそれぞれ複数の結果があります。

**１３２人目の素数さん** · 2018/12/31(月) 12:28:26.71

>>676
母集団のバラツキが大きいならランダムに選んだと言えるかもね。
母集団の分布をどう仮定するかによるんじゃね。

**１３２人目の素数さん** · 2018/12/31(月) 23:33:19.06

>>676
母集団は正規分布としてシミュレーションしてみた。
母分散が43点程度であれば標本平均が60点以下になる確率が5%を越える。

> f= function(sig){
+ x=scale(rnorm(2500))*sig + 70
+ mean(replicate(1e3,mean(sample(x,50)))<=60)
+ }
> f=Vectorize(f)
> f(1:100)
[1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
[13] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001
[25] 0.002 0.002 0.003 0.003 0.005 0.006 0.010 0.018 0.017 0.017 0.013 0.021
[37] 0.029 0.026 0.029 0.041 0.035 0.037 0.057 0.054 0.058 0.076 0.059 0.060
[49] 0.063 0.068 0.080 0.074 0.077 0.086 0.098 0.092 0.114 0.096 0.110 0.098
[61] 0.115 0.115 0.133 0.122 0.141 0.118 0.139 0.157 0.170 0.153 0.182 0.165
[73] 0.171 0.154 0.167 0.175 0.163 0.174 0.178 0.174 0.196 0.205 0.204 0.211
[85] 0.206 0.205 0.217 0.212 0.235 0.218 0.189 0.230 0.232 0.215 0.221 0.246
[97] 0.217 0.228 0.216 0.248
>

**１３２人目の素数さん** · 2018/12/31(月) 23:34:50.72

>>679
同一濃度での反応速度データがあるならpaired t-test で検定できるのでは。

**１３２人目の素数さん** · 2018/12/31(月) 23:58:42.47

>>665
6C5*(1/3)^5*(2/3)+6C6*(1/3)^6= 0.01783265

**１３２人目の素数さん** · 2019/01/01(火) 01:14:20.00

>>682
x軸の値を実験の設定値にすれば同一ですが、測定値で補正してるので厳密には同一になりません。
散布図のプロットを繋いだような系列では難しいですね。
もしx軸を設定値としてpaired t-testする場合、レプリケートの扱いは各測点で平均化すればいいでしょうか。
それとも検定結果を平均化する方法が有るのでしょうか。

**１３２人目の素数さん** · 2019/01/01(火) 07:21:45.66

>>681
訂正
×母分散が43点程度
○ 母集団の標準偏差が43点程度

**１３２人目の素数さん** · 2019/01/01(火) 07:42:07.71

>>684
阻害剤の添加による反応速度の変化＝0が帰無仮説の検定
なので両端のデータが多いと有意差なしになるだろうね。
この例での有意差検定の意味がわからなくなってきた。

**１３２人目の素数さん** · 2019/01/01(火) 14:03:25.77

>>686
専用の検定が無いとなると確かに両端に影響されますね。
有意差の数値化は諦めてグラフから説明するしかないかもしれませんね。

**１３２人目の素数さん** · 2019/01/03(木) 05:08:06.81

https://i.imgur.com/BHgxjYD.png
帰無仮説、対立仮説に関する質問です。

・３つのグループの標本は同じ母集団から得られたものである。○か×か？
どちらなんでしょう。
初学者なため、自分でも何を言いたい質問なのか分かりませんが、お答えいただければ幸いです。

**１３２人目の素数さん** · 2019/01/03(木) 12:53:01.61

>>688
×

**１３２人目の素数さん** · 2019/01/03(木) 12:59:00.73

>>688
F分布を書くとこんなかんじ

https://i.imgur.com/sJWogIE.png

**１３２人目の素数さん** · 2019/01/03(木) 13:43:39.06

>>688
宿題かい？

**１３２人目の素数さん** · 2019/01/03(木) 16:24:30.86

>>689-690
×なんですね。お返事ありがとうございます
それも画像付きで…感謝の極みです

>>691
Odyssey主催のビジネス統計スペシャリスト（上級）という資格試験の勉強中でして…
ベーシックに合格できたのでスペシャリストの方も取ろうと思ったら内容が一気に難しくなり、
恥ずかしながら独学でどうしても分からない所が出てきたので質問させていただきました

**１３２人目の素数さん** · 2019/01/03(木) 17:27:28.50

>>692
統計検定二級あたりの教科書で一通り手法は知っといた方がいいかもね。無料がいいなら統計WEBとかもあるし。

まあ、でも、問題に複数の会社名が出てきてる時点で同じロット（母集団）とは言えないんじゃ？と思ったけど。

**１３２人目の素数さん** · 2019/01/03(木) 17:45:10.89

>>688
生データなしで計算すると

> ## m sd n
> A=c(159.0625,sqrt(3924.729167),16)
> B=c(240,sqrt(22027.5),17)
> C=c(366.35,sqrt(5329.292105),20)
>
> lh=rbind(A,B,C)
> colnames(lh)=c("m","sd","n") ; lh
m sd n
A 159.0625 62.64766 16
B 240.0000 148.41664 17
C 366.3500 73.00200 20
> mean.G=sum(lh[,"m"]*lh[,"n"])/sum(lh[,"n"])
> SS.bit=sum((lh[,"m"]-mean.G)^2*lh[,"n"])
> SS.wit=sum(lh[,"sd"]^2*(lh[,"n"]-1))
> df.bit=nrow(lh)-1
> df.wit=sum(lh[,"n"]-1)
> MS.bit=SS.bit/df.bit
> MS.wit=SS.wit/df.wit
> (F.ratio=MS.bit/MS.wit)
[1] 19.28831
> pf(F.ratio,df.bit,df.wit,lower.tail=FALSE)
[1] 6.18406e-07
> (η2=(SS.bit)/(SS.bit+SS.wit))
[1] 0.4355169

**１３２人目の素数さん** · 2019/01/03(木) 18:05:15.25

どの２つが別の母集団かを検定すると

> pairwise.t.test(x,g,p.adjust='holm')

Pairwise comparisons using t tests with pooled SD

data: x and g

A B
B 0.02596 -
C 4.5e-07 0.00083

P value adjustment method: holm

**１３２人目の素数さん** · 2019/01/05(土) 21:27:56.85

Zが標準正規分布に従う時、次の値を求めよ。
１：P｛Z＞u1｝＝0.05を満たすu1の値　→　u1=1.645
２：P｛Z＜u2｝＝0.005を満たすu2の値　→　u2=-2.576
３：P｛-u3＜Z＜u3｝＝0.99を満たすu3の値　→　u3=2.576

Xが正規分布N（10, 5^2）に従う時、次の確率を求めよ。
１：P｛X＞20｝　→　0.0228
２：P｛X＜5｝　→　0.1587
３：P｛0＜X＜20｝　→　0.9544

途中式：https://i.imgur.com/mJcxOKQ.png
※P｛X＞20｝は 0.0028 じゃなくて 0.0228 の間違い。
━━━━━━━━━━━━━━━
Excelスレで質問したのですがスレチと言われたのでここで質問させて下さい。
上の６つの問題を標準正規分布の数値表を用いずに、
Excelの関数で求めたいのですが関数式を教えていただければ幸いです。

**１３２人目の素数さん** · 2019/01/05(土) 22:04:26.80

>>696
これを見た統計学スレの方々が答えてくれたのかはわかりませんが、
このレスの後すぐに関数式を教えていただけました。ありがとうございました！

**１３２人目の素数さん** · 2019/01/06(日) 08:18:40.95

>>697
NORMINV, NORMDIST

**１３２人目の素数さん** · 2019/01/06(日) 09:53:57.32

>>696
Excelスレで質問？
数学板上のソフトスレは、以下しかない筈だが？
理工系分野手法操作も扱うExcelスレは、何処板に？
【R言語】統計解析フリーソフトＲ第6章【GNU R】 [無断転載禁止]©2ch.net
http://rio2016.2ch.net/test/read.cgi/math/1501755792/
統計ソフトSTATAの部屋 Ver.2
https://rio2016.2ch.net/test/read.cgi/math/1284083650/
グラフから読み取る統計学の基本入門 [無断転載禁止]©2ch.net
http://rio2016.2ch.net/test/read.cgi/math/1497075809/

**１３２人目の素数さん** · 2019/01/06(日) 14:40:18.34

Zが標準正規分布に従う時、次の値を求めよ。
１：P｛Z＞u1｝＝0.05を満たすu1の値　→　u1=1.645
２：P｛Z＜u2｝＝0.005を満たすu2の値　→　u2=-2.576
３：P｛-u3＜Z＜u3｝＝0.99を満たすu3の値　→　u3=2.576

qnorm(0.05,lower.tail = FALSE)
qnorm(0.005,lower.tail= TRUE)
qnorm((1-0.99)/2,lower.tail=FALSE)

Xが正規分布N（10, 5^2）に従う時、次の確率を求めよ。
１：P｛X＞20｝　→　0.0228
２：P｛X＜5｝　→　0.1587
３：P｛0＜X＜20｝　→　0.9544

1-pnorm(20,10,5)
pnorm(5,10,5)
pnorm(20,10,5)-pnorm(0,10,5)

**１３２人目の素数さん** · 2019/01/08(火) 14:30:28.74

散々ググってもわからなかったので、教えてください。
どこか間違ってるんだが、どこかわかりません。

検定の際にα＝５％　β＝２０％、右側検定（母集団の平均測定）として、
なぜ、確率の場合分けで足し合わせるように
H0となる確率＝（１－α）/(1-α+β)　　　H１となる確率＝（1-β）/(1-β＋α)
ではなく

いきなり、H０の第2種の過誤＝β＝２０％、H１第1種の過誤＝α＝５％なのでしょう。
そもそもμ０とμが１：１の確率で起こる前提だと、確率の場合分けができますが、前提が違うのでしょうか。

H０ならば測定値ｘバーはZcrit 以下に９５％分布している（はず）、よってH０をrejectできない。
でもそれが間違っている確率はβ＝２０％よ、というのがピンときません。。。

**１３２人目の素数さん** · 2019/01/10(木) 20:50:46.14

＞間違っている確率はβ＝２０％よ

というのは正しくないよ。

棄却　　棄却しない
H0 A B
H1 C D

α=A/(A+B)
β=D/(C+D)

β=D/(B+D)ではないよ。

ちなみに
A/（A+C)はFalse　Positive Report ProvbabilityとかFalse Positive Rateとか呼ばれる

**１３２人目の素数さん** · 2019/01/10(木) 22:24:03.86

平均値と中央値の差の絶対値が標準偏差以下であることを示して欲しいです。よろしくお願いします。

**１３２人目の素数さん** · 2019/01/10(木) 22:55:32.84

>>688,692です。
https://i.imgur.com/KQMCk5P.png
質問に答えてくださった方々のお力で資格試験に無事合格できました。
このスレにいる統計学の専門者の方々から見たら、
「おいおいそんな見たことも聞いたことも無いうんちな資格取ってどーすんだ？ｗ」と思われるかもしれませんが、
単に、お礼を伝えに来ただけなのです。ありがとうございました（、、

**１３２人目の素数さん** · 2019/01/11(金) 08:06:00.17

>>704
エクセル分析ベーシック?エクセル分析スペシャリスト?
無事合格おめでとうございます。
初めて聞く資格名です。
どの方面で有能な資格なのですか?
主催odysseyというのは、どういう組織なのですか?
https://stat.odyssey-com.co.jp/about/

**１３２人目の素数さん** · 2019/01/13(日) 13:27:33.24

NHKのこの「日本人の意識」調査のサンプルサイズn=5400は、
過剰で統計理論に背いているだろ？
1安倍ちゃん ★2019/01/10(木) 18:43:00.82ID:e4+I4ZlK9
・・・「日本人の意識」調査を、昭和48年から５年ごとに行っています。最新の調査は
去年６月から７月にかけて、全国の16歳以上の5400人を対象に個人面接法で実施し、
50.9％にあたる2751人から回答を得ました。
この中で、結婚についての考え方を尋ねたところ「必ずしも結婚する必要はない」と
答えた人は68％、「人は結婚するのが当たり前だ」と答えた人は27％・・・・
【NHK世論調査の異常な現実】本当にちゃんと選んでるのか？現状の生活満足が９２％
http://asahi.5ch.net/test/read.cgi/newsplus/1547113380/

**１３２人目の素数さん** · 2019/01/18(金) 10:00:15.52

>>706
どちらにしても、アンケートを受けた本人が考えたというより、
親の考え方がそうだということにしかならんのだよな。

そう考えると、大人は理不尽だ。

**１３２人目の素数さん** · 2019/01/19(土) 20:28:25.83

統計先達方に質問。先般より騒動出来の厚労省「毎月勤労統計」不正問題だが、2004年
以前まで零細企業は抽出統計、大企業は全数統計と決められていた根拠は、何なのかな？
統計の考えに立脚すれば企業規模に関わらず標本抽出統計一本でよいのじゃないか?
【伝統】厚生労働省、勤労統計を正しく装うデータ改変ソフトまで作成していた事が判明　★２
http://asahi.5ch.net/test/read.cgi/newsplus/1547255657/

**１３２人目の素数さん** · 2019/01/19(土) 20:58:33.86

改変ソフトって、ほんとかね？割合を合わせてるだけじゃないの？
決まりはもちろん全数だけど、件数割合を全数に合わせているとしたら
計算結果はおおきく変わらないだろうね。

だとした場合
今までの報道では、件数も合わせずに、そのまま東京の分は1/3で計算
していたと報道していた。これの方が大間違いの報道ということに
なるのだが。

**１３２人目の素数さん** · 2019/01/19(土) 21:31:58.40

だとした場合とか妄想で言われてもw

**１３２人目の素数さん** · 2019/01/19(土) 21:41:50.33

社会人でも通いやすい統計学の大学院てどこかありませんか

**１３２人目の素数さん** · 2019/01/19(土) 23:55:29.01

東京大学大学院経済学研究科

**１３２人目の素数さん** · 2019/01/20(日) 09:09:44.52

統計学を操って役に立てるようになりたい

**１３２人目の素数さん** · 2019/01/20(日) 09:17:48.42

デイトレやるようになって勉強し始めた
とりあえず２級が目標

**１３２人目の素数さん** · 2019/01/21(月) 07:07:44.77

ある私立医大の合格者の偏差値の平均値はm、標準偏差は10の正規分布であるとする。
合格者のうち成績上位70%は入学を辞退し下位30%の合格者が入学する。入学者の偏差値の平均値をmaとする。
m - maを算出せよ。

答はmの値によらないでいい？

**１３２人目の素数さん** · 2019/01/21(月) 07:08:29.04

>>713
p hacking とか？

**１３２人目の素数さん** · 2019/01/21(月) 13:43:35.90

>>708
1　全件調査は法的に決まっていた
2　サンプル抽出なら、全体支払い料を算出する際に抽出率の逆数を乗じないといけない
3　上のミスをこっそり修正したので賃金の伸び率が不自然になった

**１３２人目の素数さん** · 2019/01/25(金) 08:03:51.68

>>717
勤労統計続報
厚労省「すいません、COBOL分かる人間が少なくて勤労統計調査のチェック甘かったです」
http://hayabusa9.2ch.net/test/read.cgi/news/1548238351/

**１３２人目の素数さん** · 2019/01/25(金) 11:27:01.46

おまけに2004年からのデータ破棄してるって
紙のアンケートだか何か知らないがひどい

**１３２人目の素数さん** · 2019/03/05(火) 08:32:16.40

>>718
じつは指摘されるのと類似した問題が一つの要因で
ただ、言われていることとちょっと異なるんだが
ソフト環境が進んで、さらに無償で利用できる関係で研究員によって
好みのツールを使うようになり、検証が不十分になってきているところが
今回の要因の一つにある。
便利さが生んだ問題と言ったらいいのか。

**１３２人目の素数さん** · 2019/03/05(火) 09:01:16.13

高度な統計解析が必要とされるわけではないので
言い換えれば、ツールオタクが生んでしまった問題の
一つと言えなくもない。
言語で結果が変わるわけじゃないんだから、
研究と業務という意識の切り分けができていなかった
といえるかも。

**１３２人目の素数さん** · 2019/03/08(金) 12:44:40.00

書くところがここしないので書かせていただきます
公的な統計の問題が毎日ニュースで流れていますけど、

賃金構造基本統計調査＝＞　チンコウ
毎月勤労統計調査　　＝＞　マイキン

と、統計の専門家が短縮してチンコウ、マイキンと
おっしゃっていますけど、俺が耳がすこし悪いので、
聞くたびに、チンコ、マンコと聞こえてしまいます。

お願いですから、他の短縮形を使ってください！
よろしくお願いします！

**１３２人目の素数さん** · 2019/03/08(金) 14:28:40.91

ちんまいのう

**１３２人目の素数さん** · 2019/03/08(金) 14:42:02.17

賃金構造基本統計調査＝＞　賃本

じゃあまずいかな？
どう発音してもいいけど

**１３２人目の素数さん** · 2019/03/08(金) 17:35:23.00

むしろマイ金的な響きある

**１３２人目の素数さん** · 2019/03/29(金) 21:03:23.99

「統計」は「疑似科学」な

**１３２人目の素数さん** · 2019/03/31(日) 13:16:25.70

疑似科学として使う方しか知らんのだな

**１３２人目の素数さん** · 2019/03/31(日) 20:52:08.22

2ｍのキッチンとか死んじゃうよな

**１３２人目の素数さん** · 2019/04/02(火) 21:51:43.84

すいません、質問です。

ttp://www.data-arts.jp/jssc/grade1semi/2016-06/2/q1/q.html

この問題の(3)の解答なのですが、なぜ自由度が9になるのでしょうか。11カテゴリで自由度10にならないのでしょうか。

**１３２人目の素数さん** · 2019/04/08(月) 23:52:13.97

性犯罪率と申告率
http://hakusyo1.moj.go.jp/jp/42/image/image/h002030-4e.jpg

この二人が暗数（未申告）を含んだ実際の被害者数を計算してるんだが
どっちが正しい？

https://twitter.com/tanukioriginal/status/1115199595309441024
https://twitter.com/edps506/status/1115246315145838592
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2019/04/09(火) 03:51:51.39

>>730
あ、これもういいです。スルーでヨロ。

**１３２人目の素数さん** · 2019/06/10(月) 20:24:58.97

相関係数について教えてください。
変数a={1,1,1,1,1,1,1,1,1,1}
変数b={1,1,1,1,1,1,1,1,1,1}
つまり２つの変数の値が全て同じだった場合に、
相関係数を計算すると計算不能になりますけど、
これは相関係数は１だと言っていいんでしょうか？
それとも計算不能でいいんでしょうか？

**１３２人目の素数さん** · 2019/06/10(月) 23:28:12.63

1でok
ていうか全く同じデータの相関係数求めてどうすんの

**１３２人目の素数さん** · 2019/06/11(火) 02:56:55.47

意味ないですよね？
よくよく考えてみると、
その意味ないことを
延々と証明してるキチガイ論文見つけたので
学会発表のときに
触れてやろうと思ってます

**バーチャル5才児** · 2019/06/12(水) 12:12:32.56

>>733 に異を唱えてくれるステキな大人のひと、いないの？

**１３２人目の素数さん** · 2019/06/12(水) 12:39:38.21

エンタングルメントみたいな非自明ながらも完全なる相関性とかもあるんだけどね。

**１３２人目の素数さん** · 2019/06/13(木) 00:57:42.22

>>735
そんな人は研究に忙しくて
5chみてるヒマないでしょ?

ここにくるのは初心者とカスとゴミですから

**１３２人目の素数さん** · 2019/06/13(木) 13:49:57.02

有意ですかぁ？

**１３２人目の素数さん** · 2019/06/18(火) 08:09:12.14

>>729
よく読め

**１３２人目の素数さん** · 2019/06/18(火) 10:20:44.21

>>732
相関係数の公式は知らんが、
0/0は、不定値である

そもそも、aもbも全部1とのことだが
より精密に測定すれば
0.982とか1.023の感じの測定値となる

有効数字1桁ではなく、せめて、
有効数字2~3桁となるよう再測定せよ

なお、相関K数は計算上不定だが
一般に相関K数は-1~+1に定まる

**１３２人目の素数さん** · 2019/06/27(木) 09:26:40.59

藤林丈司

**１３２人目の素数さん** · 2019/06/29(土) 16:41:15.01

統計学Part17
ふうL@Fu_L12345654321
学コン1傑いただきました！
とても嬉しいです！

https://pbs.twimg.com/media/D-IuUuqVUAALnAB.jpg

https://twitter.com/Fu_L12345654321/status/1144528199654633477
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2019/07/03(水) 19:43:12.19

4315
ふうL@Fu_L12345654321
学コン1傑いただきました！
とても嬉しいです！

https://pbs.twimg.com/media/D-IuUuqVUAALnAB.jpg

https://twitter.com/Fu_L12345654321/status/1144528199654633477
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2019/08/21(水) 15:43:37.73

統計学で大学院に行って学びたいと思うけど、修論がまったく思い描けない。
既にある問題解析なら、本を買ってやればよいと思う。
統計学の修士論文って、どんなレベルなんですか？

**１３２人目の素数さん** · 2019/08/21(水) 16:06:20.31

学部なんだろ、当たり前だろ、馬鹿か
>修論がまったく思い描けない

**１３２人目の素数さん** · 2019/08/24(土) 17:56:49.65

修論のテーマなんて教授から与えられるものじゃないの

**１３２人目の素数さん** · 2019/08/25(日) 12:22:34.43

統計学は理論的なことはもうやることないだろ。

**１３２人目の素数さん** · 2019/09/15(日) 19:00:11.32

統計学も今後はAI台頭で不要になると思わない？

**１３２人目の素数さん** · 2019/09/16(月) 00:42:27.54

昨今AIと呼ばれているものは統計学のごく一部を応用してるにすぎないし応用と呼べるレベルにすら達していないものも多い
つまり統計学なくして理論面でのAIの発展などあり得ない

**１３２人目の素数さん** · 2019/09/17(火) 15:37:17.58

>>749
禿同
その基本的なことさえ
全く分かってない機械学を
Pythonでやってるママゴトでも
高い給料もらえるという
データサイエンティストバブル！

**１３２人目の素数さん** · 2019/09/17(火) 16:24:41.95

統計の新しい理論が出来たわけではない、馬鹿乙

**１３２人目の素数さん** · 2019/09/17(火) 20:42:38.79

>>748
残念ながら今のところ
統計学≒AI
なのよ
よろしくね！

**１３２人目の素数さん** · 2019/09/17(火) 20:53:38.59

希望と現実の区別がつかない素人

**１３２人目の素数さん** · 2019/09/18(水) 08:45:49.87

アンカーつけろ馬鹿たれ！

**１３２人目の素数さん** · 2019/09/18(水) 08:47:04.34

>>753
アンカーつけろ馬鹿たれ！

例な

**１３２人目の素数さん** · 2019/09/18(水) 09:05:29.06

>>755
例えば

死ねよアホ

**１３２人目の素数さん** · 2019/09/20(金) 13:25:10.58

2515
かずきち@dy_dt_dt_dx 8月28日
学コン8月号Sコース1等賞1位とれました！
マジで嬉しいです！
来月からも理系に負けず頑張りたいと思います！
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2019/09/20(金) 21:26:50.38

>>756
馬鹿で性格も悪いって(笑)

**１３２人目の素数さん** · 2019/09/21(土) 09:16:38.42

>>758
自己紹介乙

**１３２人目の素数さん** · 2019/09/21(土) 14:50:35.73

河村敏彦(笑)

**１３２人目の素数さん** · 2019/09/28(土) 17:33:46.84

初歩的なことかもしれませんが、「有意水準」に関して悩ましいことがあったので質問させてください。

個人的な興味のために、「n面ダイスをm回振って、全ての目が出揃う確率」について議論したいんですが、
統計学的には、その確率が99%以上であれば、有意水準1%のもと、「n面ダイスをm回以上振れば、流石に全ての目が出たものとして扱ってよい」と言える、
という認識で合ってますでしょうか。

合っているとして、ここからが本題なんですが。
例えばこれをn = 100で行った場合、
「百回中一回しか起こらない事象を自分は扱ってるくせに、統計学的には1%以下を無視するなんて、どの口が言ってねん」って感覚を覚えます。
つまり、nの値が大きければ大きいほど、有意水準を引き下げたくなってしまいます。

この感覚は理論的には正しいのでしょうか？

**１３２人目の素数さん** · 2019/09/29(日) 04:09:38.53

検定の概念がわかってないようなのでそこから見直しって感じですかね

**１３２人目の素数さん** · 2019/09/29(日) 11:55:16.64

n面ダイスが正確に作られた(＝各面の出る確率が等しい)ものであればm回振って全目が出る確率は厳密に計算できる
しかし、現実には完全に正確なダイスなどあり得ないのでこの確率からのブレが生じる
手元にある実物のダイスがどのくらい不正確かは実際に振ってみて値を記録しなければ分からない
で、実際に振った以上どの目がどの確率で出るのかは分かったのだから求めたい確率も計算できる

有意水準を使った統計学的検定でできるのはダイスが正確なものか否かの判定ぐらいでしかないので今の場合は不要

**１３２人目の素数さん** · 2019/09/29(日) 16:14:00.89

なるほど……有意水準という概念を適用できる範囲を誤解していたみたいですね。

有意水準の概念は「このダイスに偏りがないか」を調べるときには使えるが、
「ダイスが正確であるとして、m回振った結果すべての目が出揃っているか」は、例えば計算した結果99.4%だとしたらそれ以上でも以下でもなく、99%以上だからと言って全ての目が出ているとして扱えるものではない、と。

勉強し直します。ありがとうございました。

**１３２人目の素数さん** · 2019/09/29(日) 16:40:09.39

ちょっと調べてみたんですが、「どの程度、低い確率で起きる事象なら無視していいか」に関しては「ボレルの法則」というものがあるらしいですね。
「10のマイナス6乗以下の確率は、人間の時間スケールではまず起こらないものとして扱ってよい」という。
この場合適用すべきはこちらでしょうか。

**１３２人目の素数さん** · 2019/09/29(日) 18:28:41.84

確率と有意水準をごっちゃまぜにしているように見えます。

有意水準という用語の背景には、必ず帰無仮説があります。
帰無仮説というのは、いわば否定されることを目的に立てるような仮説です。
帰無仮説が否定されたなら、それに従って、何らかの主張が行えます。
その時の常套句が、「有意水準これこれで、これこれを主張する」等となります。

なぜ、その帰無仮説が否定できたか？
否定した理由は、あまり起こりえないことが起こったからという論法です。
偶然、たまたま起こったと言うこともあり得ます。
しかし、そう考えるより、帰無仮説が間違っていたと考える方が、無難だと考え、
帰無仮説の内容の否定にあたる主張を、「有意水準云々で、此れ此れ．．．」と言うのです。

帰無仮説が間違っていると考えるか、偶然起こることもあるから、帰無仮説が間違っているとまでは
言い切れないと考えるか、その判定の境界として採用されているのが、5%とか、1%とかの値です。

従って、この5%とか1%は、「その主張が間違っている確率」ではありません。
「間違って帰無仮説を棄却してしまった確率」です。
帰無仮説は正しかったのに、誤って否定し、何らかの主張を行ってしまった確率です。
主張の内容の確率ではなく、帰無仮説を否定してある主張を持ってきたときの判断の誤りの確率です。

**１３２人目の素数さん** · 2019/09/29(日) 20:56:45.27

5645
かずきち@dy_dt_dt_dx 9月29日
京大オープン経済190/550しか取ってないやつにマウント取られて草
お前より90点高いんだよ黙って勉強しろ
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2019/09/29(日) 23:29:22.50

検定とか有意とか
フィッシャー最大の失敗だと思いますんw

**１３２人目の素数さん** · 2019/09/30(月) 21:32:41.09

河村先生は女子学生にセクハラしてるのでは？

**１３２人目の素数さん** · 2019/10/20(日) 16:28:57.46

統計学やると今流行のデータサイエンティストになれるのか？

**１３２人目の素数さん** · 2019/10/21(月) 00:23:39.84

むしろデータサイエンティストブームが終わっても生き残るために必要なのが統計学
データサイエンティストになるだけが目的ならもっと小手先のテクニック身に着ける方が手っ取り早い

**１３２人目の素数さん** · 2019/10/22(火) 01:47:38.25

データサイエンス＝機械学習　になってしまって、統計学への関心が薄れてきた印象
データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象
結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする

**１３２人目の素数さん** · 2019/10/26(土) 17:02:21.23

機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。

**１３２人目の素数さん** · 2019/10/26(土) 17:14:56.32

緑本が難しかったんだけど、どの本から始めたらいいですか？

**１３２人目の素数さん** · 2019/10/27(日) 08:03:15.48

機械学習のベースは統計学
ついでにいうと機械学習機械学習といっているのは日本くらいなもん

**１３２人目の素数さん** · 2019/10/27(日) 10:08:41.82

>>774
緑本って何？

**１３２人目の素数さん** · 2019/10/27(日) 10:19:47.64

緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか

**１３２人目の素数さん** · 2019/10/27(日) 10:53:15.64

赤本読んだか？

**１３２人目の素数さん** · 2019/10/27(日) 12:59:36.48

Ｒは数年前に既に衰退始まっててpythonに移行しつつある

**１３２人目の素数さん** · 2019/10/27(日) 13:06:49.82

>>776
>>777
モデリングのほうです！

**１３２人目の素数さん** · 2019/10/27(日) 13:22:30.81

>>772
日本でいうDSだの機械学習はもう数年で終わり
今慌ててDS関係の講座作ってる大学は不良資産抱えることになる
新規採用した教員が今後20年足引っ張るよw

**１３２人目の素数さん** · 2019/10/28(月) 00:18:55.59

RはRstudioが使いやすいけど、Pythonは何使ってる？

**１３２人目の素数さん** · 2019/10/28(月) 00:21:16.67

VScodeじゃん？

**１３２人目の素数さん** · 2019/12/04(水) 23:38:03.50

不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、
自由度と不偏推定量はどうして関係があるのでしょうか？

不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、
という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。

**１３２人目の素数さん** · 2019/12/08(日) 12:05:25.84

非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね？
いい本あったら教えてください

**１３２人目の素数さん** · 2019/12/08(日) 12:34:39.66

非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰することじゃないの？
又は2次関数なりで変数変換して線型回帰に落とし込むとか
いずれにせよ大層な話じゃないと思う

**１３２人目の素数さん** · 2019/12/08(日) 16:56:44.30

重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね
ニューラルネットとかでもいけるんですかね？ニューラルネットは軽く調べただけであんまわかってなくてすんません

**１３２人目の素数さん** · 2019/12/08(日) 17:24:09.87

単純な非線形重回帰なら一般化線形モデルでよくないか？

**１３２人目の素数さん** · 2019/12/20(金) 02:21:53.52

2200
しろ@huwa_cororon 11月27日
苦節6ヶ月、初満点&一等賞です！
https://twitter.com/huwa_cororon/status/1199593474128896000
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2019/12/30(月) 23:03:06.88

条件の違う２つの群に対して、５つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか？

**１３２人目の素数さん** · 2019/12/31(火) 20:29:52.64

分散の比ならF検定かな

**１３２人目の素数さん** · 2019/12/31(火) 20:31:56.88

標準偏差の比が正しいのか

**１３２人目の素数さん** · 2019/12/31(火) 22:11:44.84

名義尺度になるから標準偏差は取れなくない？
カイ二乗検定かね？

**１３２人目の素数さん** · 2019/12/31(火) 22:15:54.60

独立性の検定は使えるかもね

**１３２人目の素数さん** · 2019/12/31(火) 22:17:43.07

好みを点数で評価してもらったら
形式上は間隔尺度になるかも

**１３２人目の素数さん** · 2020/01/17(金) 01:21:44.67

要素Aについて、Aがある場合とAがない場合に、
100回中何回事象X、Y、Zが起きたか調べたデータがあるとき

X、Y、Zが起きるのは高得点である
たとえば
Xが起きる=〇点、起きない=0点
Yが起きる=△点、起きない=0点
のように何点であるかはわからないが、事象が起きると
起きないときに比べて高得点が得られるとすると、

要素Aは「高得点を得る」のに影響しているのか
というのを調べるのにはどうしたらいいでしょうか？
AとX、AとYのように個別にカイ二乗検定を行うと
p値は0.05より大きいというようなことはわかったのですが…

100回中
A ~A
X 15 10
Y 17 10
Z 12 8

**１３２人目の素数さん** · 2020/01/18(土) 11:00:37.99

>>796
Aと、Xが起きる起きないの関係でP値が5%超だと
AとXの発生は無関係って解釈になるのでは？

そのレスにあるクロス集計表だと
AとXYZのどれが発生するかの関係を調べることになると思う

**１３２人目の素数さん** · 2020/01/19(日) 13:25:58.01

>>797さん、ありがとうございます！

....A ~A
X...15 85
~X..10 90

....A ~A
Y...17 83
~Y..10 90

....A ~A
Z...12 88
~Z.. 8 92

についてそれぞれp値は5%超なので、
「高得点を得る」事象X、Y、Zについて、
帰無仮説：要素Aによって、事象X、Y、Zの発生のしやすさは変わらない
は棄却不能であるので、
Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない
Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、
それは偶然であるのか必然であるのか、このデータから推論することはできない
ということでいいのでしょうか？

**１３２人目の素数さん** · 2020/01/19(日) 14:38:42.36

>>798
H0：二つの変数は独立である。
H1：二つの変数は独立ではない（何らかの関連がある。）
でH0を棄却できないので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
になると思います

有意水準の値にもよりますけど

**１３２人目の素数さん** · 2020/01/19(日) 15:31:21.50

ありがとうございます

優位水準5%としたとき、p>0.05なので

AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない

同様にp>0.05なので
AとY、AとZに関連があるとは言い切れない

よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない
（あるともないとも言い切れない）

ということで大丈夫でしょうか？

**１３２人目の素数さん** · 2020/01/19(日) 15:47:51.10

統計学の勉強をしたいのですがお勧めの教書はありますか？とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです

**１３２人目の素数さん** · 2020/01/19(日) 15:58:46.14

>>801
図書館とかでいろいろ見てみたらいいのでは？
同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので

**１３２人目の素数さん** · 2020/01/19(日) 16:15:09.47

赤本、青本

**１３２人目の素数さん** · 2020/01/20(月) 08:19:51.63

まず宮川公男
からの赤本

**１３２人目の素数さん** · 2020/01/20(月) 15:41:43.88

それぞれ、サイズの異なる
A　B　C　D　E　が5分類有り、ONとOFFの2つの状態を持ちます。
ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。

判明している数値は、A～Eのサイズ（量）と各分類でONになった回数です。

分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、
各分類で起こった回数もトータルでの起こった回数も不明です。

**１３２人目の素数さん** · 2020/01/20(月) 15:58:45.38

スレ違だったらすまん
TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな？
ふと疑問に思ってしまった

**１３２人目の素数さん** · 2020/01/21(火) 14:45:56.85

>>801
教えてもらったらレスしなさい、いやなら二度と来ないで

**１３２人目の素数さん** · 2020/01/21(火) 16:04:38.27

今勉強中だから！

**１３２人目の素数さん** · 2020/01/21(火) 18:49:54.65

>>802
遅くなってしまい申し訳ありません。
情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。

**１３２人目の素数さん** · 2020/01/22(水) 00:38:06.54

>>807
うっせーんだよバーカ
老害か？

**１３２人目の素数さん** · 2020/01/22(水) 00:54:27.57

とんでもねえ
あたしゃガウスだよ

**１３２人目の素数さん** · 2020/01/22(水) 18:12:41.57

https://i.imgur.com/oiXO7b1.jpg
この問題って、どーやって解くんですか？

**１３２人目の素数さん** · 2020/01/22(水) 19:30:28.36

>>812
定義とおりに計算したら求められると思います
Xが-4を取る確率をその表から読み取って掛け算して
他の値も同様にして、全部足し合わせる→平均
平均との偏差の二乗を足し合わせて個数で割る

共分散も定義の式を確認してその通りに計算する

**１３２人目の素数さん** · 2020/01/25(土) 00:28:42.59

質問：日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合

Q1. この統計調査そのものを棄却すべきなのか
Q2. 信頼区間をいじればどうにか統計として成り立つのか
Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか

よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○％！」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。

**１３２人目の素数さん** · 2020/01/25(土) 18:51:17.04

データが足りません
100万年分集めてください

**１３２人目の素数さん** · 2020/01/25(土) 18:51:28.39

黙れアホ死ね

**１３２人目の素数さん** · 2020/01/27(月) 12:27:19.82

仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな

"瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―"

**１３２人目の素数さん** · 2020/01/27(月) 13:06:07.10

>>805
求めたい値を変数として
今わかっている関係を数式で表す

それらを使って誤差などの評価値を最小にする値を探す

組合せ最適化問題に帰着するかもしれない

**１３２人目の素数さん** · 2020/01/27(月) 13:11:52.77

>>814
除外する基準が分からないなら
そのアンケートの結果としては意味があるだろうけど
対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う

別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか

**１３２人目の素数さん** · 2020/01/27(月) 13:12:35.41

>>817
仮説が正しい確率が小さいから仮説を棄却するんじゃね？

**１３２人目の素数さん** · 2020/01/27(月) 21:23:53.03

「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある
現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる

**１３２人目の素数さん** · 2020/01/27(月) 21:38:20.59

>>821
仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える

分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね？
中心極限定理とかで安定分布とみなせるとかあるんじゃね？

**１３２人目の素数さん** · 2020/01/27(月) 21:40:59.43

>>821
別の手段は何か適切なものがあるの？
ないなら近似的なものでも答えがわかった方がいいんじゃね？

**１３２人目の素数さん** · 2020/01/27(月) 22:33:49.08

>>823
勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも
有限サンプルの世界ではあくまで近似でしかない
そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって
近似的に使えるものがあれば好きに使えばいい
ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる

**１３２人目の素数さん** · 2020/01/28(火) 00:05:49.11

この問題を教えて頂けないでしょうか？
大学1年生について，何かを失敗してしまうことへの恐怖感を感じる程度（「以下，「失敗恐怖尺度得点」）と，個人の大学生活への不適応度（以下，「不適応得点」）を測定したところ，
それぞれの記述統計量について，「失敗恐怖尺度得点」に関して平均値=4.05，標準偏差=1.17，「不適応得点」に関して平均値=20.29，標準偏差=6.49という結果が得られた。また，2変数間の共分散は2.37であった。
「失敗恐怖尺度得点」を独立変数とし，「不適応得点」を従属変数として単回帰分析を行い，それぞれ値を入力欄に記入せよ。
(1) 切片を推定せよ
(2) 回帰係数を推定せよ
(3) 決定係数を示せ
(4) 単回帰分析の結果，得られる，従属変数の予測値と，従属変数との間の相関係数を求めよ
(5) 予測の標準誤差を示せ

**１３２人目の素数さん** · 2020/01/28(火) 06:43:17.72

やっぱベイズが分かりやすくていいな。

**１３２人目の素数さん** · 2020/01/28(火) 09:17:05.42

ベイズって簡単なの？理解に苦しんでる笑
もう一踏ん張りしたらそのステージに上がれるかな

**１３２人目の素数さん** · 2020/01/29(水) 06:00:24.07

平均値100 標準偏差15で定義される知能指数で
標準大学の新入生の知能指数の平均が100
裏口シリツ医大の新入生の知能指数の平均が85であったとする。

各大学から１/10を無作為抽出して知能指数をｔ検定したときのｐ値の期待値、中央値を求めよ。
また、ｐ値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか？

**１３２人目の素数さん** · 2020/01/29(水) 06:51:38.37

>>825
統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。

Rだと

library(MASS)
mx=4.05
my=20.29
sx=1.17
sy=6.49
vxy=2.37
n=1e6
mu=c(mx,my)
si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2)
dat=mvrnorm(n,mu,si)
X=dat[,1]
Y=dat[,2]
lm(Y~X)

**１３２人目の素数さん** · 2020/01/29(水) 06:56:54.50

近似値なら

Call:
lm(formula = Y ~ X)

Coefficients:
(Intercept) X
13.279 1.731

**１３２人目の素数さん** · 2020/01/29(水) 07:46:51.07

>>828
追加

1学年はどちらも100人

**１３２人目の素数さん** · 2020/01/29(水) 10:50:47.84

>>824
仮説なんだから真の分布はわかるはずがないだろ
仮説が成り立つとして検定するんだから

真の分布なんて厳密に判るケースの方が少ないんじゃないか？
今あるデータだけでなく未来のデータも含めないと真の分布は厳密にはわからないんだし

**１３２人目の素数さん** · 2020/01/29(水) 12:11:52.87

>>832
だから散々言っているように、真の分布が分からないのに仮説が正しい確率など分からないよね？ということ
あくまで自分が勝手に作ったモデルが手元のデータに対してどれぐらい使い物になるかが分かるだけ
それが有用なら使えばいいが、それは決して仮説が正しい確率ではないというだけのこと

**１３２人目の素数さん** · 2020/01/29(水) 13:44:04.84

>>833
自分が勝手に作ったモデルのことを仮説と呼ぶ
仮説が正しい確率=自分のモデルが正しい確率

**１３２人目の素数さん** · 2020/01/29(水) 14:19:09.31

>>834
そこで言う「正しい」って何だよってこと
正解があって初めて自分が作ったものが正しいか間違いかを論じることができるはずだが正解を誰も知らないので「正しい」などという言葉を使ってはならない

**１３２人目の素数さん** · 2020/01/29(水) 14:21:53.19

>>835
正しい→観測した事象が発生する確率が高い

**１３２人目の素数さん** · 2020/01/29(水) 14:25:41.43

>>834
これは正確ではなかったかも

仮説が正しい確率=自分のモデルで対象の事象が発生する確率

自分のモデルで対象事象が発生する確率が低い→
自分のモデルつまり仮説が正しくないから仮説を棄却する

**１３２人目の素数さん** · 2020/01/29(水) 14:27:55.83

>>837
統計量と検定に使う分布を適切に選ぶ必要はある
どの程度の精度が必要かは個別に違うだろう
近似でも有用なケースもある

**１３２人目の素数さん** · 2020/01/29(水) 14:36:14.08

>>835
統計だから正しいか正しくないかの二択ではないんだよ
正しい可能性が1%なのか95%なのかで違うだろ

**１３２人目の素数さん** · 2020/01/29(水) 15:11:01.46

正しいか正しくないかは確率変数ではないので正しい確率などという概念がおかしい
確率変数ではないのだから正しいという言葉を使った瞬間に正しいか正しくないかの二択で論じることになる
>>837にあるようにあくまで計算するのは作成したモデルで観測した事象をどれだけ説明できるかであるが
それは一般に言う「正しい」の意味合いとは大きく異なる
だから「正しい」などと大袈裟なことを言わずに正直に自分が作ったモデルとはこの程度合っていると言えばいいだけのこと

**１３２人目の素数さん** · 2020/01/29(水) 17:57:57.14

>>840
正しいという言葉の定義の問題でしかないな
意思疎通ができれば問題ない
正しいとはこう言う意味に解釈すると前置きすれば解決する

**１３２人目の素数さん** · 2020/01/29(水) 18:12:15.61

だからベイズ使えベイズ。
仮定したモデルが正しい確率だから分りやすいぞ。

**１３２人目の素数さん** · 2020/01/29(水) 18:49:21.49

ベイズって観測するまでは事前分布を均等だとみなして
観測に合わせて分布を更新すると理解しているけど
それだと滅多に起きない事を考慮できないんじゃないの？

**１３２人目の素数さん** · 2020/01/29(水) 21:16:02.20

統計学は統計学
数学ではない

**１３２人目の素数さん** · 2020/01/31(金) 12:18:53.38

>>843
無情報事前分布を当てはめるのは普通は確率分布のパラメータに対してであって最終的に知りたい確率分布自体は別のものを用意すればいい
レアな現象を扱いたいならポアソン分布とかをベースにした統計モデルがよく使われる

**１３２人目の素数さん** · 2020/01/31(金) 18:00:11.17

別の質問スレに書いたけどスレチだったようで回答頂けなかったので、こちらで質問させてください。

あるデータを連続分布関数でフィッティングしてパラメータを決めたいのですが、累積でやるのと階級に区切ったヒストグラムでやるのはどちらがいいのでしょうか？

**１３２人目の素数さん** · 2020/02/05(水) 08:39:16.72

累積じゃないか。
最小二乗法でフィッティングできない？

**１３２人目の素数さん** · 2020/02/05(水) 18:12:00.94

両方試して、実運用の成績が良さそうな方を使う

**１３２人目の素数さん** · 2020/02/05(水) 18:23:56.11

自力で勉強だとどこくらいまでいけるかな

**１３２人目の素数さん** · 2020/02/18(火) 01:50:07.55

>>847
俺も累積だと思うんだけど。
階級に区切るほうだと、階級幅をこっちで決めなきゃいけないからいらんパラメーターが増えるのがデメリットだけど、メリットあるのか？
どっちも最小二乗法は使えるよね。

**１３２人目の素数さん** · 2020/02/18(火) 07:47:57.35

最小二乗法が使えるかどうかはデータの誤差分布がどうなっているか次第なので実際のデータを見ない限り最小二乗法が使い物になるかは誰にも分からない

**１３２人目の素数さん** · 2020/02/25(火) 22:11:40.24

日本統計学会の春季大会は中止になりました。

**１３２人目の素数さん** · 2020/02/28(金) 14:03:26.45

アメリカの株のセンチメントの悪化が1万年に1度の発生確率って本当ですか？

https://imgur.com/OCqv5uX.jpg

**１３２人目の素数さん** · 2020/02/28(金) 17:26:29.83

収益率に正規分布を使うと大変な間違いになります。
株価は非線形的な反応をします。
ポートフォリオは毎日リスクにさらされます。

**１３２人目の素数さん** · 2020/02/28(金) 17:35:43.67

>>854
正規分布って線形ではないよね
株価とかがランダムウォークしたら正規分布にならない？

**１３２人目の素数さん** · 2020/02/28(金) 17:36:54.90

ポートフォリオがリスクにさらされないと価格変動はなくなるからキャピタルゲインを得られない

**１３２人目の素数さん** · 2020/02/28(金) 17:49:00.30

>>855
平時はそうだけど
裾はもっと分厚い

非線形というのは例えばコロナだけの問題ではないということで
連鎖反応がある

**１３２人目の素数さん** · 2020/02/29(土) 01:12:54.01

＞　センチメント分析とは、文字通り消費者の「センチメント = 感情」を分析する
＞　ことを意味します。ウェブ上に投稿されたコメントなどを分析することによって、
＞　消費者が持っている感情がネガティブなのかポジティブなのか、また、どの程度の
＞　強さなのかを知ることができます。

そのセンチメント分析が何をどういう方法で分析したのか不明なのだから、
５σと言われても、さっぱりなんのことやらわからんよ。
単に否定的な単語の出現頻度が上昇したとか、そんなところだろ？
だって、テレビも新聞もウィルスの記事だらけ。
そんなの分析したら極端な結果になるんだろうね。
だけど５σと判断した基準がわからんのだから、
さっぱり意味不明だね。
その意味不明だということが理解できない人が、馬鹿ということ。

つーか、非線形と線形がどういう意味なのか
知ってる奴がいないということに驚いてる。
少しは勉強したほうがいいね。

**１３２人目の素数さん** · 2020/02/29(土) 07:47:57.93

>>858
線形、非線形を知っているのがいないってどうやって確認したの？
確認できない→いない
と判断した？

**１３２人目の素数さん** · 2020/03/01(日) 00:47:01.48

SPSSで２グループの判別分析をおこなうと、正準判別関数と分類関数が出力されます。
この二つの違いは何でしょうか。
実際に分類を行う場合には、分類関数を使用するのでしょうか。

**１３２人目の素数さん** · 2020/03/10(火) 23:31:53.48

初めてこのスレに来た！
データ分析のために統計学を学ぼうとしていて、調べるとちょうど6月に検定試験があってちょうどいいなと思ってた今日この頃
皆さんは受験しますか？

**１３２人目の素数さん** · 2020/03/11(水) 01:44:41.71

>>851
たまに真顔でこういう人がいるから困る
検定と推定は別物な

>>840
841がおかしいけど
センセーショナルなほうがもてはやされるんだろうね

**１３２人目の素数さん** · 2020/03/11(水) 09:35:31.57

>>862
R2が小さくても使えると？