ベイズの統計学を学び始めたんだけど

**１３２人目の素数さん** · 2017/12/03(日) 00:52:27.23

信用に値するのか疑問です。
人工知能とかではなく日々の動機付けに利用する予定です

**１３２人目の素数さん** · 2017/12/16(土) 07:55:58.33

ゴルゴ13は100発100中
ゴルゴ14は10発10中
ゴルゴ15は1発1中
とする。
各々10000発撃ったとき各ゴルゴの命中数の期待値はいくらか？

ベイズでは事前確率分布を一様分布として計算できる。

**１３２人目の素数さん** · 2017/12/16(土) 08:14:30.05

>>13
事前分布を一様分布にするから男子確率2/3になるだけ。日本人の男女比でBeta(53,49)程度にすればいいんじゃね？？

**１３２人目の素数さん** · 2017/12/16(土) 10:53:09.08

必ずしも事前確率は主観的とか無条件確率というわけでもないよ。

問.
客が煙草を忘れて行ったとする。
忘れて行った人物が女性である確率を以下のデータから計算せよ。

喫煙率
男性 28.2％
女性 9.0％
男女計 18.2％

https://www.jti.co.jp/investors/library/press_releases/2017/0727_01.html

全体と男女別の喫煙率から男女比が計算できる。
つまり女性である事前確率がわかる。
喫煙者であるというデータが与えられたときの
女性である事後確率をベイズの公式で計算できる。

**１３２人目の素数さん** · 2017/12/16(土) 16:23:00.07

>>159
やなこった

やっぱり怖い

見たくない

**１３２人目の素数さん** · 2017/12/16(土) 18:07:28.15

>>164
客の男女比率のデータはないのか。

客の男女比率
男性　０％
女性 100％

だったら全体の喫煙率は無意味に

**１３２人目の素数さん** · 2017/12/16(土) 22:13:18.96

>>166
18.2*(f+m)= 9.0*f +28.2*m
から男女比は計算できる。

**１３２人目の素数さん** · 2017/12/16(土) 22:15:31.90

日本人の男女比を事前確率にしているという意味では
弱情報事前分布と言える。

**１３２人目の素数さん** · 2017/12/16(土) 22:20:03.79

# ある仮想の難治疾患患者25人に従来薬を投与して3人治癒した。
# 新薬が登場して3人に投与したところ治癒した人はいなかった。
# この新薬を継続して使う価値があるかどうか検討せよ。
別バージョン
# 巨乳女子大で25人に声をかけたら3人が誘いにのった。
# 桃尻女子大で3人に声をかけたら誰も誘いにのらなかった。
# どちらが口説きやすいか検討せよ。

JAGSでMCMCして治癒率の確率密度関数を描くとこうなる。
http://i.imgur.com/y49H5AK.png

治癒率差の期待値は
> mean(dif)
[1] -0.05136971
54％が負
> c(mean(dif<0),mean(dif>0))
[1] 0.5395 0.4605
５％幅の違いは同等扱いにすると
> c(mean(dif<ROPE[1]),mean(ROPE[1]<dif & dif<ROPE[2]), mean(dif>ROPE[2]))
[1] 0.4834 0.1236 0.3930
と計算できる。
95％HDIは
> HDInterval::hdi(dif)
lower upper
-0.4247349 0.2535357
と０を挟む。

RのパッケージBESTを改造して、治癒率の差の確率密度分布をかくと
http://i.imgur.com/vdIj7ES.png

ゆえに新薬は無効とはいえないだけでなく、従来薬を凌駕する可能性が54％ある。

**１３２人目の素数さん** · 2017/12/17(日) 01:13:50.49

非ベイズ確率論では、もっぱら、事前確率だけを研究する。
それに対して、ベイズ確率論では事後確率を問題にする

**１３２人目の素数さん** · 2017/12/17(日) 08:29:26.52

>>164
18.2*(f+m)= 9.0*f +28.2*mで男女比は92:100と計算できる。女性の割合は100/192。
これでベイズの公式で計算すると喫煙者が女性である確率は0.25755

この100/192を最頻値として集中度10のβ分布に女男比が従うとする（かなり緩やか分布ではあるがここは主観的）
> alpha
[1] 5.208333
> beta
[1] 4.791667
になる。
http://i.imgur.com/IEn9vtz.png
集中度はhttps://en.wikipedia.org/wiki/Beta_distribution#Mode_and_concentrationを参照。

このモデルでstanでMCMCすると
mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat
female 0.5209 0.0006 0.1510 0.2275 0.4133 0.5225 0.6298 0.8059 66688 1.0001
female_smoker 0.2576 0.0003 0.0747 0.1125 0.2044 0.2584 0.3115 0.3985 66688 1.0001

忘れて行った人物が女性である確率は平均25.8% (95％信頼区間は11.3%-39.9%)と計算できる。

http://i.imgur.com/EnuFxku.png

**１３２人目の素数さん** · 2017/12/17(日) 09:12:27.87

日本全体の男女比じゃあだめじゃん

個々の店を利用する人の男女比なんて
どっちっかに大きく傾くことも多いだろうに

**１３２人目の素数さん** · 2017/12/17(日) 09:35:59.92

くじが１００本あるとする。当たりがでるまでくじを買うことする。
運がいいのか３本めで当たりだった。何本あたりがあったと推測されるか？
期待値、最頻度値、９５％信頼区間を算出せよ。

別バージョン：１学年１００人の揺股女子高に声をかけたら３人目が開脚したとする。
開脚希望の女子高生は何人いると推測されるか？

分布はこんなかんじになる。
http://i.imgur.com/iSI0ODw.png

んで、答は

mode mean
33.33333 39.99820
lower upper
4.3811 77.2252

信頼区間が幅広いのはデータ数から仕方がないことではある。

**１３２人目の素数さん** · 2017/12/17(日) 09:37:07.57

>>172
弱情報分布ってそんなもんだよ。

女性の平均身長は１ｍ以上２ｍ未満の一様分布を事前分布とできる。

**１３２人目の素数さん** · 2017/12/17(日) 09:37:43.70

>>172
ダメとかいう話じゃないんだね。

事前分布をどうするかという議論。

**１３２人目の素数さん** · 2017/12/17(日) 10:14:14.33

>>173
この緩股女子高生20人にメールを送って誘ったところ2人が開脚したとする。
このデータを使って前問の確率分布を事前分布として緩股女子高の開脚率の期待値、最頻値、95%信頼区間を算出せよ。

こういうのがベイズ推論ね。

**１３２人目の素数さん** · 2017/12/17(日) 11:12:20.75

>>164 >>171

事象A : 女性である
事象B : 喫煙者である

ここで、ベイズの定理で
P(A|B) = {P(B|A) / P(B)} * P(A) という数式
に、

P(B) = 0.182
P(B|A) = 0.090　を代入すると、

P(A|B) = 90 / 182 * P(A)
　　　 = 0.4945 * P(A)　　 ──★

ここで★に、P(A) = 100/192 = 0.5208 を代入
P(A|B) = 0.2576 となる。
尤もな値が得られる、ウームまてよ

もし、P(A)が1に近い値なら、それを
★に代入すると、
P(A|B)は、0.4945になり、1にはならない。

そう、この手の確率計算、何か変なのです。

**１３２人目の素数さん** · 2017/12/17(日) 11:54:58.90

P(A）を固定で考えずに変数と考えるのがベイズ統計。

P(A)が一様分布に従うとしても大して値は変わらない。

mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat
female 0.4979 0.0011 0.2885 0.0247 0.2477 0.4977 0.7473 0.9756 70793 1
female_smoker 0.2462 0.0005 0.1427 0.0122 0.1225 0.2461 0.3695 0.4824 70793 1

平均0.246 信頼区間は[2.5%-97.5%]と広くなる。

**１３２人目の素数さん** · 2017/12/17(日) 11:59:13.05

>>176
posterior ∝ likelihood * prior を使ってグラフ化すると

http://i.imgur.com/xGnsEHU.png

緩股女子高の開脚率の

最頻値
> optimise(posterior,c(0,1),maximum=TRUE)$maximum # mode
[1] 0.1304338

期待値
> integrate(function(x) x*posterior(x),0,1)$value # mean
[1] 0.16

メディアン値
> cdf <- function(x) integrate(posterior, 0,x)$value
> uniroot(function(x)cdf(x)-0.5,c(0.01,0.99))$root # median
[1] 0.1508781

９５％信頼区間
> pdf2hdi(posterior)
lower upper
0.034818 0.301498

**１３２人目の素数さん** · 2017/12/17(日) 12:20:18.88

>173の事前分布の情報がないと

>176だけの情報だと

期待値
> integrate(function(x) x*pdf(x),0,1)$value
[1] 0.1363636

最頻値
> optimize(pdf,c(0,1),maximum = TRUE)$maximum
[1] 0.1000202

信頼区間
> pdf2hdi(pdf)
lower upper
0.017594 0.276573

となる。

relocation of credibilityがベイズ推計の根幹

**１３２人目の素数さん** · 2017/12/17(日) 12:43:48.22

>>172
店によって客の年齢層が違うから年齢層別の喫煙率がないとだめとか、

同年齢でも職業や学歴によって喫煙率が違うからだめ

とかいくらでもいえる。

与えられたデータで計算しろというのが問題の趣旨。

**１３２人目の素数さん** · 2017/12/17(日) 12:45:20.15

>>181
それを組み込むモデルが階層ベイズ

**１３２人目の素数さん** · 2017/12/18(月) 06:05:12.22

>>178

種明かしすると

一様分布での期待値は男女比＝１：１としたときと同じ。

信頼区間は2.5%-97.5%と幅95%ならどこでもいい。

**１３２人目の素数さん** · 2017/12/19(火) 21:21:09.51

学び始めたんだけどってあるけど

いい加減過ぎ

**１３２人目の素数さん** · 2017/12/23(土) 21:08:29.50

>>149
そんなの前提じゃないｗｗ
それを前提にしてるのは頻度説だけだｗｗ
ばかかｗ

**１３２人目の素数さん** · 2017/12/23(土) 21:11:04.92

その通り

**１３２人目の素数さん** · 2017/12/23(土) 21:38:22.49

確立において共通的仮定は
μ（φ）＝０
∀X∈２＾A、μ（X）≧０
∀X,Y∈２＾A、X∩Y＝φ⇒μ（X∪ Y）＝μ（X）＋μ（Y）
の測度論的定義と
P(Ω)＝１
０≦P≦１
上の３つめと同じ
の確立の公理主義的定義しかないわ

**１３２人目の素数さん** · 2017/12/23(土) 21:45:21.81

とはいえ、その公理的確率論の主眼が極限法則の研究である以上、頻度主義を単なる一解釈、one of them と見なすこともまた不適切

**１３２人目の素数さん** · 2017/12/23(土) 22:14:29.53

ベイズ統計学では、事象の確率という考え方を採用し、
必ずしも頻度には基づかない確率を「確率」として見なす

またベイズの定理を用い、
事前確率及び尤度を仮定した下で事後確率を与える、
という相対的なメカニズムを主張している
したがって事後確率の計算結果の信憑性や有用性は、
事前分布と尤度の設定にかかっており、慎重を期すことが必要である

これはベイズ統計学が、不確実性を含む問題を人によって異なる
確率を用いて定式化することを許容する主観確率 (subjective probability)
という立場をとっていることによる
この立場はまだ解析対象となっていない新たな問題への
アプローチを可能にするという利点がある一方で、
確率の決め方について客観性に欠けるという批判もある（客観確率）

**１３２人目の素数さん** · 2017/12/23(土) 22:58:03.28

>>188
であるならば頻度論的考えが前提というなら
それが公理に組み込まれなければ前提ではないんだが
そんな公理どこにあるの？
示してみ
>>149は前提といってるんだから
公理レベルで明文化されてないとおかしい

**１３２人目の素数さん** · 2017/12/23(土) 23:43:11.04

そう攻撃的になるなよ
俺は補足説明しただけであって、君の主張を否定したいわけではないんだから

**１３２人目の素数さん** · 2017/12/23(土) 23:57:05.90

よく読んでみると、前提を公理と同義だと勝手に決めつけたのは>>185だね
公理化する前の段階、何を公理化して何を研究対象とするかという目的
>>149はこれを前提と言っているわけだから、君の怒りは最初から的外れだ

**１３２人目の素数さん** · 2017/12/24(日) 00:47:21.62

ある大学の入学者男女の比率は１であるという帰無仮説を検定する課題が花子と太郎に課された。

花子は５０人を調査できたら終了として入学者を５０人をみつけて１８人が女子であるという結果を得た。
帰無仮説のもとで
５０人中１８人が女子である確率は 0.01603475
これ以下になるのは５０人中０～１８人と３２～５０人が裏口の場合なので
両側検定して
> sum(dbinom(c(0:18,32:50),50,0.5))
[1] 0.06490865
> binom.test(18,50,0.5)$p.value
[1] 0.06490865
で帰無仮説は棄却できないと結論した。

一方、本番と十八番が好きな太郎は一人ずつ調べて１８人めの女子がみつかったところで調査を終えることにした。
１８人めがみつかったのは花子と同じく５０人めであった。
帰無仮説のもとで
１８人がみつかるのが５０人めである確率は0.005772512
これ以下になるのは２３人以下５０人以上番めで女子１８人めがみつかった場合なので
両側検定して
pnb=dnbinom(0:999,18,0.5)
> 1 - sum(pnb[-which(pnb<=dnbinom(50-18,18,0.5))]) # < 0.05
[1] 0.02750309
で帰無仮説は棄却される。

どちらの検定が正しいか、どちらも正しくないか？
検定する意図によってｐ値が変わるのは頻度主義統計の欠陥といえるか？

**１３２人目の素数さん** · 2017/12/24(日) 00:47:53.93

サンプルでの裏口入学率を横軸にして９５％信頼区間を示す。
花子の検定での信頼区間は0.36～0.72で18/50を含む、p=0.06491
http://i.imgur.com/SeTLk8K.jpg
太郎の検定での信頼区間は0.375～0.72で18/50を含まない、p= 0.0275
http://i.imgur.com/tNzlfxe.jpg
主観である、検定の中止の基準の差でｐ値や信頼区間が変化するのは変だという批判である。

**１３２人目の素数さん** · 2017/12/24(日) 00:52:00.99

コインが続けて何回裏が出たらイカサマとみなす？
0.5^5 = 0.03125 < 0.05
なので５回？

**１３２人目の素数さん** · 2017/12/24(日) 01:00:24.15

ベイズ統計でいう確率は信憑性の指標。

天気予報の降水確率もこれに近い気がするな。

**１３２人目の素数さん** · 2017/12/24(日) 01:35:25.50

シミュレーションしてみると、

コインを１００回投げると続けて５回以上、裏がでる確率は８０％以上なので５回裏が続けてでてもイカサマでもないような気がする。

７回以上続けて裏でも３割を越える。

連続１０回だと０．０５未満になった。

**１３２人目の素数さん** · 2017/12/24(日) 02:39:47.06

>162は事前確率分布を抜きの頻度主義統計では対応できないと思う。

**１３２人目の素数さん** · 2017/12/24(日) 02:40:57.58

>>196
生存率とかもそうだな。

**１３２人目の素数さん** · 2017/12/24(日) 12:23:14.68

>>195
イカサマコインの定義を　裏がでる確率が1/3以下または2/3以上のときとすると。

(2/3)^5　=　 0.1316872 > 0.05なので　イカサマコインであるとは言えない。

としか、頻度主義統計では結論できないのではなかろうか？

**１３２人目の素数さん** · 2017/12/24(日) 18:14:26.11

>>195
ベイズの確率なら、
イカサマコインの確率が算出できるのぢゃ

事前確率
　　表がでる確率が1/2のコイン　0.5
　　表がでる確率が2/3のコイン　0.5
と適当かつ勝手にワシの主観でおく。

(1/2)^5 = 1/32 = 0.03125 で
(2/3)^5 = 32/243 = 0.1317　ぢゃから

事後確率
　　0.1317 / (0.1317+0.03125) = 0.8082

つまり、5連続表がでたら、
イカサマコインの確率は、
0.5→0.8082に改訂ぢゃ

**１３２人目の素数さん** · 2017/12/25(月) 06:23:08.44

>>201
事前確率を一様分布にすると事後分布からの平均確率は6/7=0.8571429

http://i.imgur.com/pku1kPy.png

**１３２人目の素数さん** · 2017/12/25(月) 06:37:38.74

>>202
事後分布で1/3以下,2/3以上である確率は

> pbeta(1/3,1+5,1) + pbeta(2/3,1+5,1,lower=FALSE)

[1] 0.9135802

でイカサマコインといえる。

**１３２人目の素数さん** · 2017/12/25(月) 07:28:57.92

0.5lをモード値として1/3～2/3の間に95%が存在する5%のイカサマは許容するをβ分布Beta( 16.55299, 16.55299)を事前分布とすると

5回続けて表がでたときの事後分布は

http://i.imgur.com/v03Jv5Q.png

イカサマ確率は0.1031となる。

**１３２人目の素数さん** · 2017/12/25(月) 07:32:36.66

>>204
0.5lをモード値
↓
0.5をモード値

**１３２人目の素数さん** · 2017/12/25(月) 08:14:46.83

>>201

# 事前確率
# 表がでる確率が1/3のコイン　1/3
# 表がでる確率が1/2のコイン　1/3
# 表がでる確率が2/3のコイン　1/3
# と適当かつ勝手に変更

require(rjags)
N=5
z=5
y=c(rep(1,z),rep(0,N-z))
ph=c(1/3,1/2,2/3)
pc=c(1/3,1/3,1/3)
dataList5=list(N=N,y=y,ph=ph,pc=pc)
# JAGS model
modelString5 ="
model {
for(i in 1:N){
y[i] ~ dbern(ph[coin])
}
coin ~ dcat(pc[])
}
"
writeLines(modelString5,'TEMPmodel.txt')
jagsModel5=jags.model('TEMPmodel.txt',data=dataList5)
codaSamples5=coda.samples(jagsModel5,var=c('coin'),n.iter=100000,na.rm=TRUE)
summary(codaSamples5)
js5=as.matrix(codaSamples5)
mean(js5!=2)

5回続けて表がでたとき、
イカサマコインであった確率は
> mean(js5!=2)
[1] 0.81361

**１３２人目の素数さん** · 2017/12/25(月) 11:38:23.64

頻度主義統計の謎。

立方体からなるサイコロの目のでる確率はすべて等しく1/6である、を帰無仮説とする。

そのサイコロをふって1の目がでた。2回目は2の目がでた。
その確率は1/6*1/6で1/36=0.02778 < 0.05だから帰無仮説は棄却される。
どの目の組合せでも同じく帰無仮説は棄却される。

頻度主義統計のもとではすべてのサイコロはいびつである。

**１３２人目の素数さん** · 2017/12/25(月) 12:39:07.20

>>207
検定についてもう一度勉強した方がいい

**１３２人目の素数さん** · 2017/12/25(月) 12:49:30.52

>>208
p値で考えると>207は正しい。

**１３２人目の素数さん** · 2017/12/25(月) 12:51:59.61

全然デタラメ

**１３２人目の素数さん** · 2017/12/25(月) 13:06:33.35

>>210
デタラメというのがデタラメじゃねえの？
数値で反論できてないし。

**１３２人目の素数さん** · 2017/12/25(月) 13:16:30.22

帰無仮説を点推定とすると>195の理論が成立する。
現実は>204だと思っている。

数値をだしての反論希望。

**１３２人目の素数さん** · 2017/12/25(月) 13:25:55.54

>>212
だからその数値が無意味ですってw

**１３２人目の素数さん** · 2017/12/25(月) 13:26:28.67

頻度主義統計の謎
1000本に1本当りがでる宝くじに当たった人がいる
p=0.001<0.05だから偶然とは言えないから不正があった筈。

**１３２人目の素数さん** · 2017/12/25(月) 13:27:32.80

>>213
反論になってないんだよ。
数値だして反論できないんだろ？

**１３２人目の素数さん** · 2017/12/25(月) 13:30:06.79

>>215
君あおりもヘタね

**１３２人目の素数さん** · 2017/12/25(月) 13:33:42.68

>>216
馬鹿なので反論できないｗｗｗｗｗ

**１３２人目の素数さん** · 2017/12/25(月) 13:35:33.47

帰無仮説を分布に設定すればいいのに
頻度主義者にはそれができない、という批判なんだよ。

**１３２人目の素数さん** · 2017/12/25(月) 13:37:16.46

ゴルゴ13は100発100中
ゴルゴ14は10発10中
ゴルゴ15は1発1中
とする。
各々10000発撃ったとき各ゴルゴの命中数の期待値はいくらか？

ベイズでは事前確率分布を一様分布として計算できるが、
頻度主義統計では全く無力と気づいてベイズ統計を学び出したよ。

**１３２人目の素数さん** · 2017/12/25(月) 13:54:39.97

>>216
数値だして反論しないとバカと認定されちゃうよ。
>204書いたのは俺。

**１３２人目の素数さん** · 2017/12/25(月) 16:14:18.07

>>216
君、ごまかすのも下手ねｗ

**１３２人目の素数さん** · 2017/12/25(月) 17:17:16.68

■モンティホール問題（空箱とダイヤ）

このゲームができるのは1回だけです

ダイヤモンド1個を外からは中が見えない空箱100個の
中のどれかひとつに入れます

その中から1個の箱を選びます

98個の空箱を取り除きます

最後に残った2個の箱の中から1個の箱を選びます

ダイヤモンドが当たる確率は何％でしょうか？

**１３２人目の素数さん** · 2017/12/25(月) 17:51:07.79

>>220
数値以前の問題だけどな

**１３２人目の素数さん** · 2017/12/25(月) 18:34:08.36

>>223
敗北宣言？？

**１３２人目の素数さん** · 2017/12/25(月) 19:24:36.60

>>224
自分が間違ってるとは考えないの？

**１３２人目の素数さん** · 2017/12/25(月) 19:30:16.93

>>223,225
相手して欲しいだけの困ったちゃんだから触らないことよ

**１３２人目の素数さん** · 2017/12/25(月) 20:08:44.89

>>225
数学板なのに反論になってないんだね。

**１３２人目の素数さん** · 2017/12/25(月) 20:18:40.97

>>227
あなたが間違った知識を持っていてもどうでもいいことだけど
私は優しいから貴方の知識が間違っていると言うことを教えておく
無知を知ることが出来て良かったね

**１３２人目の素数さん** · 2017/12/25(月) 20:23:16.15

>>222
前提として
・100個中1個ダイヤ入りの箱がある（自分で入れる訳ではない＝第三者が入れる)
・自分が最初に選ぶ箱は便宜上「Ａ」と名付ける
・98個の空箱を取り除く作業は答えを知っている第三者が「A」以外の99個から選んで行い、
最後に残された箱は便宜上「B」と名付ける

とすれば
「A」の中にダイヤがある確率は1/100、「B」の中にダイヤがある確率は99/100
2択とはいえ、五分五分の2択ではないことに気づけるかどうか

**１３２人目の素数さん** · 2017/12/25(月) 20:50:34.25

>>229
ゲームが１回だけの時、

最初にプレイヤーがあたりを引く確率は1/100

はずれを引く確率も1/100になります

ゲームから98個の箱が除外された後に

残った2個の箱の内、選択変更後のあたりの確率が99%だと

証明する方法はゲームが１回に限定されている以上

存在しないのです

**１３２人目の素数さん** · 2017/12/25(月) 20:57:46.62

「A」の中にダイヤがある確率は1/100、「B」の中にダイヤがある確率も1/100です
五分五分の2択ですのでダイヤを当てる確率は５０％です

**１３２人目の素数さん** · 2017/12/25(月) 23:42:43.79

>>228
へへ、結局、反論できないだけだね。
カッコ悪い～。

**１３２人目の素数さん** · 2017/12/25(月) 23:51:56.81

>>232
間違いを指摘してやる義理はないからね

**１３２人目の素数さん** · 2017/12/25(月) 23:55:09.97

無力だと言われて反発してるだけ
まともな反論など期待できようはずがない

**１３２人目の素数さん** · 2017/12/26(火) 00:39:07.10

>>233
ホントそれ
かまってちゃんにかまってやることはない

**１３２人目の素数さん** · 2017/12/26(火) 00:40:19.96

>>229
■ゲームを１回に限定すると

１．最初プレーヤーがあたりを引く確率は1/2である

２．箱を変更しない場合はそのまま1/2の確率である
　　（変更しないのであれば空箱が取り除かれようが残ろうが確率は変わらない）

３．98個の空箱を取り除いた後に箱を変更する場合、
　　最初に選択した箱がハズレであれば変更後の箱はあたりが確定である
　　つまり、最初に選択した箱がはずれである確率＝箱を変更した場合に
　　あたりを引く確率である

４．最初の選択であたりを引く確率は1/2、はずれを引く確率も1/2である

５．ゆえに、どちらの箱を選択してもあたりを引く確率は1/2である

**１３２人目の素数さん** · 2017/12/26(火) 01:00:16.29

ゲームは1回に限定されているので
事前確率と事後確率は一致します

**１３２人目の素数さん** · 2017/12/26(火) 05:24:17.34

>>233
間違ってないから指摘できないだけだろ。
カッコ悪い～。

コインが５回続けて表がでたら0.5^5 <0.05なのでイカサマコイン
とするなら
1/6^<0.05ならいびつなサイコロ。
点推定を帰無仮設にせず>204のように分布を事前確率にする方がいい。

**１３２人目の素数さん** · 2017/12/26(火) 06:39:56.34

あまりにも当たり前すぎることを見落としている。
単に試行回数が少ないだけ。

二項分布を正規分布で近似するための条件は経験則として
・npとnqの小さい方が10(場合によっては5)より大きい。
・0.1≦p≦0.9　で、かつ　5<npq
・25<npq
等が知られている。コイン(p=1/2)なら20～100回、サイコロ(p=1/6)なら30～180回　
といずれでも数十回試行することが必要。
逆に言うと、これらから大きく離れた回数で、何らかの結論を出すような理論は危険。信憑性が足りない。

参考　http://www.naro.affrc.go.jp/org/nfri/yakudachi/sampling/pdf/logical-sample-number.pdf

**１３２人目の素数さん** · 2017/12/26(火) 07:13:31.29

＞何らかの結論を出すような理論は危険

ｔ分布すら知らんのか！

**１３２人目の素数さん** · 2017/12/26(火) 08:16:20.70

>>239
二項分布も知らないレス古事記は放置が一番よ

**１３２人目の素数さん** · 2017/12/26(火) 09:13:34.13

>>240
整理しよう。
あるサイコロ、あるいは、コインがあり、その１の目が出る確率、あるいは、表が出る確率が
1/6、1/2としてよいかを検定しようとしている。
その検定に必要な試行回数は239で示したような回数が必要であり、>>207で行ったような
たった2回の試行では足りない、というのが239の内容だ。

そこに、t分布がどのように現れるのか？
t分布は、体重、身長、点数、．．．等という、正規分布の確率変数に出来るデータを直接
いくつか得て、それを元に、想定していた分布と差があるかどうかを検証する。
その「いくつか」の個数がデータの数だとか、自由度の直結するものだ。

しかし、239で与えた試行回数というものは、全く異なる。
正規分布の確率変数に直結する一つのデータを得るために必要な試行回数だ。
239の回数だけ、試行を行い、はじめて、t分布で言うところの、「１つのデータ」を得ることが出来る。

あなたは、次元の異なる内容を比較して反論したつもりでいるだけ。

**１３２人目の素数さん** · 2017/12/26(火) 12:12:04.68

>>239

試行数が少なくても計算できるのがベイズ統計。

サイコロのある目のでる確率が1/8以下か1/4以上であるときを歪（いびつ）なサイコロと定義する。
事前分布としてどの目のでる確率も1/6で、ディリクレ分布（集中度母数=1）に従うとして
１の目が2回続いたときの１の目のでる事後確率分布をJAGSで計算してグラフ化すると次のようになる。
95%信頼区間に歪でない場合の確率1/8～1/4が含まれるので歪とは判断されない。
http://i.imgur.com/WJJwIWK.png

1の目が5回続いたときの事後確率分布は
https://i.imgur.com/G9lpd0u.png
これは95％信頼区間の下限が1/4を超えているから歪であると判断される。

**１３２人目の素数さん** · 2017/12/26(火) 12:16:52.98

>>239
正規分布で近似する必要はどこにもない。

**１３２人目の素数さん** · 2017/12/26(火) 12:21:29.57

>>239

あんたには>219の問題は解けないだろ？

信頼区間は広くなるが、結論は出せる。

**１３２人目の素数さん** · 2017/12/26(火) 13:02:42.03

>>245
信仰心を持てば解けるのです！！

**１３２人目の素数さん** · 2017/12/26(火) 13:10:49.28

>>239
https://www.youtube.com/watch?v=YyohWpjl6KU

の12:41から　ベイズ推計で1打数1安打と2打数0安打の打率が推定されている。

他の選手のデーターから事前分布を設定しての算出。

データが少ないと信頼区間が広くなるだけで算出はできる。

**１３２人目の素数さん** · 2017/12/26(火) 14:45:43.43

>>246
事前分布を信仰すれば解ける

**１３２人目の素数さん** · 2017/12/26(火) 15:55:16.98

＞そのサイコロをふって1の目がでた。2回目は2の目がでた。

これを題材にしてベイズ推計する。

事前分布としてどの目のでる確率も1/6で、ディリクレ分布（集中度母数=1）に従うとして
事後確率のおのおのの目の分布を図示すると。
http://i.imgur.com/yTUhYkq.png
という風になる。
95%HDI(Highest Intensity Interval)がどの目でも
1/8～1/4を含むから、
どの目に関しても歪とは結論されない。

別の試行で計算してみる。
18回サイコロを投げて1の目が10回、2の目が8回でたときの
事後分布は
http://i.imgur.com/2RlV9g3.png
２の目以外は非歪コイン域（Range of Practical Equivalence: ROPE)と
95%HDIが重ならないので、２以外の目は歪と結論できる。

標本数が少ないとHDIが広くなるだけ。
正規分布近似など全く必要なし。

**１３２人目の素数さん** · 2017/12/26(火) 16:14:54.26

以上の議論で、

少数例でも結論はだせる。

とうぜん信用区間は広くなる、信憑性が低くなっていることは区間幅で数値化されているのだから問題なし。

どこにもｐ値との比較はでてこない。強いて言うなら９５％HDIの５％が危険率に匹敵するくらい。

**１３２人目の素数さん** · 2017/12/26(火) 20:08:52.62

ほぼ一直線の分布曲線が、ベイズ更新により、なだらかなピークを持つ曲線に変化したのを見て、
「ほら、この辺に平均値があるはず」等と、喜んでいるだけ。
頻度主義はいわば、鋭いピークを持つ分布曲線になるまで、じっと結論を待つことにアナロジーできる。

>>少数例でも結論はだせる。
>>とうぜん信用区間は広くなる、信憑性が低くなっていることは区間幅で数値化されているのだから問題なし。

「サンプル数が少ないと、信憑性が低くなる」
ということを
「サンプル数が少ないと、信憑性が低くなるが、それを数値化しているから問題ない」
と強弁しているだけだね。
つまり、「少数例でも結論はだせる」ではなく、「だせたつもりでいる」だけ。

一定の信用度を持つまで結論を先送りするか、信用度を犠牲にして結論をだすかの違い。

**１３２人目の素数さん** · 2017/12/26(火) 21:38:58.06

>>251
事前分布をもとに結論が出せてるじゃん。
コインの例なら一様分布を選ぶか一か八かのbeta(0.5,0.5)にするから弱情報分布のbeta(2,2)を選ぶかが、主観的と呼ばれるだけ。
ベイズの確率はcredibility信憑性なのだから、何の問題もない。

正規分布近似の必要は全くないので近似できる標本数が必要という議論は誤りだね。

**１３２人目の素数さん** · 2017/12/26(火) 21:42:17.50

>>251
事前分布をもとに結論が出せてるじゃん。

コインの例なら一様分布を選ぶか、一か八かのbeta(0.5,0.5)にするか、弱情報分布のbeta(2,2)を選ぶかが、主観的と呼ばれるだけ。
ベイズの確率はcredibility信憑性なのだから、何の問題もない。

正規分布近似の必要は全くないので近似できる標本数が必要という議論は誤りだね。

**１３２人目の素数さん** · 2017/12/26(火) 21:51:31.77

>>251
じゃあ、>219の各ゴルゴの期待値とその信頼区間を
頻度主義統計で答えてみ！
100発100中ならサンプル数として十分だろ。
ゴルゴ13とゴルゴ14の命中率はどちら上か検定してみ！
サンプル数不足なら1000発1000中のゴルゴ12とのゴルゴ13との比較でもいいぞ。
頻度主義統計でp値出してみ。

**１３２人目の素数さん** · 2017/12/26(火) 21:57:12.23

>>251
直線の一様分布にも平均値あるんだが、頭が腐ってない？

**１３２人目の素数さん** · 2017/12/26(火) 22:55:59.71

ゴルゴ13
ゴルゴ14
ゴルゴ15は

全員同じ能力で各々10000発撃ったときの命中率は10000発10000中のみ

**１３２人目の素数さん** · 2017/12/27(水) 00:14:11.16

命中率がp未満とする。
n発撃って、全発命中する確率はp^n未満となるが、これがたまたま発生したと考えると、
p^n<0.05　や　p^n　<　0.01　という式が立てられる。
これが、ゴルゴにより達成されたと考え、この結果の否定が採用される。

例えば、n=1000　で　危険率0.05を採用すると、　p<0.997009　からp≧0.997009
例えば、n=1000　で　危険率0.01を採用すると、　p<0.995405　からp≧0.995405
例えば、n=100　で　危険率0.05を採用すると、　p<0.970487　からp≧0.970487
例えば、n=100　で　危険率0.01を採用すると、　p<0.954993　からp≧0.954993
例えば、n=10　で　危険率0.05を採用すると、　p<0.741134　からp≧0.741134
例えば、n=10　で　危険率0.01を採用すると、　p<0.630957　からp≧0.630957
例えば、n=1　で　危険率0.05を採用すると、　p<0.05　からp≧0.05
例えば、n=1　で　危険率0.01を採用すると、　p<0.01　からp≧0.01
あくまで、命中率の下限を評価しただけなので、実際の命中率は、1とそれぞれの間のどこかにある。

危険率5%で、
1000発1000中　→　10000中　9970発～10000発　平均　9985
100 発100 中　→　10000中　9705発～10000発　平均　9852
10　発10　中　→　10000中　7411発～10000発　平均　8705
1　発1 　中　→　10000中　 500発～10000発　平均　5250

**１３２人目の素数さん** · 2017/12/27(水) 06:31:31.84

>>257
対称でない確率分布から期待値だすのに片側検定での境界値と
上限値を足して２で割るかよ？

期待値は原点周りの一次モーメントだぞ。
ベイズでの期待値を教えてあげよう。
命中率の事前分布を一様分布にするとｎ発ｎ中のゴルゴの命中期待値は(n+1)/(n+2)になる。

**１３２人目の素数さん** · 2017/12/27(水) 07:15:29.14

>>258

そして　事後確率の９５％信頼区間は　０．０５の(n+1）乗根から１になる。

**１３２人目の素数さん** · 2017/12/27(水) 07:18:48.33

>>258
>命中率の事前分布を一様分布にすると
正規分布なら？

**１３２人目の素数さん** · 2017/12/27(水) 07:43:22.18

>>257
もとのデータが変わらないのに危険率を変えるとオマエのいう平均値が変わるのは変だと思わんのかよ？

まさに主観的ｗｗｗｗ

オマエの「平均値」計算式でn=100のときの「平均値」がどう変動するかグラフにしてやったぞ。

http://i.imgur.com/6OIUvas.png