統計学Part17 [無断転載禁止]©2ch.net

**１３２人目の素数さん** · 2016/11/11(金) 02:34:18.63

前スレ

統計学Part16
http://rio2016.2ch.net/test/read.cgi/math/1410263098/

統計学なんでもスレッド14
http://uni.2ch.net/test/read.cgi/math/1326471964/

**１３２人目の素数さん** · 2020/03/26(木) 23:02:19.19

>>878
「統計でウソをつく方法」というのを思い出したｗ

**１３２人目の素数さん** · 2020/03/27(金) 00:59:55.19

>>879
ある国の人口は100,000,000人で、
そのうちの1,000人が「有名人」です。

いま、ある感染症に、1人の有名人が罹患しました。

なお、この感染症は国民にランダムに罹患するものとします。

①この条件だけで、全国民の感染症患者数は、ほぼ100,000人と推計できるでしょうか？

②「他の999人は罹患していないことが分かっている」という条件を付け加えたとき、
　上記の推計結果は変わるでしょうか？

③罹患した有名人が2人のとき、単純に200,000人と推計できるのでしょうか？

罹患している人の確率よりも、罹患していない人の確率を計算して１から引く？
よくわからない。

**１３２人目の素数さん** · 2020/03/27(金) 08:03:46.59

志村けんが感染する確率なら結構低いかもしれないが、今気にしてるのはあくまで一定以上の知名度の有名人が感染する確率だから特に都内に限定すれば大して珍しいことではない

**１３２人目の素数さん** · 2020/03/27(金) 10:39:09.59

主観ではテレビ業界はインフル蔓延しがち

**１３２人目の素数さん** · 2020/03/27(金) 13:20:56.10

>>881
1については母比率の推定から類推できそうだけど
芸能人に限定するとランダムサンプリングではないから
少し調整が必要だろうな
どんな調整が適切かは判らないけど

例えば、ダイヤモンドプリンセスをサンプルに感染率の推定をしても値が妥当でないのと同じだと思う

**１３２人目の素数さん** · 2020/03/27(金) 16:01:36.46

>>881
人口がN=1億で、感染者の数がA、非感染者の数がN-Aとし、有名人の数がU=1千とすると、
有名人の感染者の数がnである確率は、C[U,n]C[N-U,A-n]/C[N,A]

A＝2530のとき、n≧1の確率は2.5%、A＝555900のとき、n≦1の確率は2.5%だから、
これだけの情報では範囲が荒すぎて②「ほぼ100,000人」なんて言えず、①も当然言えない
A＝24230のとき、n≧2の確率は2.5%、A＝720600のとき、n≦2の確率は2.5%だから、
これだけの情報では範囲が荒すぎて③「ほぼ200,000人」なんて言えない

そもそも、感染者を見つけてからそのサンプルの珍しさを後出しで主張するのは反則だよね
人は大きい集合に属していたり同時に小さい集合にも属していたりするので、
小さい集合から出たサンプルであると、後出しならいくらでも都合よく主張できてしまう

**１３２人目の素数さん** · 2020/03/27(金) 16:36:21.98

>>882
毎夜の六本木での志村のご乱行を
知っているので
感染しても当然としか思わない。

阪神の藤浪選手も同じような
ご乱行により感染したのだ。
これ業界では有名よ！

**１３２人目の素数さん** · 2020/03/28(土) 00:19:05.27

>>885
ありがとう
なんとなく雰囲気は分かりました。

学者なら、こういう議論くらいしてほしいよね。

**１３２人目の素数さん** · 2020/03/28(土) 08:06:46.15

>>867
現時点をt=0とし、時点tにおける感染者の割合をp(t)とする
感染者は一人あたり、一日に5人と接触する
その5人のうち非感染者は、時点tにおいて、5*(1-p(t))人そのうち20%の人間に移す
なので感染者一人が作る一日の新規の感染者は、0.2*5*(1-p(t))=(1-p(t))人
感染者みんなで作る一日の新規の感染者は、それのp(t)倍に比例する量となる
よって、感染者の増加率は、p(t)(1-p(t))に比例し、dp(t)/dt=Kp(t)(1-p(t))と書ける
dp(t)/{p(t)(1-p(t))}=Kdt、∫dp(t){1/p(t)+1/(1-p(t))}=∫Kdt、ln(p(t))-ln(1-p(t))=Kt+C
ln(1/p(t)-1)=-Kt-C、1/p(t)-1=Aexp(-Kt)、p(t)=1/(1+Aexp(-Kt))、（ただし、A=1/p(0)-1）

また、p(t)に比例した量の死亡者が出ることで感染者の減少分があると考えるなら、
p(t)の増加率は、dp(t)/dt=Kp(t)(1-p(t))-KTp(t)=Kp(t)(1-T-p(t))=と考えて、
dp(t)/{Kp(t)(1-T-p(t))}=dt、dp(t){1/p(t)+1/(1-T-p(t))}/(1-T)=Kdt
ln(p(t))-ln(1-T-p(t))=∫K(1-T)dt=K(1-T)t+C、(1-T)/p(t)-1=Aexp(-K(1-T)t)
p(t)=(1-T)/(1+Aexp(-K(1-T)t))　ただし、A=(1-T)/p(0)-1

**１３２人目の素数さん** · 2020/03/28(土) 09:59:49.88

>>887
>なんとなく雰囲気は分かりました

間違いのもとです

**１３２人目の素数さん** · 2020/03/28(土) 10:03:17.39

雰囲気で学者をありがたる統計信者（笑）

**１３２人目の素数さん** · 2020/03/28(土) 19:58:07.98

議論するほど賢くないもので

A＝2530のとき、n≧1の確率は2.5%、A＝555900のとき、n≦1の確率は2.5%だから、

なぜここで2530と555900を選んだのかが分からない

**１３２人目の素数さん** · 2020/03/28(土) 21:29:42.50

95%信頼度で両側に2.5%ずつになる値かと思う

**１３２人目の素数さん** · 2020/04/22(水) 23:32:09.53

やっとt検定まで理解できたつもりになった
ちゃんと理解せねば

**１３２人目の素数さん** · 2020/04/26(日) 13:41:50.94

統計学なんて独学でやってもさっぱりわからんね。
わかったと思っても使わないとすぐ忘れる。

**１３２人目の素数さん** · 2020/04/26(日) 17:13:21.42

区間推定とか検定とかの考え方は忘れないだろ
具体的な計算方法は調べたりプログラムで実行したりすれば良い

**１３２人目の素数さん** · 2020/04/26(日) 20:41:00.48

https://twitter.com/georgebest1969/status/1253898476078813185
なぜこんなに事後確率が高くなるんだろう
ベイズの定理って未だに理解できない
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2020/04/28(火) 11:32:33.08

>>894
確率が分かってれば応用だろ

**１３２人目の素数さん** · 2020/04/28(火) 11:47:56.51

統計勉強してる人はなんのプログラム言語を学習するべき？

**１３２人目の素数さん** · 2020/04/28(火) 12:52:43.99

python
R

**１３２人目の素数さん** · 2020/04/28(火) 16:02:51.24

1人じゃ進まねえ
学校ってありがたいもんだったな

**１３２人目の素数さん** · 2020/04/28(火) 17:36:45.69

>>898
プログラムは手段だから実現したいことが簡単になるものを選んだり学んだりしたらいい
とくにないならPythonは情報もモジュールも多いし悪くないと思う

**１３２人目の素数さん** · 2020/04/28(火) 17:37:39.47

あとPythonでWebサービス実装したりもできるし
一応汎用言語だから

**１３２人目の素数さん** · 2020/04/28(火) 18:31:31.84

>>900
俺には時間の無駄の極致だったな

**１３２人目の素数さん** · 2020/04/30(木) 13:20:55.48

有益無益は本人次第

**１３２人目の素数さん** · 2020/05/01(金) 12:00:58.75

>>900
>>903
俺の先生は、教えるのが下手であるし、
教えるのはめんどくさいという人で、
ホントに全く何も教わってないです。

しかし、他の先生方の勉強会に連れて行って
くれたりしたので、いろんな先生と出会って
結果としてそれが良かったです。

統計関連のいろんな先生に今まで何度も助けてもらったり、いろいろと教わることができました。
というのも、教えて欲しいことは、
壁にぶつかったときのひと言なんです。

自分で必死に考えて、必死に調べてもわからない。

そゆときに先生方に相談すると、
黄金のひと言をいただけるのです。
そうやってなんとか勉強を続けて、
現在に至ります。

自分で全く調べても考えてもいない人には教えても無駄なことが多いので、
考えてから質問する人に教えたいです。

**１３２人目の素数さん** · 2020/05/03(日) 16:57:23.60

>>851
>最小二乗法が使い物になるか・・・・・・・・・
収集値の残差分布が正規分布を呈していたら
最小二乗法が使えると判断してよいだろ？

**１３２人目の素数さん** · 2020/05/03(日) 17:13:40.85

収集値が母集団から満遍なくサンプリングされていることが保証できるならokだが実用上はそんなこと仮定できないことの方が多いだろう
実用化しようとしたら机上で考慮しなかったパターンのデータが侵入してまともに機能しないというのはあるある

**１３２人目の素数さん** · 2020/05/03(日) 22:16:23.06

それ言っちゃなんもできんがな

**１３２人目の素数さん** · 2020/05/04(月) 00:19:36.55

何もできないなんて誰も言っていない
最小二乗法を使うための前提が成立しないのに最小二乗法は使えないぞと言っているだけ
別の方法を検討すればいい

**１３２人目の素数さん** · 2020/05/04(月) 15:21:29.87

3月の宿題で(1)のみ正解の数弱@shukudai_sujaku

昨年度の大学への数学(大数)での勝率は、

学コンBコースが 1/1 = 100% ，

宿題が 3/10 = 30% でした！

宿題の勝率が低すぎると思うので、

これからは一層精進していきたいです！

https://twitter.com/shukudai_sujaku
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2020/05/08(金) 18:49:49.75

仕事でつかえるかもと思い統計学を勉強中のものですが、
以下の問いがまったくわからないので教えてください。

YesかNoで答える質問で、以下のような回答データがある。
2010年　20%　n=100
2011年　30%　n=120
2012年　23%　n＝80
2013年　25%　n=150
2014年　10%　n=100
この時、2014年の回答に対し、「たまたまだ」「何か原因があるはずだ」
のどちらかの判断を下したいとき、どのように導けばよいか。

標本検定で母平均？母分散の比？を検定すればよいのか、
過去のデータから確率の理論値を出してカイ２乗検定をするのか、
そもそも統計学で結論を出すべき問題ではないのか・・・

**１３２人目の素数さん** · 2020/05/08(金) 21:59:24.72

>>911
母比率の信頼区間かな
95%信頼度でも99%でも有意差があると思う

**１３２人目の素数さん** · 2020/05/08(金) 22:05:46.90

テューキーの多重比較

**１３２人目の素数さん** · 2020/05/08(金) 22:09:52.66

>>912
各年を独立な観測とするならp値を修正する必要がある

**１３２人目の素数さん** · 2020/05/08(金) 22:24:07.88

2014年の信頼区間を求めて他の値がその区間に含まれるかどうかでよくないか？

**１３２人目の素数さん** · 2020/05/08(金) 23:00:50.85

k群の個々同士で有意水準αで検定したら
1-(1-α)^(kC2)=1-(1-0.01)^(5c2)=0.096の確率で帰無仮説を棄却することになる
この補正方法には何種類かあってどれを使うかは検出力次第

あとテューキーは等分散仮定しないとだめか

**１３２人目の素数さん** · 2020/05/08(金) 23:13:29.64

>>916
分散分析の方が良くないか？

2014年の結果が有意差あるかどうかを知りたいだけだから
2014年の母比率の信頼区間に他の年の結果が入るかどうかで良くない？
ダメな理由は？

**１３２人目の素数さん** · 2020/05/08(金) 23:51:11.53

ANOVAは全体として等平均性があるか検定してるけど1群だけ異なっているケースは棄却されにくい
そして特定の群だけに注目して他の群を見なかったことにするのは多重比較を前提にした実験で一番やってはいけないこと

**１３２人目の素数さん** · 2020/05/09(土) 00:00:16.67

「2014年は他と差がありそう」っていうのはあくまで結果を見るまで分からないというのが統計のスタンス
それを調べるには全通り調べるしかない

**１３２人目の素数さん** · 2020/05/09(土) 00:10:23.06

>>919
で、具体的にどうやって検定したらいいの？
2014年と2013年の場合は？
2014年と2012年の場合は？
最終的にどう修正してどんな結果になる？

**１３２人目の素数さん** · 2020/05/09(土) 00:27:57.13

多重比較とか比率の差の検定で調べればすぐに見つかる

**１３２人目の素数さん** · 2020/05/09(土) 00:37:15.20

>>921
結果は？
他の年と比べて誤差とは言えない有意な差がある？

**911** · 2020/05/09(土) 01:36:05.99

みなさんありがとう。
私は過去4年の平均だして、有意水準95パーセントで区間推定して、その最小値を確率の理論値としてカイ2乗検定してみたんだけど、全然違うみたいだね。

教えていただいたキーワード調べてみます。

**１３２人目の素数さん** · 2020/05/10(日) 15:16:21.36

>>870
2月初めのダイプリ号報道以来新型コロナウイルス感染問題
一色になり当数学板にも新型コロナウイルス感染数理に特化
した以下スレが2/29に新設されていますね。
数学統計に詳しい人が語るコロナウイルス
https://rio2016.5ch.net/test/read.cgi/math/1582910321/

**１３２人目の素数さん** · 2020/05/16(土) 03:41:44.49

基準群Nと刺激群A,B,Cがあって，
基準群とA,B,Cそれぞれの組に違いがあるかをフィッシャーの正確確率検定で比較しようとしているのだけど，
この場合普通にN-A,N-B,N-Cを２つずつ比較してしまって構わないのかな？
それともこれらをやったあとに多重比較の補正を行う必要があるのかしらん？

**１３２人目の素数さん** · 2020/05/16(土) 11:10:25.73

>>925
フィッシャーの正確確率検定をどう適用する？
https://ja.m.wikipedia.org/wiki/フィッシャーの正確確率検定
2×2分割表みたいにすると思うけど
何を行に割り当てて
何を列に割り当てる？

**１３２人目の素数さん** · 2020/05/16(土) 14:23:38.26

>>926
心理的な評価内容で，行に群(N,A,B,C)を振って，列に選択した行動3種類（X,Y,Z）を振り，各セルに選択した人数を入れて適用しようとしてます
3×3の分割表ですね

**１３２人目の素数さん** · 2020/05/16(土) 14:24:17.67

3×3じゃないや，2×3か4×3の分割表かな

**１３２人目の素数さん** · 2020/05/16(土) 19:22:20.86

>>927
それで何が判るの？
最初に書いていたものと違うものが判るような気がするけど

**１３２人目の素数さん** · 2020/05/16(土) 21:30:16.28

>>929
妥当そうに見えるけど、間違ってるのか？

**１３２人目の素数さん** · 2020/05/16(土) 22:01:49.62

>>930
N,A,B,Cの結果に差がある事を確認したいのが元の目的
それを確認できるかな？

**１３２人目の素数さん** · 2020/05/16(土) 23:38:25.03

>>931
できないんですかね？もしかして私フィッシャーテストを勘違いしてる？

**１３２人目の素数さん** · 2020/05/22(金) 06:22:09.05

>>932
フィッシャーテスト？
実験計画法使ってますか？
http://science6.2ch.net/test/read.cgi/sim/1023853891/

**１３２人目の素数さん** · 2020/07/07(火) 13:10:46.23

ガンマ分布関数の最頻値の確立変数を求めたいんだけど
最頻値の値は、式が見つかるんだけど
そのＸ座標みたいなものの式が見つからないんだよね

**１３２人目の素数さん** · 2020/07/07(火) 13:25:28.81

計算したら、

ｘ＝exp(log(a-1)/a-2))

になった。なるほど

**１３２人目の素数さん** · 2020/07/07(火) 13:33:53.58

違った

ｘ＝exp(log((a-1)Xb)/a-2))

だった。なるほど

**１３２人目の素数さん** · 2020/07/07(火) 13:45:00.91

間違っていた

b(a-1)

だった、聞くまでもなった

**１３２人目の素数さん** · 2020/07/10(金) 20:28:26.94

真面目かっ

**１３２人目の素数さん** · 2020/07/12(日) 00:35:05.17

普通に微分するだけやん

**１３２人目の素数さん** · 2020/07/19(日) 23:40:40.77

「異端の統計学ベイズ」が面白かった
こんな別世界があったなんて気づかなかった

**１３２人目の素数さん** · 2020/07/25(土) 18:04:42.56

>>940
ベイズは異端でもなんでもないです
普通にデータ分析すればベイズになります

そういうタイトルを付ければ
釣られて本買うアホがいる
ということです

**１３２人目の素数さん** · 2020/07/26(日) 01:19:01.13

頻度論 VS ベイズみたいな構造で別物として考えようとする限りベイズを理解できているとは言えないだろうな

**１３２人目の素数さん** · 2020/07/26(日) 04:15:28.81

>>941
歴史を知らない知ったかぶりのバカｗ

**１３２人目の素数さん** · 2020/07/26(日) 11:50:07.18

ベイズを理解できなかった人の成れの果てのような記事

島根県の事例からも数字で明らかになる「検査をすると患者が増える」説のデタラメさ
https://hbol.jp/224407
＞島根県、陽性者発生と大規模検査をベイズ推定で検証！

**１３２人目の素数さん** · 2020/07/26(日) 12:03:13.28

>>943
お前がバカ過ぎるの

笑えるぐらいバカw

**１３２人目の素数さん** · 2020/07/26(日) 12:06:32.17

このスレって初心者しかいないんだねえ(笑)

「ベイズってスゲーッ！」って
書けばいいの？(笑)

じゃベイズってなんだよ？
本読んで勉強したんだろ？(笑)
>>943はベイズを説明してみな。
できないだろうな
バカだからね(笑)

**１３２人目の素数さん** · 2020/07/26(日) 16:43:23.50

>>945,946
悔しくて2連投。涙ふけよｗｗ
バカと言われた返しがこれ↓

>「ベイズってスゲーッ！」って

バカ丸出し。やはりただの知ったかぶりだったな
お前はこのスレで1番の知ったかぶりのバカと認定してやるよｗ

「お前が知ったかぶりかつバカである」という仮定の事前確率は0.9だったが
お前のレスで事後確率は、0.9999999になったｗ

**１３２人目の素数さん** · 2020/08/06(木) 14:33:33.89

>>784
自分も気になってたから自分なりにまとめてみた

まず同じ確率分布を持つ変数x_iたちのどんな2次形式の平均値も元の確率分布の平均μと分散σ^2を使って書ける
実際、ベクトル表記x=(x_i)∈R^nと行列A∈M_n(R)を使って
一般に2次形式はx^tAxと書けるが、その平均E[x^tAx]は
σ^2tr(A)+μ^2(Σ_i,jA_ij)と計算できる
σ^2だけを得たい(σ^2の不偏推定量がほしい)のであれば
2項目つまりΣ_i,jA_ijがゼロであればよい
例えば、 Aが(1,1,…,1)に垂直な(n-1)次元超平面への射影行列であれば満たされる
この時、σ^2の係数であるtr(A)は(n-1)となる
(射影行列のトレースは像空間の次元に一致する)
こうしてE[x^tAx]=(n-1)σ^2を得る
同じように
一般にAが(1,1,…,1)に垂直な(n-k)次元超平面への射影行列であれば、E[x^tAx]=(n-k)σ^2を得る
多重線形回帰はこの射影する次元をパラメータを推定することで下げてると見ることができる

しかしσ^2の不偏推定量がほしいだけであればΣ_i,jA_ij=0であるどんな2次形式x^tAxを使ってもいい
そのときσ^2の係数はtr(A)だけズレる

**１３２人目の素数さん** · 2020/08/06(木) 15:14:03.41

>>948
補足
標本の分散をn倍したものΣ(x_i-(Σx_k)/n)^2は
A=I-1/nP(Iは単位行列、Pは全ての成分が1の行列)を使って
x^tAxという2次形式になっている
この行列Aは対称かつ冪等なので射影行列であり
(1,1,…,1)に垂直な(n-1)次元超平面への射影になっていて
実際トレースは(n-1)である

**１３２人目の素数さん** · 2020/08/07(金) 20:11:02.83

>>948
計画行列から射影行列を計算して二次形式の期待値を計算すれば(n-1)σ^2が求まるということですか？

**１３２人目の素数さん** · 2020/08/07(金) 20:16:03.13

というか射影される次元はrank(A)に依存するか

**１３２人目の素数さん** · 2020/08/11(火) 02:43:32.23

検定やら回帰分析は統計学でカバーしているが,
機械学習はクラスタリングや決定木とか、統計学の範囲を超えた部分もあるので,
そこらへんは機械学習使わんといかんと思います。

**１３２人目の素数さん** · 2020/08/11(火) 12:57:02.48

誰かわかる？
TOEICみたいな英米の選択式試験て素点をスケーリングしてスコアにすることがほとんどだけど
英医学部適性試験UCATの資料みると
昨年の試験のある部分
素点平均21.27標準偏差5.78最高39
最高のZ値=(39-21.27)/5.78=3.06...
300から900にスケーリングするってんだが、結果
平均557.5標準偏差74.21最高890
最高のZ値=(890-557.5)/74.21=4.48...???
英米のこの手の換算かなり見たけど
おおざっぱではあってもほぼ線形
Z値ほぼ変わらない
しかし
この結果
いったいどういうスケーリングしたんだろ？
まったく想像できない

**１３２人目の素数さん** · 2020/08/11(火) 18:24:30.58

>>953
少なくとも、線形でスケーリングするなんて今時どこもやっていない。
たまたま数字が合っただけかと。

**１３２人目の素数さん** · 2020/08/11(火) 19:26:42.80

偏差値は？
平均50
標準偏差10
線形スケーリング

**１３２人目の素数さん** · 2020/08/11(火) 19:31:57.65

https://collegedunia.com/exams/toeic/results
上と下はあやしいが
ほぼ線形
英米ってなんでこうすんだろう
SATとかIQテストもこういうの多い
変換後５とか10きざみ
ある程度以上だと変換後スコア同じ
ある程度以下だと変換後スコア同じ
ってのがよくある

**１３２人目の素数さん** · 2020/08/12(水) 17:14:06.82

選択式なのでたとえば４択40問ならわからなくても平均10
これより下はわかってないとして０にスケーリング
最高のZは高くなる

**１３２人目の素数さん** · 2020/08/12(水) 17:14:07.29

選択式なのでたとえば４択40問ならわからなくても平均10
これより下はわかってないとして０にスケーリング
最高のZは高くなる

**１３２人目の素数さん** · 2020/08/22(土) 00:20:07.51

そうなんだ

**１３２人目の素数さん** · 2020/08/24(月) 05:50:54.16

この問題分からないから誰か教えてくれ

不偏推定量と有効推定量についての問題

母平均μ(≠0)が分からない母集団分布から無作為抽出された標本X(1)、X(2)、X(3)、X(4)をとる。母分散は12である。

（１）母平均μの3つの推定量
T(1)=(X(1)+X(2)+X(3)X(4))/4
T(2)=(X(1)+2X(2)+2X(3)X(4))/6
T(3) =(X(1)+X(2)+X(3)X(4))/3
の中でどの推定量が不偏推定量であるか

（２）3つの推定量の中でどれが最も有効な推定量であるか

**１３２人目の素数さん** · 2020/08/24(月) 06:27:12.57

>>960
誤字ってないか
X(3)とX(4)の間に+がないとどれも不偏推定量にならん気が

**１３２人目の素数さん** · 2020/08/24(月) 06:38:02.95

>>961
誤字ってました。すいません

T(1)=(X(1)+X(2)+X(3)+X(4))/4
T(2)=(X(1)+2X(2)+2X(3)+X(4))/6
T(3) =(X(1)+X(2)+X(3)+X(4))/3

ですね

**１３２人目の素数さん** · 2020/08/24(月) 07:34:13.35

一括してT=aX(1)+bX(2)+cX(3)+dX(4)とおいて計算する
T(1)のとき、a=1/4,b=1/4,c=1/4,d=1/4
T(2)のとき、a=1/6,b=2/6,c=2/6,d=1/6
T(3)のとき、a=1/3,b=1/3,c=1/3,d=1/3
X(i)の期待値はE[X(i)]=μ
X(i)X(j)(i≠j)の期待値はE[X(i)X(j)]=E[X(i)]E[X(j)]=μ^2
X(i)^2の期待値はE[X(i)^2]=σ^2+μ^2=12+μ^2
である
(1)
Tがμの不偏推定量であるためにはTの期待値E[T]がμと一致しなければならない
E[T]=E[aX(1)+bX(2)+cX(3)+dX(4)]
=aE[X(1)]+bE[X(2)]+cE[X(3)]+dE[X(4)]
=aμ+bμ+cμ+dμ=(a+b+c+d)μ
よって(a+b+c+d)=1となっているT(1)とT(2)が不偏推定量である
(2)
Tが最も有効となるのはTが不偏かつその分散E[(T-E[T])^2]が最も小さくなるときである
E[(T-E[T])^2]=E[T^2]-E[T]^2
= E[(aX(1)+bX(2)+cX(3)+dX(4))^2]-((a+b+c+d)μ)^2
=a^2E[X(1)^2]+b^2E[X(2)^2]+c^2E[X(3)^2]+d^2E[X(4)^2]2abE[X(1)X(2)]+…+2cdE[X(3)X(4)]-((a+b+c+d)μ)^2
=(a^2+b^2+c^2+d^2)σ^2
=12(a^2+b^2+c^2+d^2)
となるので、結局a～dの平方和が最も小さいものが最も有効となる
この平方和はT(1)では1/4、T(2)では5/18となる
よって、T(1)がこの中で最も有効である

**１３２人目の素数さん** · 2020/08/24(月) 07:47:11.91

>>963
本当にありがとうございます。感謝しかないです。

**１３２人目の素数さん** · 2020/08/25(火) 02:12:44.78

カシオのWebアプリClassPad.net
https://youtu.be/HOESVQ4TzV0

手書きの図をきれいに出力してくれたり
ユーザー定義関数を使えるのがいいね

**１３２人目の素数さん** · 2020/08/25(火) 18:47:05.05

よいですね

**１３２人目の素数さん** · 2020/08/26(水) 10:35:32.62

統計は教養ですね

**１３２人目の素数さん** · 2020/08/26(水) 14:04:21.29

質問なのですが、最近GNIの統計を調べていたんですが、国連の統計で2018年の2年前までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、GNIの統計データが2017年になっていて、なるほど2年前のデータです。
なぜ1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか？
教えてください。

**１３２人目の素数さん** · 2020/08/26(水) 14:06:18.71

質問なのですが、最近GNIの統計を調べていたのですが、国連の統計で2年前の2018年までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、載っているGNIの統計データが2017年になっていて、なるほど2年前のデータです。
1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか？
教えてください。
（日本語がおかしかったので修正しました）

**１３２人目の素数さん** · 2020/09/01(火) 19:28:27.43

2830
学コン・宿題ボイコット実行委員会@gakkon_boycott 9月1日
#拡散希望
#みんなで学コン・宿題をボイコットしよう
雑誌「大学への数学」の誌上で毎月開催されている学力コンテスト(学コン)と宿題は、添削が雑で採点ミスが多く、訂正をお願いしても応じてもらえない悪質なコンテストです。(私も7月号の宿題でその被害に遭いました。)このようなコンテストに参加するのは時間と努力の無駄であり、参加する価値はありません。そこで私は、これ以上の被害者を出さないようにするため、また、出版社に反省と改善を促すために、学コン・宿題のボイコットを呼び掛けることにしました。少しでも多くの方がこの活動にご賛同頂き、このツイートを拡散して頂ければ幸いです。
https://twitter.com/gakkon_boycott/status/1300459618326388737
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2020/09/11(金) 22:16:44.90

2.0 4.9
12.7 28.4
0.7 2.3
5.4 11.9
0.9 8.9
3.9 13.9
6.2 26.5
31.3 47.2
26.5 37.0
9.2 26.4
10.1 27.3
5.7 19.8
21.9 ？

左の列の数字の時に右の列の数字が出るとして、
？が30以上になる確率を求める方法が知りたいです。
エクセルのFORECAST関数で36.67くらいになりそうだということまでは分かったのですが。
(左が予備校生のうち試験で成績が悪かった人の割合%、
右が試験受験者全体のうち試験で成績が悪かった人の割合%です。
予備校生のデータから未発表の全体の割合が30%を超える確率が知りたいです。)

**１３２人目の素数さん** · 2020/09/16(水) 17:43:09.30

ExcelのMINVERSEって
内部でやってるのはLU分解でしょうか？

**１３２人目の素数さん** · 2020/10/06(火) 01:59:45.02

逆行列を返すからLU分解してんのかもな
途中の処理を知ってどうするの？

**１３２人目の素数さん** · 2020/10/12(月) 17:31:41.82

こちらの論文をもとにサンプルサイズを計算したいのですが、式5(ミュー＞0
のとき)を使って計算しても再現できないのです。この論文の式、間違っていると思われるのですが、正しい式わかりました(導出できる方いました)ら、お教え下さい。

https://www.degruyter.com/configurable/contentpage/journals$002fijb$002f12$002f2$002farticle-20150039.xml

**１３２人目の素数さん** · 2020/10/16(金) 10:31:52.88

統計学の初心者です。
セミコロンの意味について教えてください。
最尤推定量の説明の中に、
L(Θ;x) = f(x;Θ)という説明がでてきたのですが、
数学において（少なくともピュアマスでは）
セミコロンがこのような場所で使われたことを見たことがありません。
なので統計学特有の使い方と思いますが、
説明がありません。
（統計学者にとっては常識？？？）
どういう意味かわかるかたいましたら教えてください。

**１３２人目の素数さん** · 2020/10/16(金) 12:51:32.85

条件付き確率の事だと思うけど
|を使う書き方と同じじゃないかな？
違いがあるのかな？

**１３２人目の素数さん** · 2020/10/16(金) 16:02:36.64

統計では普通に使う
単純にセミコロンの後はパラメータを書いているだけ

**１３２人目の素数さん** · 2020/10/16(金) 16:45:41.67

米国大統領戦で多くがバイデン勝利を予想していますが
こういった予想は可能なのでしょうか？

統計学者のネイトシルバーも前回の大統領選の予測は外していますが
有権者数に対してサンプル数が少なすぎる等の根本的な問題が有るような気がします。

**１３２人目の素数さん** · 2020/10/16(金) 19:07:09.77

米国大統領選挙は州ごとに勝者全取りだから
大票田の州と少ない州もあるし
選挙制度によって予測方法も変わると思う