統計学Part17 [無断転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
3個中1個が当たりのものがある。これを被験者6人中5人が当たりを引いた。
このとき、被験者は有意水準1%で当たりがわかるとは言えないが、有意水準5%で当たりがわかると言える。
ただし(1/3)^6=0.0014とする。
これ6C5*(1/3)^6+6C6*(1/3)^6=0.0096で1%を下回るんじゃないの?
納得できないんだけど教えて偉い人 確率を検証して当たる確率出すなんてナンセンスだよね。賭け事は進んでいて
意外性が在る乱数になるから、何か見えないものが働いていることが数学ではよくわからない。そしてタロットも然り。同じ確率なんだけど、
運命を感じるというのも変な話で。矛盾しているよね。気持ちと心が。 練習問題の解法を教えてください。基本統計学第4版(有斐閣)の6章の問題です。
41)1つのサイコロを1,000回投げたとき、1の目が180回以上出る確率と、1の目が140回以上200回以下出る確率を求めよ。
本の答えは、0.1379と0.9875です。以下のように計算してるのですが、答えがあいません。
前段の問題
n=1000,p=1/6の2項分布を正規分布で近似して求めた。μ=1000*1/6、σ^2=1000*1/6*5/6としてN(1000/6, 5000/36)を使う
(180−1000/6)/(sqrt(5000)/6)=80/sqrt(5000)=1.1313 −>正規分布の上側確率表より【0.12924】
後段の問題
Pr(140≦x≦200)で計算する
(140−1000/6)/(sqrt(5000)/6)=−160/sqrt(5000)=−2.2627 −>正規分布の上側確率表より0.011911
(200−1000/6)/(sqrt(5000)/6)=200/sqrt(5000)=2.828 −>正規分布の上側確率表より0.0023274
1−0.011911−0.0023274=【0.9857】
【】が自分で計算した答えです。計算式のどこかで間違えているのはずなのですが、自分では気付くことができません。
よろしくお願いします。 z=(179.5-1000/6)/sqrt(5000/36)=1.08894...→1.09
z=1.09に対する分布表の値は.3621なので、0.5からこれを引いて0.1379
z1=(200.5-1000/6)/sqrt(5000/36)=2.87085...→z=2.87
z=2.87 に対する分布表の値は 0.4979
z2=(139.5-1000/6)/sqrt(5000/36)=-2.30517...→z=2.31
z=2.31 に対する分布表の値は 0.4896
これらの和は0.9875
「180回以上出る確率」の相反事象は「179回以下出る確率」なので、
179.5を境界にするのが妥当だということと、教わった手順に従って、
「適当」な場面で四捨五入を行い、数表を用いると、
テキスト通りの値に行き着くようです。 ありがとうございました。離散数値での確率密度関数の使い方がわかりました。 ちょいとすみません。わからないところがあってここにたどり着いたズブの素人なのですが、よければ教えてください。
標準偏差て平均が基準値なんですよね?
平均じゃなくて、ある値(カットオフ値)を基準にしてそこからバラつきがどんなものか調べたい時は、計算方法は標準偏差と同じで平均値をカットオフ値に置き換えたらいいのでしょうか?
ネットで調べても平均値で計算、ばかりでわからなかったです Wolframに入力してみました。
https://www.wolframalpha.com/input/?i=sum%5Bchoose(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+180+to+1000%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 180 to 1000]
sum_(n=180)^1000 ((5/6)^(1000 - n) binomial(1000, n))/6^n
=0.138430864995663940543635063874277127250218037792364115557...
https://www.wolframalpha.com/input/?i=sum%5Bchoose(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+140+to+200%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 140 to 200]
sum_(n=140)^200 ((5/6)^(1000 - n) binomial(1000, n))/6^n =
=0.988113644388740861240108592472945211524447200450991732557... 重回帰分析で交互作用を検討?交互作用が予想される問題に
適用すべきは、実験計画法(分散分析)ではないのか?
重回帰分析で交互作用を検討する Posted on 2014年1月31日
http://norimune.net/1733 この名大のように先端医療開発部門に生物統計とバイオインフォマティクスを
抱える統計解析室という組織があるのは、他所のの医学部でも通常なのかな?
医学部で生物統計というと新薬の薬効の統計的検定ということか?
また統計解析室長を木下文恵某とかいう若手の助教が担うのも通常なのかな?
名古屋大学医学部附属病院 先端医療開発部 先端医療・臨床研究支援センターの体制
統計解析室−−生物統計・バイオインフォマティクス
http://www.nu-camcr.org/cms/center_index/center_staff/ 例えば、母集団から50枚の答案用紙を選んで、平均が
60点だとする。母集団は2500枚の答案用紙から成り立っているとして、平均は70点とする。このとき50枚の答案用紙をランダムに選んだかの検定はどの
ようにすればいいでしょうか。(つまり60点の平均点が低いので、ランダムに選んだかどうかを疑っているわけです。) >>646
EXCELの分析ツールは良くないというのは、統計専用ソフトと
出力値が合わないからですか?
お薦めの統計専用ソフトは、どれどれですか? 方程式に代入する速度はパソコンじゃ無理なんだろうか?そうでもないらしいね。 こんなグラフの2つの系列に対する有意差検定ってどうすればいいでしょうか。
ttps://benesse.jp/teikitest/_resource/img/kou/science/k_sc_619_6.png
実際には2つの系列はそれぞれ複数の結果があります。 >>676
母集団のバラツキが大きいならランダムに選んだと言えるかもね。
母集団の分布をどう仮定するかによるんじゃね。 >>676
母集団は正規分布としてシミュレーションしてみた。
母分散が43点程度であれば標本平均が60点以下になる確率が5%を越える。
> f= function(sig){
+ x=scale(rnorm(2500))*sig + 70
+ mean(replicate(1e3,mean(sample(x,50)))<=60)
+ }
> f=Vectorize(f)
> f(1:100)
[1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
[13] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001
[25] 0.002 0.002 0.003 0.003 0.005 0.006 0.010 0.018 0.017 0.017 0.013 0.021
[37] 0.029 0.026 0.029 0.041 0.035 0.037 0.057 0.054 0.058 0.076 0.059 0.060
[49] 0.063 0.068 0.080 0.074 0.077 0.086 0.098 0.092 0.114 0.096 0.110 0.098
[61] 0.115 0.115 0.133 0.122 0.141 0.118 0.139 0.157 0.170 0.153 0.182 0.165
[73] 0.171 0.154 0.167 0.175 0.163 0.174 0.178 0.174 0.196 0.205 0.204 0.211
[85] 0.206 0.205 0.217 0.212 0.235 0.218 0.189 0.230 0.232 0.215 0.221 0.246
[97] 0.217 0.228 0.216 0.248
> >>679
同一濃度での反応速度データがあるならpaired t-test で検定できるのでは。 >>665
6C5*(1/3)^5*(2/3)+6C6*(1/3)^6= 0.01783265 >>682
x軸の値を実験の設定値にすれば同一ですが、測定値で補正してるので厳密には同一になりません。
散布図のプロットを繋いだような系列では難しいですね。
もしx軸を設定値としてpaired t-testする場合、レプリケートの扱いは各測点で平均化すればいいでしょうか。
それとも検定結果を平均化する方法が有るのでしょうか。 >>681
訂正
×母分散が43点程度
○ 母集団の標準偏差が43点程度 >>684
阻害剤の添加による反応速度の変化=0が帰無仮説の検定
なので両端のデータが多いと有意差なしになるだろうね。
この例での有意差検定の意味がわからなくなってきた。 >>686
専用の検定が無いとなると確かに両端に影響されますね。
有意差の数値化は諦めてグラフから説明するしかないかもしれませんね。 https://i.imgur.com/BHgxjYD.png
帰無仮説、対立仮説に関する質問です。
・3つのグループの標本は同じ母集団から得られたものである。○か×か?
どちらなんでしょう。
初学者なため、自分でも何を言いたい質問なのか分かりませんが、お答えいただければ幸いです。 >>689-690
×なんですね。お返事ありがとうございます
それも画像付きで…感謝の極みです
>>691
Odyssey主催のビジネス統計スペシャリスト(上級)という資格試験の勉強中でして…
ベーシックに合格できたのでスペシャリストの方も取ろうと思ったら内容が一気に難しくなり、
恥ずかしながら独学でどうしても分からない所が出てきたので質問させていただきました >>692
統計検定二級あたりの教科書で一通り手法は知っといた方がいいかもね。無料がいいなら統計WEBとかもあるし。
まあ、でも、問題に複数の会社名が出てきてる時点で同じロット(母集団)とは言えないんじゃ?と思ったけど。 >>688
生データなしで計算すると
> ## m sd n
> A=c(159.0625,sqrt(3924.729167),16)
> B=c(240,sqrt(22027.5),17)
> C=c(366.35,sqrt(5329.292105),20)
>
> lh=rbind(A,B,C)
> colnames(lh)=c("m","sd","n") ; lh
m sd n
A 159.0625 62.64766 16
B 240.0000 148.41664 17
C 366.3500 73.00200 20
> mean.G=sum(lh[,"m"]*lh[,"n"])/sum(lh[,"n"])
> SS.bit=sum((lh[,"m"]-mean.G)^2*lh[,"n"])
> SS.wit=sum(lh[,"sd"]^2*(lh[,"n"]-1))
> df.bit=nrow(lh)-1
> df.wit=sum(lh[,"n"]-1)
> MS.bit=SS.bit/df.bit
> MS.wit=SS.wit/df.wit
> (F.ratio=MS.bit/MS.wit)
[1] 19.28831
> pf(F.ratio,df.bit,df.wit,lower.tail=FALSE)
[1] 6.18406e-07
> (η2=(SS.bit)/(SS.bit+SS.wit))
[1] 0.4355169 どの2つが別の母集団かを検定すると
> pairwise.t.test(x,g,p.adjust='holm')
Pairwise comparisons using t tests with pooled SD
data: x and g
A B
B 0.02596 -
C 4.5e-07 0.00083
P value adjustment method: holm Zが標準正規分布に従う時、次の値を求めよ。
1:P{Z>u1}=0.05を満たすu1の値 → u1=1.645
2:P{Z<u2}=0.005を満たすu2の値 → u2=-2.576
3:P{-u3<Z<u3}=0.99を満たすu3の値 → u3=2.576
Xが正規分布N(10, 5^2)に従う時、次の確率を求めよ。
1:P{X>20} → 0.0228
2:P{X<5} → 0.1587
3:P{0<X<20} → 0.9544
途中式:https://i.imgur.com/mJcxOKQ.png
※P{X>20}は 0.0028 じゃなくて 0.0228 の間違い。
━━━━━━━━━━━━━━━
Excelスレで質問したのですがスレチと言われたのでここで質問させて下さい。
上の6つの問題を標準正規分布の数値表を用いずに、
Excelの関数で求めたいのですが関数式を教えていただければ幸いです。 >>696
これを見た統計学スレの方々が答えてくれたのかはわかりませんが、
このレスの後すぐに関数式を教えていただけました。ありがとうございました! >>696
Excelスレで質問?
数学板上のソフトスレは、以下しかない筈だが?
理工系分野手法操作も扱うExcelスレは、何処板に?
【R言語】統計解析フリーソフトR 第6章【GNU R】 [無断転載禁止]©2ch.net
http://rio2016.2ch.net/test/read.cgi/math/1501755792/
統計ソフトSTATAの部屋 Ver.2
https://rio2016.2ch.net/test/read.cgi/math/1284083650/
グラフから読み取る統計学の基本入門 [無断転載禁止]©2ch.net
http://rio2016.2ch.net/test/read.cgi/math/1497075809/ Zが標準正規分布に従う時、次の値を求めよ。
1:P{Z>u1}=0.05を満たすu1の値 → u1=1.645
2:P{Z<u2}=0.005を満たすu2の値 → u2=-2.576
3:P{-u3<Z<u3}=0.99を満たすu3の値 → u3=2.576
qnorm(0.05,lower.tail = FALSE)
qnorm(0.005,lower.tail= TRUE)
qnorm((1-0.99)/2,lower.tail=FALSE)
Xが正規分布N(10, 5^2)に従う時、次の確率を求めよ。
1:P{X>20} → 0.0228
2:P{X<5} → 0.1587
3:P{0<X<20} → 0.9544
1-pnorm(20,10,5)
pnorm(5,10,5)
pnorm(20,10,5)-pnorm(0,10,5) 散々ググってもわからなかったので、教えてください。
どこか間違ってるんだが、どこかわかりません。
検定の際にα=5% β=20%、右側検定(母集団の平均測定)として、
なぜ、確率の場合分けで足し合わせるように
H0となる確率=(1−α)/(1-α+β) H1となる確率=(1-β)/(1-β+α)
ではなく
いきなり、H0の第2種の過誤=β=20%、H1第1種の過誤=α=5%なのでしょう。
そもそもμ0とμが1:1の確率で起こる前提だと、確率の場合分けができますが、前提が違うのでしょうか。
H0ならば測定値xバーはZcrit 以下に95%分布している(はず)、よってH0をrejectできない。
でもそれが間違っている確率はβ=20%よ、というのがピンときません。。。 >間違っている確率はβ=20%よ
というのは正しくないよ。
棄却 棄却しない
H0 A B
H1 C D
α=A/(A+B)
β=D/(C+D)
β=D/(B+D)ではないよ。
ちなみに
A/(A+C)はFalse Positive Report ProvbabilityとかFalse Positive Rateとか呼ばれる 平均値と中央値の差の絶対値が標準偏差以下であることを示して欲しいです。よろしくお願いします。 >>688,692です。
https://i.imgur.com/KQMCk5P.png
質問に答えてくださった方々のお力で資格試験に無事合格できました。
このスレにいる統計学の専門者の方々から見たら、
「おいおいそんな見たことも聞いたことも無いうんちな資格取ってどーすんだ?w」と思われるかもしれませんが、
単に、お礼を伝えに来ただけなのです。ありがとうございました(、、 >>704
エクセル分析ベーシック?エクセル分析スペシャリスト?
無事合格おめでとうございます。
初めて聞く資格名です。
どの方面で有能な資格なのですか?
主催odysseyというのは、どういう組織なのですか?
https://stat.odyssey-com.co.jp/about/ NHKのこの「日本人の意識」調査のサンプルサイズn=5400は、
過剰で統計理論に背いているだろ?
1安倍ちゃん ★2019/01/10(木) 18:43:00.82ID:e4+I4ZlK9
・・・「日本人の意識」調査を、昭和48年から5年ごとに行っています。最新の調査は
去年6月から7月にかけて、全国の16歳以上の5400人を対象に個人面接法で実施し、
50.9%にあたる2751人から回答を得ました。
この中で、結婚についての考え方を尋ねたところ「必ずしも結婚する必要はない」と
答えた人は68%、「人は結婚するのが当たり前だ」と答えた人は27%・・・・
【NHK世論調査の異常な現実】本当にちゃんと選んでるのか?現状の生活満足が92%
http://asahi.5ch.net/test/read.cgi/newsplus/1547113380/ >>706
どちらにしても、アンケートを受けた本人が考えたというより、
親の考え方がそうだということにしかならんのだよな。
そう考えると、大人は理不尽だ。 統計先達方に質問。先般より騒動出来の厚労省「毎月勤労統計」不正問題だが、2004年
以前まで零細企業は抽出統計、大企業は全数統計と決められていた根拠は、何なのかな?
統計の考えに立脚すれば企業規模に関わらず標本抽出統計一本でよいのじゃないか?
【伝統】厚生労働省、勤労統計を正しく装うデータ改変ソフトまで作成していた事が判明 ★2
http://asahi.5ch.net/test/read.cgi/newsplus/1547255657/ 改変ソフトって、ほんとかね?割合を合わせてるだけじゃないの?
決まりはもちろん全数だけど、件数割合を全数に合わせているとしたら
計算結果はおおきく変わらないだろうね。
だとした場合
今までの報道では、件数も合わせずに、そのまま東京の分は1/3で計算
していたと報道していた。これの方が大間違いの報道ということに
なるのだが。 社会人でも通いやすい統計学の大学院てどこかありませんか デイトレやるようになって勉強し始めた
とりあえず2級が目標 ある私立医大の合格者の偏差値の平均値はm、標準偏差は10の正規分布であるとする。
合格者のうち成績上位70%は入学を辞退し下位30%の合格者が入学する。入学者の偏差値の平均値をmaとする。
m - maを算出せよ。
答はmの値によらないでいい? >>708
1 全件調査は法的に決まっていた
2 サンプル抽出なら、全体支払い料を算出する際に抽出率の逆数を乗じないといけない
3 上のミスをこっそり修正したので賃金の伸び率が不自然になった おまけに2004年からのデータ破棄してるって
紙のアンケートだか何か知らないがひどい >>718
じつは指摘されるのと類似した問題が一つの要因で
ただ、言われていることとちょっと異なるんだが
ソフト環境が進んで、さらに無償で利用できる関係で研究員によって
好みのツールを使うようになり、検証が不十分になってきているところが
今回の要因の一つにある。
便利さが生んだ問題と言ったらいいのか。 高度な統計解析が必要とされるわけではないので
言い換えれば、ツールオタクが生んでしまった問題の
一つと言えなくもない。
言語で結果が変わるわけじゃないんだから、
研究と業務という意識の切り分けができていなかった
といえるかも。 書くところがここしないので書かせていただきます
公的な統計の問題が毎日ニュースで流れていますけど、
賃金構造基本統計調査=> チンコウ
毎月勤労統計調査 => マイキン
と、統計の専門家が短縮してチンコウ、マイキンと
おっしゃっていますけど、俺が耳がすこし悪いので、
聞くたびに、チンコ、マンコと聞こえてしまいます。
お願いですから、他の短縮形を使ってください!
よろしくお願いします! 賃金構造基本統計調査=> 賃本
じゃあまずいかな?
どう発音してもいいけど すいません、質問です。
ttp://www.data-arts.jp/jssc/grade1semi/2016-06/2/q1/q.html
この問題の(3)の解答なのですが、なぜ自由度が9になるのでしょうか。11カテゴリで自由度10にならないのでしょうか。 相関係数について教えてください。
変数a={1,1,1,1,1,1,1,1,1,1}
変数b={1,1,1,1,1,1,1,1,1,1}
つまり2つの変数の値が全て同じだった場合に、
相関係数を計算すると計算不能になりますけど、
これは相関係数は1だと言っていいんでしょうか?
それとも計算不能でいいんでしょうか? 1でok
ていうか全く同じデータの相関係数求めてどうすんの 意味ないですよね?
よくよく考えてみると、
その意味ないことを
延々と証明してるキチガイ論文見つけたので
学会発表のときに
触れてやろうと思ってます >>733 に異を唱えてくれるステキな大人のひと、いないの? エンタングルメントみたいな非自明ながらも完全なる相関性とかもあるんだけどね。 >>735
そんな人は研究に忙しくて
5chみてるヒマないでしょ?
ここにくるのは初心者とカスとゴミですから >>732
相関係数の公式は知らんが、
0/0は、不定値である
そもそも、aもbも全部1とのことだが
より精密に測定すれば
0.982とか1.023の感じの測定値となる
有効数字1桁ではなく、せめて、
有効数字2~3桁となるよう再測定せよ
なお、相関K数は計算上不定だが
一般に相関K数は-1~+1に定まる 統計学で大学院に行って学びたいと思うけど、修論がまったく思い描けない。
既にある問題解析なら、本を買ってやればよいと思う。
統計学の修士論文って、どんなレベルなんですか? 学部なんだろ、当たり前だろ、馬鹿か
>修論がまったく思い描けない 修論のテーマなんて教授から与えられるものじゃないの 昨今AIと呼ばれているものは統計学のごく一部を応用してるにすぎないし応用と呼べるレベルにすら達していないものも多い
つまり統計学なくして理論面でのAIの発展などあり得ない >>749
禿同
その基本的なことさえ
全く分かってない機械学を
Pythonでやってるママゴトでも
高い給料もらえるという
データサイエンティストバブル! >>748
残念ながら今のところ
統計学≒AI
なのよ
よろしくね! 2515
かずきち@dy_dt_dt_dx 8月28日
学コン8月号Sコース1等賞1位とれました!
マジで嬉しいです!
来月からも理系に負けず頑張りたいと思います!
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account) 初歩的なことかもしれませんが、「有意水準」に関して悩ましいことがあったので質問させてください。
個人的な興味のために、「n面ダイスをm回振って、全ての目が出揃う確率」について議論したいんですが、
統計学的には、その確率が99%以上であれば、有意水準1%のもと、「n面ダイスをm回以上振れば、流石に全ての目が出たものとして扱ってよい」と言える、
という認識で合ってますでしょうか。
合っているとして、ここからが本題なんですが。
例えばこれをn = 100で行った場合、
「百回中一回しか起こらない事象を自分は扱ってるくせに、統計学的には1%以下を無視するなんて、どの口が言ってねん」って感覚を覚えます。
つまり、nの値が大きければ大きいほど、有意水準を引き下げたくなってしまいます。
この感覚は理論的には正しいのでしょうか? 検定の概念がわかってないようなのでそこから見直しって感じですかね n面ダイスが正確に作られた(=各面の出る確率が等しい)ものであればm回振って全目が出る確率は厳密に計算できる
しかし、現実には完全に正確なダイスなどあり得ないのでこの確率からのブレが生じる
手元にある実物のダイスがどのくらい不正確かは実際に振ってみて値を記録しなければ分からない
で、実際に振った以上どの目がどの確率で出るのかは分かったのだから求めたい確率も計算できる
有意水準を使った統計学的検定でできるのはダイスが正確なものか否かの判定ぐらいでしかないので今の場合は不要 なるほど……有意水準という概念を適用できる範囲を誤解していたみたいですね。
有意水準の概念は「このダイスに偏りがないか」を調べるときには使えるが、
「ダイスが正確であるとして、m回振った結果すべての目が出揃っているか」は、例えば計算した結果99.4%だとしたらそれ以上でも以下でもなく、99%以上だからと言って全ての目が出ているとして扱えるものではない、と。
勉強し直します。ありがとうございました。 ちょっと調べてみたんですが、「どの程度、低い確率で起きる事象なら無視していいか」に関しては「ボレルの法則」というものがあるらしいですね。
「10のマイナス6乗以下の確率は、人間の時間スケールではまず起こらないものとして扱ってよい」という。
この場合適用すべきはこちらでしょうか。 確率と有意水準をごっちゃまぜにしているように見えます。
有意水準という用語の背景には、必ず帰無仮説があります。
帰無仮説というのは、いわば否定されることを目的に立てるような仮説です。
帰無仮説が否定されたなら、それに従って、何らかの主張が行えます。
その時の常套句が、「有意水準これこれで、これこれを主張する」等となります。
なぜ、その帰無仮説が否定できたか?
否定した理由は、あまり起こりえないことが起こったからという論法です。
偶然、たまたま起こったと言うこともあり得ます。
しかし、そう考えるより、帰無仮説が間違っていたと考える方が、無難だと考え、
帰無仮説の内容の否定にあたる主張を、「有意水準云々で、此れ此れ...」と言うのです。
帰無仮説が間違っていると考えるか、偶然起こることもあるから、帰無仮説が間違っているとまでは
言い切れないと考えるか、その判定の境界として採用されているのが、5%とか、1%とかの値です。
従って、この5%とか1%は、「その主張が間違っている確率」ではありません。
「間違って帰無仮説を棄却してしまった確率」です。
帰無仮説は正しかったのに、誤って否定し、何らかの主張を行ってしまった確率です。
主張の内容の確率ではなく、帰無仮説を否定してある主張を持ってきたときの判断の誤りの確率です。 5645
かずきち@dy_dt_dt_dx 9月29日
京大オープン経済190/550しか取ってないやつにマウント取られて草
お前より90点高いんだよ黙って勉強しろ
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account) 検定とか有意とか
フィッシャー最大の失敗だと思いますんw 統計学やると今流行のデータサイエンティストになれるのか? むしろデータサイエンティストブームが終わっても生き残るために必要なのが統計学
データサイエンティストになるだけが目的ならもっと小手先のテクニック身に着ける方が手っ取り早い データサイエンス=機械学習 になってしまって、統計学への関心が薄れてきた印象
データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象
結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする 機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。 緑本が難しかったんだけど、どの本から始めたらいいですか? 機械学習のベースは統計学
ついでにいうと機械学習機械学習といっているのは日本くらいなもん 緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか Rは数年前に既に衰退始まっててpythonに移行しつつある >>772
日本でいうDSだの機械学習はもう数年で終わり
今慌ててDS関係の講座作ってる大学は不良資産抱えることになる
新規採用した教員が今後20年足引っ張るよw RはRstudioが使いやすいけど、Pythonは何使ってる? 不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、
自由度と不偏推定量はどうして関係があるのでしょうか?
不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、
という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。 非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね?
いい本あったら教えてください 非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰することじゃないの?
又は2次関数なりで変数変換して線型回帰に落とし込むとか
いずれにせよ大層な話じゃないと思う 重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね
ニューラルネットとかでもいけるんですかね?ニューラルネットは軽く調べただけであんまわかってなくてすんません 単純な非線形重回帰なら一般化線形モデルでよくないか? 条件の違う2つの群に対して、5つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか? 名義尺度になるから標準偏差は取れなくない?
カイ二乗検定かね? 好みを点数で評価してもらったら
形式上は間隔尺度になるかも 要素Aについて、Aがある場合とAがない場合に、
100回中何回事象X、Y、Zが起きたか調べたデータがあるとき
X、Y、Zが起きるのは高得点である
たとえば
Xが起きる=〇点、起きない=0点
Yが起きる=△点、起きない=0点
のように何点であるかはわからないが、事象が起きると
起きないときに比べて高得点が得られるとすると、
要素Aは「高得点を得る」のに影響しているのか
というのを調べるのにはどうしたらいいでしょうか?
AとX、AとYのように個別にカイ二乗検定を行うと
p値は0.05より大きいというようなことはわかったのですが…
100回中
A ~A
X 15 10
Y 17 10
Z 12 8 >>796
Aと、Xが起きる起きないの関係でP値が5%超だと
AとXの発生は無関係って解釈になるのでは?
そのレスにあるクロス集計表だと
AとXYZのどれが発生するかの関係を調べることになると思う >>797さん、ありがとうございます!
....A ~A
X...15 85
~X..10 90
....A ~A
Y...17 83
~Y..10 90
....A ~A
Z...12 88
~Z.. 8 92
についてそれぞれp値は5%超なので、
「高得点を得る」事象X、Y、Zについて、
帰無仮説:要素Aによって、事象X、Y、Zの発生のしやすさは変わらない
は棄却不能であるので、
Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない
Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、
それは偶然であるのか必然であるのか、このデータから推論することはできない
ということでいいのでしょうか? >>798
H0:二つの変数は独立である。
H1:二つの変数は独立ではない(何らかの関連がある。)
でH0を棄却できないので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
になると思います
有意水準の値にもよりますけど ありがとうございます
優位水準5%としたとき、p>0.05なので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
同様にp>0.05なので
AとY、AとZに関連があるとは言い切れない
よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない
(あるともないとも言い切れない)
ということで大丈夫でしょうか? 統計学の勉強をしたいのですがお勧めの教書はありますか?とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです >>801
図書館とかでいろいろ見てみたらいいのでは?
同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので それぞれ、サイズの異なる
A B C D E が5分類有り、ONとOFFの2つの状態を持ちます。
ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。
判明している数値は、A〜Eのサイズ(量)と各分類でONになった回数です。
分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、
各分類で起こった回数もトータルでの起こった回数も不明です。 スレ違だったらすまん
TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな?
ふと疑問に思ってしまった >>801
教えてもらったらレスしなさい、いやなら二度と来ないで >>802
遅くなってしまい申し訳ありません。
情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。 >>812
定義とおりに計算したら求められると思います
Xが-4を取る確率をその表から読み取って掛け算して
他の値も同様にして、全部足し合わせる→平均
平均との偏差の二乗を足し合わせて個数で割る
共分散も定義の式を確認してその通りに計算する 質問:日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合
Q1. この統計調査そのものを棄却すべきなのか
Q2. 信頼区間をいじればどうにか統計として成り立つのか
Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか
よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○%!」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。 仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな
"瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―" >>805
求めたい値を変数として
今わかっている関係を数式で表す
それらを使って誤差などの評価値を最小にする値を探す
組合せ最適化問題に帰着するかもしれない >>814
除外する基準が分からないなら
そのアンケートの結果としては意味があるだろうけど
対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う
別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか >>817
仮説が正しい確率が小さいから仮説を棄却するんじゃね? 「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある
現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる >>821
仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える
分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね?
中心極限定理とかで安定分布とみなせるとかあるんじゃね? >>821
別の手段は何か適切なものがあるの?
ないなら近似的なものでも答えがわかった方がいいんじゃね? >>823
勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも
有限サンプルの世界ではあくまで近似でしかない
そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって
近似的に使えるものがあれば好きに使えばいい
ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる この問題を教えて頂けないでしょうか?
大学1年生について,何かを失敗してしまうことへの恐怖感を感じる程度(「以下,「失敗恐怖尺度得点」)と,個人の大学生活への不適応度(以下,「不適応得点」)を測定したところ,
それぞれの記述統計量について,「失敗恐怖尺度得点」に関して平均値=4.05,標準偏差=1.17,「不適応得点」に関して平均値=20.29,標準偏差=6.49という結果が得られた。また,2変数間の共分散は2.37であった。
「失敗恐怖尺度得点」を独立変数とし,「不適応得点」を従属変数として単回帰分析を行い,それぞれ値を入力欄に記入せよ。
(1) 切片を推定せよ
(2) 回帰係数を推定せよ
(3) 決定係数を示せ
(4) 単回帰分析の結果,得られる,従属変数の予測値と,従属変数との間の相関係数を求めよ
(5) 予測の標準誤差を示せ ベイズって簡単なの?理解に苦しんでる笑
もう一踏ん張りしたらそのステージに上がれるかな 平均値100 標準偏差15で定義される知能指数で
標準大学の新入生の知能指数の平均が100
裏口シリツ医大の新入生の知能指数の平均が85であったとする。
各大学から1/10を無作為抽出して知能指数をt検定したときのp値の期待値、中央値を求めよ。
また、p値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか? >>825
統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。
Rだと
library(MASS)
mx=4.05
my=20.29
sx=1.17
sy=6.49
vxy=2.37
n=1e6
mu=c(mx,my)
si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2)
dat=mvrnorm(n,mu,si)
X=dat[,1]
Y=dat[,2]
lm(Y~X) 近似値なら
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept) X
13.279 1.731 >>824
仮説なんだから真の分布はわかるはずがないだろ
仮説が成り立つとして検定するんだから
真の分布なんて厳密に判るケースの方が少ないんじゃないか?
今あるデータだけでなく未来のデータも含めないと真の分布は厳密にはわからないんだし >>832
だから散々言っているように、真の分布が分からないのに仮説が正しい確率など分からないよね?ということ
あくまで自分が勝手に作ったモデルが手元のデータに対してどれぐらい使い物になるかが分かるだけ
それが有用なら使えばいいが、それは決して仮説が正しい確率ではないというだけのこと >>833
自分が勝手に作ったモデルのことを仮説と呼ぶ
仮説が正しい確率=自分のモデルが正しい確率 >>834
そこで言う「正しい」って何だよってこと
正解があって初めて自分が作ったものが正しいか間違いかを論じることができるはずだが正解を誰も知らないので「正しい」などという言葉を使ってはならない >>835
正しい→観測した事象が発生する確率が高い >>834
これは正確ではなかったかも
仮説が正しい確率=自分のモデルで対象の事象が発生する確率
自分のモデルで対象事象が発生する確率が低い→
自分のモデルつまり仮説が正しくないから仮説を棄却する >>837
統計量と検定に使う分布を適切に選ぶ必要はある
どの程度の精度が必要かは個別に違うだろう
近似でも有用なケースもある >>835
統計だから正しいか正しくないかの二択ではないんだよ
正しい可能性が1%なのか95%なのかで違うだろ 正しいか正しくないかは確率変数ではないので正しい確率などという概念がおかしい
確率変数ではないのだから正しいという言葉を使った瞬間に正しいか正しくないかの二択で論じることになる
>>837にあるようにあくまで計算するのは作成したモデルで観測した事象をどれだけ説明できるかであるが
それは一般に言う「正しい」の意味合いとは大きく異なる
だから「正しい」などと大袈裟なことを言わずに正直に自分が作ったモデルとはこの程度合っていると言えばいいだけのこと >>840
正しいという言葉の定義の問題でしかないな
意思疎通ができれば問題ない
正しいとはこう言う意味に解釈すると前置きすれば解決する だからベイズ使えベイズ。
仮定したモデルが正しい確率だから分りやすいぞ。 ベイズって観測するまでは事前分布を均等だとみなして
観測に合わせて分布を更新すると理解しているけど
それだと滅多に起きない事を考慮できないんじゃないの? >>843
無情報事前分布を当てはめるのは普通は確率分布のパラメータに対してであって最終的に知りたい確率分布自体は別のものを用意すればいい
レアな現象を扱いたいならポアソン分布とかをベースにした統計モデルがよく使われる 別の質問スレに書いたけどスレチだったようで回答頂けなかったので、こちらで質問させてください。
あるデータを連続分布関数でフィッティングしてパラメータを決めたいのですが、累積でやるのと階級に区切ったヒストグラムでやるのはどちらがいいのでしょうか? 累積じゃないか。
最小二乗法でフィッティングできない? >>847
俺も累積だと思うんだけど。
階級に区切るほうだと、階級幅をこっちで決めなきゃいけないからいらんパラメーターが増えるのがデメリットだけど、メリットあるのか?
どっちも最小二乗法は使えるよね。 最小二乗法が使えるかどうかはデータの誤差分布がどうなっているか次第なので実際のデータを見ない限り最小二乗法が使い物になるかは誰にも分からない アメリカの株のセンチメントの悪化が1万年に1度の発生確率って本当ですか?
https://imgur.com/OCqv5uX.jpg 収益率に正規分布を使うと大変な間違いになります。
株価は非線形的な反応をします。
ポートフォリオは毎日リスクにさらされます。 >>854
正規分布って線形ではないよね
株価とかがランダムウォークしたら正規分布にならない? ポートフォリオがリスクにさらされないと価格変動はなくなるからキャピタルゲインを得られない >>855
平時はそうだけど
裾はもっと分厚い
非線形というのは例えばコロナだけの問題ではないということで
連鎖反応がある > センチメント分析とは、文字通り消費者の「センチメント = 感情」を分析する
> ことを意味します。ウェブ上に投稿されたコメントなどを分析することによって、
> 消費者が持っている感情がネガティブなのかポジティブなのか、また、どの程度の
> 強さなのかを知ることができます。
そのセンチメント分析が何をどういう方法で分析したのか不明なのだから、
5σと言われても、さっぱりなんのことやらわからんよ。
単に否定的な単語の出現頻度が上昇したとか、そんなところだろ?
だって、テレビも新聞もウィルスの記事だらけ。
そんなの分析したら極端な結果になるんだろうね。
だけど5σと判断した基準がわからんのだから、
さっぱり意味不明だね。
その意味不明だということが理解できない人が、馬鹿ということ。
つーか、非線形と線形がどういう意味なのか
知ってる奴がいないということに驚いてる。
少しは勉強したほうがいいね。 >>858
線形、非線形を知っているのがいないってどうやって確認したの?
確認できない→いない
と判断した? SPSSで2グループの判別分析をおこなうと、正準判別関数と分類関数が出力されます。
この二つの違いは何でしょうか。
実際に分類を行う場合には、分類関数を使用するのでしょうか。 初めてこのスレに来た!
データ分析のために統計学を学ぼうとしていて、調べるとちょうど6月に検定試験があってちょうどいいなと思ってた今日この頃
皆さんは受験しますか? >>851
たまに真顔でこういう人がいるから困る
検定と推定は別物な
>>840
841がおかしいけど
センセーショナルなほうがもてはやされるんだろうね 使える=計算して何らかの結果が出せる、という意味なら使える
使える=計算して得た結果が役に立つ、という意味なら使えない >>864
計算可能かどうかは学問的には興味があるだろうけど
最小二乗法を学問的に研究しても面白くないんじゃないか?
事業とかの役に立つという意味で使えるという用語を使用する人が多いだろうよ 誤差が正規分布はblueの条件じゃないことをいいたいんだろう
正規分布に従っていればモデルのフィッテングがいいわけじゃない
決定係数が高くても外れ値で見かけ上の直線性になっているだけかもしれない
相関係数の検定結果で悦にひたっていた人を思い出すわ だから結局は実際のデータをプロットしたりして見てみないとどんな方法が最適かなど誰にも分からない
あらゆるデータに対して有用な結果を出せるような都合のいい手法など存在しない 人がいないので、質問を破棄します。
どうぞよろしく。 >>869は間違いなので無視してください
すみませんが、確率論統計学オタクの方々、日本のコロナウイルス感染者数を
計算できませんか
このコロナ騒ぎ以来日本政府はなんか態度が怪しげで外国のように検査数を
増やすつもりもないようです。
そこで、実際の感染者数をなんとか計算でだせないかと。
3月20日現在の、感染者数
日本国内 1015人
重症者49人
死亡者35人
致死率は1%から2%
NHKが毎日更新してる新型コロナの日本のデータ
https://www3.nhk.or.jp/news/special/coronavirus/
ジョンズホプキンス大学が毎日更新してる新型コロナ世界の感染者数
https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
よろしくお願いしますm(_ _)m 医療体制も国民の意識も栄誉状態も国内外の移動の頻繁さも全く違う国のデータを並べて一体何が推定できるようになると思っているのか 海外と比較して優位な差があるとかは分かるかもしれない
その理由はなぜかは海外との違う点が候補になるくらいじゃないかな >>870
ガイガーとか地面においてたタイプの人? 統計学を1から勉強してるけど難しいな
アウトプットが足りない 例えば、現在の都内の感染者数は正しいと仮定して、
都内の1ヶ月後の感染者数を
予測してみよう。
n:現在の感染者数を120人
d:接触率(1日に1人が何人と濃厚接触するか人数)=5人
c:感染率(人と濃厚接触して感染させる確率)=20%
M:都内の昼間人口
難しいのは感染者同士なら感染しない
一度感染した人は感染しないこと
また接触率を一定とする.
これから仕事なので
続きはまた後で・・・ 感染者数を教えてください。
森岡正博
@Sukuitohananika
みんな冷静に計算してほしいけど、東京都の新コロナ感染者数は現在171人。
東京から無作為に200人をピックアップしたときに、その中に超有名人の志村けん氏が入ってる確率ってどのくらいだと思う?
現在の感染拡大ペースは我々の想像をはるかに超えてるよ。
桁違いの感染者数になってるよ。
https://twitter.com/Sukuitohananika/status/1242698846032953345
https://twitter.com/5chan_nel (5ch newer account) >>878
超有名人かどうかは個人を特定した時にその値をどう解釈するかというだけじゃないの?
有名人かどうかに関わらず感染する確率は変わらない
有名人だから感染する確率が高くなるとか低くなるとは思えない
個人の行動範囲とか多数の人と会う機会が多いとかは影響するかも知れないし
有名人だから街で握手したりする機会が多いなら高くなるだろうけど
行動で感染するかどうかの結果は変わるだろう >>878
「統計でウソをつく方法」というのを思い出したw >>879
ある国の人口は100,000,000人で、
そのうちの1,000人が「有名人」です。
いま、ある感染症に、1人の有名人が罹患しました。
なお、この感染症は国民にランダムに罹患するものとします。
@この条件だけで、全国民の感染症患者数は、ほぼ100,000人と推計できるでしょうか?
A「他の999人は罹患していないことが分かっている」という条件を付け加えたとき、
上記の推計結果は変わるでしょうか?
B罹患した有名人が2人のとき、単純に200,000人と推計できるのでしょうか?
罹患している人の確率よりも、罹患していない人の確率を計算して1から引く?
よくわからない。 志村けんが感染する確率なら結構低いかもしれないが、今気にしてるのはあくまで一定以上の知名度の有名人が感染する確率だから特に都内に限定すれば大して珍しいことではない >>881
1については母比率の推定から類推できそうだけど
芸能人に限定するとランダムサンプリングではないから
少し調整が必要だろうな
どんな調整が適切かは判らないけど
例えば、ダイヤモンドプリンセスをサンプルに感染率の推定をしても値が妥当でないのと同じだと思う >>881
人口がN=1億で、感染者の数がA、非感染者の数がN-Aとし、有名人の数がU=1千とすると、
有名人の感染者の数がnである確率は、C[U,n]C[N-U,A-n]/C[N,A]
A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、
これだけの情報では範囲が荒すぎてA「ほぼ100,000人」なんて言えず、@も当然言えない
A=24230のとき、n≧2の確率は2.5%、A=720600のとき、n≦2の確率は2.5%だから、
これだけの情報では範囲が荒すぎてB「ほぼ200,000人」なんて言えない
そもそも、感染者を見つけてからそのサンプルの珍しさを後出しで主張するのは反則だよね
人は大きい集合に属していたり同時に小さい集合にも属していたりするので、
小さい集合から出たサンプルであると、後出しならいくらでも都合よく主張できてしまう >>882
毎夜の六本木での志村のご乱行を
知っているので
感染しても当然としか思わない。
阪神の藤浪選手も同じような
ご乱行により感染したのだ。
これ業界では有名よ! >>885
ありがとう
なんとなく雰囲気は分かりました。
学者なら、こういう議論くらいしてほしいよね。 >>867
現時点をt=0とし、時点tにおける感染者の割合をp(t)とする
感染者は一人あたり、一日に5人と接触する
その5人のうち非感染者は、時点tにおいて、5*(1-p(t))人そのうち20%の人間に移す
なので感染者一人が作る一日の新規の感染者は、0.2*5*(1-p(t))=(1-p(t))人
感染者みんなで作る一日の新規の感染者は、それのp(t)倍に比例する量となる
よって、感染者の増加率は、p(t)(1-p(t))に比例し、dp(t)/dt=Kp(t)(1-p(t))と書ける
dp(t)/{p(t)(1-p(t))}=Kdt、∫dp(t){1/p(t)+1/(1-p(t))}=∫Kdt、ln(p(t))-ln(1-p(t))=Kt+C
ln(1/p(t)-1)=-Kt-C、1/p(t)-1=Aexp(-Kt)、p(t)=1/(1+Aexp(-Kt))、(ただし、A=1/p(0)-1)
また、p(t)に比例した量の死亡者が出ることで感染者の減少分があると考えるなら、
p(t)の増加率は、dp(t)/dt=Kp(t)(1-p(t))-KTp(t)=Kp(t)(1-T-p(t))=と考えて、
dp(t)/{Kp(t)(1-T-p(t))}=dt、dp(t){1/p(t)+1/(1-T-p(t))}/(1-T)=Kdt
ln(p(t))-ln(1-T-p(t))=∫K(1-T)dt=K(1-T)t+C、(1-T)/p(t)-1=Aexp(-K(1-T)t)
p(t)=(1-T)/(1+Aexp(-K(1-T)t)) ただし、A=(1-T)/p(0)-1 >>887
>なんとなく雰囲気は分かりました
間違いのもとです 議論するほど賢くないもので
A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、
なぜここで2530と555900を選んだのかが分からない やっとt検定まで理解できたつもりになった
ちゃんと理解せねば 統計学なんて独学でやってもさっぱりわからんね。
わかったと思っても使わないとすぐ忘れる。 区間推定とか検定とかの考え方は忘れないだろ
具体的な計算方法は調べたりプログラムで実行したりすれば良い 統計勉強してる人はなんのプログラム言語を学習するべき? >>898
プログラムは手段だから実現したいことが簡単になるものを選んだり学んだりしたらいい
とくにないならPythonは情報もモジュールも多いし悪くないと思う あとPythonでWebサービス実装したりもできるし
一応汎用言語だから >>900
>>903
俺の先生は、教えるのが下手であるし、
教えるのはめんどくさいという人で、
ホントに全く何も教わってないです。
しかし、他の先生方の勉強会に連れて行って
くれたりしたので、いろんな先生と出会って
結果としてそれが良かったです。
統計関連のいろんな先生に今まで何度も助けてもらったり、いろいろと教わることができました。
というのも、教えて欲しいことは、
壁にぶつかったときのひと言なんです。
自分で必死に考えて、必死に調べてもわからない。
そゆときに先生方に相談すると、
黄金のひと言をいただけるのです。
そうやってなんとか勉強を続けて、
現在に至ります。
自分で全く調べても考えてもいない人には教えても無駄なことが多いので、
考えてから質問する人に教えたいです。 >>851
>最小二乗法が使い物になるか・・・・・・・・・
収集値の残差分布が正規分布を呈していたら
最小二乗法が使えると判断してよいだろ? 収集値が母集団から満遍なくサンプリングされていることが保証できるならokだが実用上はそんなこと仮定できないことの方が多いだろう
実用化しようとしたら机上で考慮しなかったパターンのデータが侵入してまともに機能しないというのはあるある 何もできないなんて誰も言っていない
最小二乗法を使うための前提が成立しないのに最小二乗法は使えないぞと言っているだけ
別の方法を検討すればいい 3月の宿題で(1)のみ正解の数弱@shukudai_sujaku
昨年度の大学への数学(大数)での勝率は、
学コンBコースが 1/1 = 100% ,
宿題が 3/10 = 30% でした!
宿題の勝率が低すぎると思うので、
これからは一層精進していきたいです!
https://twitter.com/shukudai_sujaku
https://twitter.com/5chan_nel (5ch newer account) 仕事でつかえるかもと思い統計学を勉強中のものですが、
以下の問いがまったくわからないので教えてください。
YesかNoで答える質問で、以下のような回答データがある。
2010年 20% n=100
2011年 30% n=120
2012年 23% n=80
2013年 25% n=150
2014年 10% n=100
この時、2014年の回答に対し、 「たまたまだ」「何か原因があるはずだ」
のどちらかの判断を下したいとき、どのように導けばよいか。
標本検定で母平均?母分散の比?を検定すればよいのか、
過去のデータから確率の理論値を出してカイ2乗検定をするのか、
そもそも統計学で結論を出すべき問題ではないのか・・・ >>911
母比率の信頼区間かな
95%信頼度でも99%でも有意差があると思う >>912
各年を独立な観測とするならp値を修正する必要がある 2014年の信頼区間を求めて他の値がその区間に含まれるかどうかでよくないか? k群の個々同士で有意水準αで検定したら
1-(1-α)^(kC2)=1-(1-0.01)^(5c2)=0.096の確率で帰無仮説を棄却することになる
この補正方法には何種類かあってどれを使うかは検出力次第
あとテューキーは等分散仮定しないとだめか >>916
分散分析の方が良くないか?
2014年の結果が有意差あるかどうかを知りたいだけだから
2014年の母比率の信頼区間に他の年の結果が入るかどうかで良くない?
ダメな理由は? ANOVAは全体として等平均性があるか検定してるけど1群だけ異なっているケースは棄却されにくい
そして特定の群だけに注目して他の群を見なかったことにするのは多重比較を前提にした実験で一番やってはいけないこと 「2014年は他と差がありそう」っていうのはあくまで結果を見るまで分からないというのが統計のスタンス
それを調べるには全通り調べるしかない >>919
で、具体的にどうやって検定したらいいの?
2014年と2013年の場合は?
2014年と2012年の場合は?
最終的にどう修正してどんな結果になる? 多重比較とか比率の差の検定で調べればすぐに見つかる >>921
結果は?
他の年と比べて誤差とは言えない有意な差がある? みなさんありがとう。
私は過去4年の平均だして、有意水準95パーセントで区間推定して、その最小値を確率の理論値としてカイ2乗検定してみたんだけど、全然違うみたいだね。
教えていただいたキーワード調べてみます。 >>870
2月初めのダイプリ号報道以来新型コロナウイルス感染問題
一色になり当数学板にも新型コロナウイルス感染数理に特化
した以下スレが2/29に新設されていますね。
数学 統計に詳しい人が語るコロナウイルス
https://rio2016.5ch.net/test/read.cgi/math/1582910321/ 基準群Nと刺激群A,B,Cがあって,
基準群とA,B,Cそれぞれの組に違いがあるかをフィッシャーの正確確率検定で比較しようとしているのだけど,
この場合普通にN-A,N-B,N-Cを2つずつ比較してしまって構わないのかな?
それともこれらをやったあとに多重比較の補正を行う必要があるのかしらん? >>925
フィッシャーの正確確率検定をどう適用する?
https://ja.m.wikipedia.org/wiki/フィッシャーの正確確率検定
2×2分割表みたいにすると思うけど
何を行に割り当てて
何を列に割り当てる? >>926
心理的な評価内容で,行に群(N,A,B,C)を振って,列に選択した行動3種類(X,Y,Z)を振り,各セルに選択した人数を入れて適用しようとしてます
3×3の分割表ですね >>927
それで何が判るの?
最初に書いていたものと違うものが判るような気がするけど >>929
妥当そうに見えるけど、間違ってるのか? >>930
N,A,B,Cの結果に差がある事を確認したいのが元の目的
それを確認できるかな? >>931
できないんですかね?もしかして私フィッシャーテストを勘違いしてる? ガンマ分布関数の最頻値の確立変数を求めたいんだけど
最頻値の値は、式が見つかるんだけど
そのX座標みたいなものの式が見つからないんだよね 計算したら、
x=exp(log(a-1)/a-2))
になった。なるほど 違った
x=exp(log((a-1)Xb)/a-2))
だった。なるほど 間違っていた
b(a-1)
だった、聞くまでもなった 「異端の統計学ベイズ」が面白かった
こんな別世界があったなんて気づかなかった >>940
ベイズは異端でもなんでもないです
普通にデータ分析すればベイズになります
そういうタイトルを付ければ
釣られて本買うアホがいる
ということです 頻度論 VS ベイズみたいな構造で別物として考えようとする限りベイズを理解できているとは言えないだろうな ベイズを理解できなかった人の成れの果てのような記事
島根県の事例からも数字で明らかになる「検査をすると患者が増える」説のデタラメさ
https://hbol.jp/224407
>島根県、陽性者発生と大規模検査をベイズ推定で検証! >>943
お前がバカ過ぎるの
笑えるぐらいバカw このスレって初心者しかいないんだねえ(笑)
「ベイズってスゲーッ!」って
書けばいいの?(笑)
じゃベイズってなんだよ?
本読んで勉強したんだろ?(笑)
>>943はベイズを説明してみな。
できないだろうな
バカだからね(笑) >>945,946
悔しくて2連投。涙ふけよww
バカと言われた返しがこれ↓
>「ベイズってスゲーッ!」って
バカ丸出し。やはりただの知ったかぶりだったな
お前はこのスレで1番の知ったかぶりのバカと認定してやるよw
「お前が知ったかぶりかつバカである」という仮定の事前確率は0.9だったが
お前のレスで事後確率は、0.9999999になったw >>784
自分も気になってたから自分なりにまとめてみた
まず同じ確率分布を持つ変数x_iたちのどんな2次形式の平均値も元の確率分布の平均μと分散σ^2を使って書ける
実際、ベクトル表記x=(x_i)∈R^nと行列A∈M_n(R)を使って
一般に2次形式はx^tAxと書けるが、その平均E[x^tAx]は
σ^2tr(A)+μ^2(Σ_i,jA_ij)と計算できる
σ^2だけを得たい(σ^2の不偏推定量がほしい)のであれば
2項目つまりΣ_i,jA_ijがゼロであればよい
例えば、 Aが(1,1,…,1)に垂直な(n-1)次元超平面への射影行列であれば満たされる
この時、σ^2の係数であるtr(A)は(n-1)となる
(射影行列のトレースは像空間の次元に一致する)
こうしてE[x^tAx]=(n-1)σ^2を得る
同じように
一般にAが(1,1,…,1)に垂直な(n-k)次元超平面への射影行列であれば、E[x^tAx]=(n-k)σ^2を得る
多重線形回帰はこの射影する次元をパラメータを推定することで下げてると見ることができる
しかしσ^2の不偏推定量がほしいだけであればΣ_i,jA_ij=0であるどんな2次形式x^tAxを使ってもいい
そのときσ^2の係数はtr(A)だけズレる >>948
補足
標本の分散をn倍したものΣ(x_i-(Σx_k)/n)^2は
A=I-1/nP(Iは単位行列、Pは全ての成分が1の行列)を使って
x^tAxという2次形式になっている
この行列Aは対称かつ冪等なので射影行列であり
(1,1,…,1)に垂直な(n-1)次元超平面への射影になっていて
実際トレースは(n-1)である >>948
計画行列から射影行列を計算して二次形式の期待値を計算すれば(n-1)σ^2が求まるということですか? というか射影される次元はrank(A)に依存するか 検定やら回帰分析は統計学でカバーしているが,
機械学習はクラスタリングや決定木とか、統計学の範囲を超えた部分もあるので,
そこらへんは機械学習使わんといかんと思います。 誰かわかる?
TOEICみたいな英米の選択式試験て素点をスケーリングしてスコアにすることがほとんどだけど
英医学部適性試験UCATの資料みると
昨年の試験のある部分
素点平均21.27標準偏差5.78最高39
最高のZ値=(39-21.27)/5.78=3.06...
300から900にスケーリングするってんだが、結果
平均557.5標準偏差74.21最高890
最高のZ値=(890-557.5)/74.21=4.48...???
英米のこの手の換算かなり見たけど
おおざっぱではあってもほぼ線形
Z値ほぼ変わらない
しかし
この結果
いったいどういうスケーリングしたんだろ?
まったく想像できない >>953
少なくとも、線形でスケーリングするなんて今時どこもやっていない。
たまたま数字が合っただけかと。 偏差値は?
平均50
標準偏差10
線形スケーリング https://collegedunia.com/exams/toeic/results
上と下はあやしいが
ほぼ線形
英米ってなんでこうすんだろう
SATとかIQテストもこういうの多い
変換後5とか10きざみ
ある程度以上だと変換後スコア同じ
ある程度以下だと変換後スコア同じ
ってのがよくある 選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる 選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる この問題分からないから誰か教えてくれ
不偏推定量と有効推定量についての問題
母平均μ(≠0)が分からない母集団分布から無作為抽出された標本X(1)、X(2)、X(3)、X(4)をとる。母分散は12である。
(1)母平均μの3つの推定量
T(1)=(X(1)+X(2)+X(3)X(4))/4
T(2)=(X(1)+2X(2)+2X(3)X(4))/6
T(3) =(X(1)+X(2)+X(3)X(4))/3
の中でどの推定量が不偏推定量であるか
(2)3つの推定量の中でどれが最も有効な推定量であるか >>960
誤字ってないか
X(3)とX(4)の間に+がないとどれも不偏推定量にならん気が >>961
誤字ってました。すいません
T(1)=(X(1)+X(2)+X(3)+X(4))/4
T(2)=(X(1)+2X(2)+2X(3)+X(4))/6
T(3) =(X(1)+X(2)+X(3)+X(4))/3
ですね 一括してT=aX(1)+bX(2)+cX(3)+dX(4)とおいて計算する
T(1)のとき、a=1/4,b=1/4,c=1/4,d=1/4
T(2)のとき、a=1/6,b=2/6,c=2/6,d=1/6
T(3)のとき、a=1/3,b=1/3,c=1/3,d=1/3
X(i)の期待値はE[X(i)]=μ
X(i)X(j)(i≠j)の期待値はE[X(i)X(j)]=E[X(i)]E[X(j)]=μ^2
X(i)^2の期待値はE[X(i)^2]=σ^2+μ^2=12+μ^2
である
(1)
Tがμの不偏推定量であるためにはTの期待値E[T]がμと一致しなければならない
E[T]=E[aX(1)+bX(2)+cX(3)+dX(4)]
=aE[X(1)]+bE[X(2)]+cE[X(3)]+dE[X(4)]
=aμ+bμ+cμ+dμ=(a+b+c+d)μ
よって(a+b+c+d)=1となっているT(1)とT(2)が不偏推定量である
(2)
Tが最も有効となるのはTが不偏かつその分散E[(T-E[T])^2]が最も小さくなるときである
E[(T-E[T])^2]=E[T^2]-E[T]^2
= E[(aX(1)+bX(2)+cX(3)+dX(4))^2]-((a+b+c+d)μ)^2
=a^2E[X(1)^2]+b^2E[X(2)^2]+c^2E[X(3)^2]+d^2E[X(4)^2]2abE[X(1)X(2)]+…+2cdE[X(3)X(4)]-((a+b+c+d)μ)^2
=(a^2+b^2+c^2+d^2)σ^2
=12(a^2+b^2+c^2+d^2)
となるので、結局a〜dの平方和が最も小さいものが最も有効となる
この平方和はT(1)では1/4、T(2)では5/18となる
よって、T(1)がこの中で最も有効である >>963
本当にありがとうございます。感謝しかないです。 カシオのWebアプリClassPad.net
https://youtu.be/HOESVQ4TzV0
手書きの図をきれいに出力してくれたり
ユーザー定義関数を使えるのがいいね 質問なのですが、最近GNIの統計を調べていたんですが、国連の統計で2018年の2年前までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、GNIの統計データが2017年になっていて、なるほど2年前のデータです。
なぜ1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。 質問なのですが、最近GNIの統計を調べていたのですが、国連の統計で2年前の2018年までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、載っているGNIの統計データが2017年になっていて、なるほど2年前のデータです。
1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。
(日本語がおかしかったので修正しました) 2830
学コン・宿題ボイコット実行委員会@gakkon_boycott 9月1日
#拡散希望
#みんなで学コン・宿題をボイコットしよう
雑誌「大学への数学」の誌上で毎月開催されている学力コンテスト(学コン)と宿題は、添削が雑で採点ミスが多く、訂正をお願いしても応じてもらえない悪質なコンテストです。(私も7月号の宿題でその被害に遭いました。)このようなコンテストに参加するのは時間と努力の無駄であり、参加する価値はありません。そこで私は、これ以上の被害者を出さないようにするため、また、出版社に反省と改善を促すために、学コン・宿題のボイコットを呼び掛けることにしました。少しでも多くの方がこの活動にご賛同頂き、このツイートを拡散して頂ければ幸いです。
https://twitter.com/gakkon_boycott/status/1300459618326388737
https://twitter.com/5chan_nel (5ch newer account) 2.0 4.9
12.7 28.4
0.7 2.3
5.4 11.9
0.9 8.9
3.9 13.9
6.2 26.5
31.3 47.2
26.5 37.0
9.2 26.4
10.1 27.3
5.7 19.8
21.9 ?
左の列の数字の時に右の列の数字が出るとして、
?が30以上になる確率を求める方法が知りたいです。
エクセルのFORECAST関数で36.67くらいになりそうだということまでは分かったのですが。
(左が予備校生のうち試験で成績が悪かった人の割合%、
右が試験受験者全体のうち試験で成績が悪かった人の割合%です。
予備校生のデータから未発表の全体の割合が30%を超える確率が知りたいです。) ExcelのMINVERSEって
内部でやってるのはLU分解でしょうか? 逆行列を返すからLU分解してんのかもな
途中の処理を知ってどうするの? こちらの論文をもとにサンプルサイズを計算したいのですが、式5(ミュー>0
のとき)を使って計算しても再現できないのです。この論文の式、間違っていると思われるのですが、正しい式わかりました(導出できる方いました)ら、お教え下さい。
https://www.degruyter.com/configurable/contentpage/journals$002fijb$002f12$002f2$002farticle-20150039.xml 統計学の初心者です。
セミコロンの意味について教えてください。
最尤推定量の説明の中に、
L(Θ;x) = f(x;Θ)という説明がでてきたのですが、
数学において(少なくともピュアマスでは)
セミコロンがこのような場所で使われたことを見たことがありません。
なので統計学特有の使い方と思いますが、
説明がありません。
(統計学者にとっては常識???)
どういう意味かわかるかたいましたら教えてください。 条件付き確率の事だと思うけど
|を使う書き方と同じじゃないかな?
違いがあるのかな? 統計では普通に使う
単純にセミコロンの後はパラメータを書いているだけ 米国大統領戦で多くがバイデン勝利を予想していますが
こういった予想は可能なのでしょうか?
統計学者のネイトシルバーも前回の大統領選の予測は外していますが
有権者数に対してサンプル数が少なすぎる等の根本的な問題が有るような気がします。 米国大統領選挙は州ごとに勝者全取りだから
大票田の州と少ない州もあるし
選挙制度によって予測方法も変わると思う >>976
> |を使う書き方と同じじゃないかな?
条件付き確率ということですか?
>>977
> 統計では普通に使う
> 単純にセミコロンの後はパラメータを書いているだけ
それが全く理解できないんですけど、
セミコロンの前も後ろもパラメータですよね?
統計学の人は、カンマのかわりにセミコロンを使うということですか? ぐぐって次のところを見つけました。
https://oshiete.goo.ne.jp/qa/144427.html
> f(x; a,b) = (x^a)e^(-x/b)
> なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> で、カンマとセミコロンを使い分けちゃったりすることがあります。
と書いてありました。
なるほど、統計学ってのは
汚い学問だとよく聞きますが、
なるほど汚いw(笑)
意味不明の記述をして
難しいことをしているらしく
見せかけているということですね。
了解できましたw 数学的にはxもaもbも対等に見えるかも知れないがあくまで統計は現実世界を記述することが目的なので
どれが現実世界に直接現れるものでどれがハイパーパラメータかを区別するのは極めて重要 >>981
> ぐぐって次のところを見つけました。
>
> https://oshiete.goo.ne.jp/qa/144427.html
>
>
> > f(x; a,b) = (x^a)e^(-x/b)
> > なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> > の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> > で、カンマとセミコロンを使い分けちゃったりすることがあります。
>
> と書いてありました。
> なるほど、統計学ってのは
> 汚い学問だとよく聞きますが、
> なるほど汚いw(笑)
>
> 意味不明の記述をして
> 難しいことをしているらしく
> 見せかけているということですね。
>
> 了解できましたw
カンマとセミコロンの使い分けは単に英文法でしょ。 >>981
a, bの条件付きでの確率変数xの関数
みたいに解釈している 数理に基づいた学問でも工学や物理学を始めとして分野によってどこまで明確に精確に数学を用いるかは違うしな >>981
別に数学でも、セミコロン使うだろ
君何年生? 初心者がここで質問してよろしいでしょうか?
ある業務の、1つの案件に対する作業時間をプロットしてヒストグラムを作成して、X軸を対数変換したら、綺麗な正規分布になりました。
これは対数正規分布だと思うのですが、それであれば作業時間合計(残業時間)の予想(信頼区間を出す)ことが可能だと考えました。
仮に、20件の案件がある場合には、@ 標本平均とt値、標準偏差から、信頼区間を出します。
A 次に、信頼区間上限・下限をe乗してあげると、対数変換を戻した時の標本平均の信頼区間が出ます。
B 最後に、信頼区間を20倍してあげると、作業時間合計の信頼区間が出ます。
以上の手順ですが、自分でやっていて正しい計算とは思えません。
試しに、実際のデータから20件の標本平均を、100回抽出して、ヒストグラムを作成することを何度かやってみましたが、信頼区間の上限を超えて、信頼区間の下限はほとんど超えないという結果になりました。
どなたか正しい計算をお教えいただくことはできないでしょうか。
よろしくお願いします。 >>988
確率変数を20倍したものと
20個の確率変数を足したものの分布は違うと思う
確率変数の和の分布の平均と分散は計算出来る
https://bellcurve.jp/statistics/course/18592.html
20の和の確率変数の平均と分散を使って信頼区間を求めたら良いと思う >>988
別の方法はブートストラップ法で分布を求める方法
20のデータを100回取り出して分布を作ったのを
もっと多く1万回とかにして分布を作って
その平均や分散を計算して推定値とする >>990
ありがとうございます
信頼区間の導出の仕方をもう少し勉強してからやってみようと思います
ブートストラップ法はExcelで手作業でやるには難しそうでした
今日、コルモゴロフ=スミルノフ検定をしたところ(計算の仕方が合っているかは分かりませんが)正規分布ではありませんでした。
また、E(ln(X))と、ln(E(X))は、異なる値になることも知りました。
E(ln(X))は、ln(相乗平均(X))と対応しているようです。
また整理できたら質問させていただくかもしれません >>991
作業時間データを行方向に書く
その範囲の行番号を乱数で発生させて
index関数でデータを取り出す
列方向に20個ランダムサンプリングしたデータの和を列に追加する
行方向にコピーして1万行同様の計算をする
1万行21列の和を計算した列からヒストグラム、平均、分散を計算する NHKの高校数学(ベーシック数学)を見ていたんだが、
事前確立と事後確率の説明が間違っているんだが、
三流役者のお笑いの部分ばかり多くて
大事な説明が間違っているとは、なさけないぞNHK!!! 残レスが僅かのときに恐縮ですが、検定について質問させてください
商品について金額基準の故障率を考えています
たとえば1千円の商品が5個、2千円の商品が5個あるとき、2千円のものが1個故障したときの故障率は、
個数で見たときは1/10=0.10ですが、金額で見たときは2/(1*5+2*5)=0.13になります
このとき、全ての商品の金額・個数・故障件数を基に計算した金額故障率と、
特定の層に販売した商品についての金額故障率とを比較して、
全体平均よりも故障率が大きいかどうか判断するために検定を行おうと考えています
率同士の比較という事で安直に、全体を母集団、特定層をサンプルとした母比率の検定を考えたのですが、
取る値が01でないためかうまくいきません
なにかよいアイデアはないでしょうか
よろしくお願いします >>998
何年分かの1月毎とか1週毎の故障率を集めて分布、ヒストグラムを全体と特定層向けの両方作る
故障率を確率変数とした分布になると思うから
その2つの分布が同じ分布かどうかを適合度検定するとか このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1546日 6時間 32分 33秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。