統計学Part17 [無断転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
順列組み合わせの質問です。
LOTO6の数字(6個+ボーナス数字1個=計7個)の数字を予想します。
選ぶ数字は、1〜43です。
予想する数字の数は全部で10個です。
母数は43^10と思うんですけど。
1)一つでも予想的中する組み合わせ。
2).二つ的中する組み合わせ。
3).三つ的中する組み合わせ。
宜しく御願教授ねがいます。 ¥
>前科持ち変質者と絶対出会える掲示板 [無断転載禁止]
>
>1 名前:132人目の素数さん 2016/11/16(水) 21:02:24.40 ID:8UX5OsVV
> 変質者前科持ちと気が触れ合える掲示板
>
>11 名前:132人目の素数さん :2016/11/19(土) 08:36:12.59 ID:6KwDBI7h
> 変質者前科持ち=増田哲也
>
>12 名前:132人目の素数さん :2016/11/19(土) 09:04:39.15 ID:AZB04dZ8
> わざわざ言わんでもええ
>
>13 名前:出会える掲示板 ◆2VB8wsVUoo :2016/11/19(土) 15:58:01.20 ID:21LrO2+x
> 絶対に…
>
> ケケケ¥
>
>14 名前:132人目の素数さん :2016/11/19(土) 16:31:33.55 ID:6KwDBI7h
> 六十目前で父親逆恨みしたり掲示板逆恨みする根性の腐れっぷりは凄くて困る
> コンビネーションとかパーミネーションとかのアプリありますか? ¥
>前科持ち変質者と絶対出会える掲示板 [無断転載禁止]
>
>1 名前:132人目の素数さん 2016/11/16(水) 21:02:24.40 ID:8UX5OsVV
> 変質者前科持ちと気が触れ合える掲示板
>
>11 名前:132人目の素数さん :2016/11/19(土) 08:36:12.59 ID:6KwDBI7h
> 変質者前科持ち=増田哲也
>
>12 名前:132人目の素数さん :2016/11/19(土) 09:04:39.15 ID:AZB04dZ8
> わざわざ言わんでもええ
>
>13 名前:出会える掲示板 ◆2VB8wsVUoo :2016/11/19(土) 15:58:01.20 ID:21LrO2+x
> 絶対に…
>
> ケケケ¥
>
>14 名前:132人目の素数さん :2016/11/19(土) 16:31:33.55 ID:6KwDBI7h
> 六十目前で父親逆恨みしたり掲示板逆恨みする根性の腐れっぷりは凄くて困る
> >>28
それは統計学ではなく確率の問題ですので確率のスレへ行ってください >>31
それは統計学ではなくアプリの問題なのでアプリのスレへ行ってください ¥
>前科持ち変質者と絶対出会える掲示板 [無断転載禁止]
>
>1 名前:132人目の素数さん 2016/11/16(水) 21:02:24.40 ID:8UX5OsVV
> 変質者前科持ちと気が触れ合える掲示板
>
>11 名前:132人目の素数さん :2016/11/19(土) 08:36:12.59 ID:6KwDBI7h
> 変質者前科持ち=増田哲也
>
>12 名前:132人目の素数さん :2016/11/19(土) 09:04:39.15 ID:AZB04dZ8
> わざわざ言わんでもええ
>
>13 名前:出会える掲示板 ◆2VB8wsVUoo :2016/11/19(土) 15:58:01.20 ID:21LrO2+x
> 絶対に…
>
> ケケケ¥
>
>14 名前:132人目の素数さん :2016/11/19(土) 16:31:33.55 ID:6KwDBI7h
> 六十目前で父親逆恨みしたり掲示板逆恨みする根性の腐れっぷりは凄くて困る
> >>28
Google計算機でコンビネーションとかパーミュテーションとか計算できるよ 関数電卓アプリを勧めた俺が言うのもなんだけど…
みんな適度に不親切で笑える >>31
あるよ。
いまの関数電卓アプリはすごいよ 最近のアプリ、3dグラフ作ってくれるもんね。あれはすごいわ。
動画マニュアルがロシア語だったけど >>28
r! * (n choose r)
n個からr個選ぶ順列の個数は上の式で計算できる
例えば
10! *(43 choose 10)
1個的中する組合せとか3個的中する組合せとかがわかるなら既に何億も当ててるわ ¥
>前科持ち変質者と絶対出会える掲示板 [無断転載禁止]
>
>1 名前:132人目の素数さん 2016/11/16(水) 21:02:24.40 ID:8UX5OsVV
> 変質者前科持ちと気が触れ合える掲示板
>
>11 名前:132人目の素数さん :2016/11/19(土) 08:36:12.59 ID:6KwDBI7h
> 変質者前科持ち=増田哲也
>
>12 名前:132人目の素数さん :2016/11/19(土) 09:04:39.15 ID:AZB04dZ8
> わざわざ言わんでもええ
>
>13 名前:出会える掲示板 ◆2VB8wsVUoo :2016/11/19(土) 15:58:01.20 ID:21LrO2+x
> 絶対に…
>
> ケケケ¥
>
>14 名前:132人目の素数さん :2016/11/19(土) 16:31:33.55 ID:6KwDBI7h
> 六十目前で父親逆恨みしたり掲示板逆恨みする根性の腐れっぷりは凄くて困る
> コンビネーションで良いのか
43 choose 10
で良いな
(10 choose 3)*(33 choose 4)/(43 choose 10)
とかかな ¥
>前科持ち変質者と絶対出会える掲示板 [無断転載禁止]
>
>1 名前:132人目の素数さん 2016/11/16(水) 21:02:24.40 ID:8UX5OsVV
> 変質者前科持ちと気が触れ合える掲示板
>
>11 名前:132人目の素数さん :2016/11/19(土) 08:36:12.59 ID:6KwDBI7h
> 変質者前科持ち=増田哲也
>
>12 名前:132人目の素数さん :2016/11/19(土) 09:04:39.15 ID:AZB04dZ8
> わざわざ言わんでもええ
>
>13 名前:出会える掲示板 ◆2VB8wsVUoo :2016/11/19(土) 15:58:01.20 ID:21LrO2+x
> 絶対に…
>
> ケケケ¥
>
>14 名前:132人目の素数さん :2016/11/19(土) 16:31:33.55 ID:6KwDBI7h
> 六十目前で父親逆恨みしたり掲示板逆恨みする根性の腐れっぷりは凄くて困る
> Σ^p_{j=1}Σ^p_{k≠j}Cov(x_{j},x_{k})
Σが2個ある二重総和で、共分散Covを含んでいる計算なのですが、
2番目のΣの添え字{k≠j}をどう解釈して計算するのかが分かりません。
教えてください。
ちなみに、合成変数xの分散の解説に出てきた式で、式全体は
Var(x)=Σ^p_{j=1}Var(x_j)+Σ^p_{j=1}Σ^p_{k≠j}Cov(x_{j},x_{k})
です。(分散Var)
texなら
Var(x)=¥sum^p_{j=1}Var(x_j)+¥sum^p_{j=1}¥sum^p_{k≠j}Cov(x_{j},x_{k})
です。 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f) >>79
k=jの時は共分散では無くて分散になるからそれを除外してあるだけでは?
全体の式で最初の項が分散を表してるとおもう 線形結合した確率変数xの分散は
係数の横ベクトルvと分散共分散行列Cで
var(x)=v•C•transpose(v)
と表せると思う
係数ベクトルが全て1の場合
その式になるのでは? 回答ありがとうございます。
>全体の式で最初の項が分散を表してるとおもう
教科書の、「重み付き合成変数の分散と共分散」の解説のページからです。
たしかに、全体の式は、「合成変数xの分散」の式です。
ちなみに、合成変数xの定義は、
x=Σ^p_{j=1}x_j
texなら$x=¥sum^p_{j=1}x_j$です。
>k=jの時は共分散では無くて分散になるからそれを除外してあるだけでは?
私がつまずいているところは、k≠jの意味です。つまり
k≠jとなると、具体的に数字をあてはめたとして、
下の式でどう計算するのかわからないということです。
Σ^p_{j=1}Σ^p_{k≠j}Cov(x_{j},x_{k})
これが分かれば、k=jとk≠jの値(分散と同じか違うか)を計算で確かめられるのですが。。。 >>81
補足ありがとうございます。
>係数ベクトルが全て1
合成変数xの定義
x=Σ^p_{j=1}x_j
のことでしょうか。
>線形結合した確率変数xの分散は
>係数の横ベクトルvと分散共分散行列Cで
>var(x)=v•C•transpose(v)
線形結合
分散共分散行列
transpose
ん〜ん、なんでしょ?調べました。
分散共分散行列はクロス表であらわせるような数列ということは分かりましたが、後はちんぷんかんぷんでして、ごめんなさい。
この程度の知識の人間です。お手柔らかにお願いします。 >>83
確率変数x1とx2があって
その共分散をcov(x1, x2)とすれば
cov(x1, x2)=cov(x2, x1)になる
ここでcov(x1, x1)を計算してみると
var(x1)と等しくなる
分散共分散行列とは
cov(x1, x1) cov(x1, x2)
cov(x2, x1) cov(x2, x2)
で表される行列のこと
対角つまりk=jの時は分散に等しい値で
その他は共分散の値を成分にもつ
元に戻って質問の全体の式では
分散をvar()で計算してあるから
共分散を計算するときに対角成分になるk=jの時を
除外しないと2回足し算する事になる
k≠jとはk=jのときはΣの対象から除外すると言う事 >>85
ありがとうございます。分かったような”気”がします。
つまり、確率変数x1とx2を
上の式
Var(x)=Σ^p_{j=1}Var(x_j)+Σ^p_{j=1}Σ^p_{k≠j}Cov(x_{j},x_{k})
で計算するなら
var(x1) + var(x2) + cov(x1, x2) + cov(x2, x1)
となるということですね。
数字をあてはめて確認したら、確かに
var(小6) + var(中2) == cov(小6, 小6) + cov(中2, 中2)
でした。
あああ〜〜〜〜すっきりしました。勉強続けます。 ああ、すみません。Rの計算をそのままコピペしてしまいました。
訂正:
数字をあてはめて確認したら、確かに
”var(x1) + var(x2) == cov(x1, x1) + cov(x2, x2)”
でした。 確かめなければならないのは、二三の実例じゃなく
VerとCovの定義だろ?何やってんだか。 >>88
実際の数字はめないとわからない時もあるよ。
これで使えるようになったんならokじゃん Σ(k=1,n)の扱いができないところに問題があるのに >>89
実際にやってみて、あてはまったから
納得した使えるようになったというのは、
誇大妄想癖があるだけだよ。
証明して理解しなければ次の例にもあてはまるのか
不安が残るだけ、というのが正常な感性だ。 例と証明は両方理解するのが理想だろう、証明はいろいろな方法があるんだし >>91
次も使えるかな?はそうかも。数やると感覚でつかめるようになるけど…
でも、回帰とか実際の数字ハメるまで全然ピンとこなかったけどなぁ この統計的調査の有効回答数の女子高生328人って、少な過ぎて
分析には使えないのじゃないか?何人以上が、妥当なのだろ?
1 :砂漠のマスカレード ★:2017/01/20(金) 18:34:25.55 ID:CAP_USER9
調査は、スマートフォンを所有する15?49歳の女性を対象に、2016年12月6日?12月10日にインターネットにて実施したもの。
女子高生328人、女子大生412人、20?30代社会人独身女性416人、30?40代既婚女性418人、計1,574人の有効回答を・・・・
定期的に使うアプリ・サイトについては・・・・・女子高生94.5%、女子大生96.6%と・・・・・
【生活】女子高生・女子大生95%がLINE利用、友人の電話番号は「知らない」 [無断転載禁止]©2ch.net
h ttp://daily.2c h.net/test/read.cgi/newsplus/1484904865/ >>1
テンプレ
以下のお約束を守った上で統計学について何でもどうぞ。
1)学校の宿題の丸投げはやめましょう。
2)質問者は質問の前に相当程度調べるなり、考えるなりしましょう。
3)荒らしは基本的にスルーでお願いします。 統計学について全くの素人です。
質問させて頂きたいのですが、effect size
の大きさ(大、中、小)の感覚的な理解ができません。
あるトレーニング(1ヵ月から2ヵ月ほどのトレーニング期間)の効果を測った論文で、effect size が小とでてました。
これは、小さいにしても効果はでた、とみていいのでしょうか?
効果が無い場合はeffect size はゼロになったりするのでしょうか? 効果が厳密にゼロであるかどうかなんて
検証のしようがない。 >>100
そういうものなんですね。
ありがとう。 この97%の確率って、どのように算出するのだろうか?
1 :ニライカナイφ ★:2017/02/11(土) 07:06:39.64 ID:CAP_USER9
英ノーザンブリア大学のバレンティーナ・ザーコバ教授らが、厳密な数学モデルを用いて太陽活動のデータを
分析したところ、2030年までに太陽の活動が現在の60%まで減少し、97%の確率で地球が「氷河期」に突入する
ことが分かったと・・・・・・・・・・・・・・・・・・・・・・・・・
【悲報】2030年までに97%の確率で氷河期が到来することが判明!研究者「夏は消滅し、川は凍る」★4 [無断転載禁止]©2ch.net
http:// daily.2ch.net/test/read.cgi/newsplus/1486764399/ >>103
2030年の予想気温と今の平均気温の差が、氷河期の平均気温と間氷期の平均気温の差くらいの差以下であるという帰無仮説が信頼度3%で棄却されるとか? ちょっと質問してもいいですか?
今、毎秒検出されるデータについて
その時点での一定時間範囲での
平均値を表示させてるんですが
さらに一定時間範囲での中央値も得たいとすると
どのような方法があるでしょうか
できれば個々のデータは保存したくなく
最小限の計算で済ませたいんですが
ちなみに当方は数学も統計学も素人です online algorithmでやればいいんじゃないか
mean,varianceあたりはかんたんだけどmedianはややこしそうだけど >>107
ありがとうございます
検索すると方法はあるみたいですね
javaのサンプルを読んでみます 「標準偏差の求め方」でググると
すでに表にまとめられたデータがまずあって、それを出発点として
平均を求めて、偏差をだして・・・という解説ばかりなのですが、
確率密度関数と試行回数だけから算出する方法ってないのですか?
例えば
「1/100の確率で当たるパチンコがあって、
これを200回転させたときの、標準偏差の期待値を求める」
とかです。
現状はエクセルで簡易シミュレータ作って求めてるのですが、
理論上の期待値があるはずなので、それをどうやって求めるのだろうと・・・ >>111 ありがとうございます、解決しました!
もう一つあるのですが、
よくある仮説検定の問題で、
「不良率が5%未満かどうかを調べる」というのがありますが、
そうではなくて
「不良率が4.8%〜5.2%であることを調べる」には
どのような検定を行えばいいのでしょう・・・? >>112
4.8%以下であるという帰無仮説で検定するのと
5.2%以上であるという帰無仮説で検定するのを
2つ検定したら? 期待値と分散が等しい確率分布って、ポアソン分布の他に何かありますか? 平均と標準偏差について質問です。
データのプロットによって平均と標準偏差は求まるわけですけど、
偶然によってはプロットが偏ったりもします。余りにも偏りが大きいと
「これって本当は平均値違うんじゃないか?」と思ったりもし始めます。
そこで質問なのですが、「こんなに偏ってるのに平均がこうだと言われても
納得できない」、その「納得できない度」を数値化するような概念や
計算はありませんか?ググりたいのでよろしくお願いします。 例えばこんな感じではどうでしょう?プラスに傾いている例です。
平均0、標準偏差10で、プロットは20,40,10,-10,50。
考えがあまり整理されてないのに書き込んでいて恐縮なのですが、最終的には
平均x標準偏差σとおいてプロットA1,A2,,,Anと置いたときに、
そうなってもおかしくない確率が何%である的なものを計算したいと思っています。 これが「確率半々であるはずのコインの表が10回連続で出た」とかなら
「0.5^10ほどに珍しい」と単純に言えるのですが、
「平均x標準偏差σでプロットも時々は偏ってない値が出る」とかだと
どう計算したらいいかさっぱりな感じなので、その辺何か計算方法があるのかなと >>130
ありがとうございます。
その場合上記の例でいうと、
プロット20,40,10,-10,50の平均は110/5 = 22
となります。
これは「5回プロットを打った結果の平均22」なのですが、例えば
「10回プロットを打った結果の平均22」のほうが珍しさは上であると思うのですけど、
この珍しさの数値化はできるのでしょうか? >>131
10回の平均値をとる
この試行を例えば1000回する
平均値が22以上になる割合とかがわかるんじゃね >>132
やっぱり具体的な値を入れてプログラム走らせて確率分布見るしかなさそうでしょうかね?
こういうのに統計学で何か名前がついてるような計算方法があったらそっち使いたかったのですが、
なさそうならその方法でいこうと思います。ありがとうございます 統計学の勉強しておくと数字で騙されないのは良いところかも まずプロットって言うのやめたほうがいい。
平均0、標準偏差10で、プロットは20,40,10,-10,50。
これは平均0、標準偏差10の正規分布からサンプリングされた標本が20,40,10,-10,50だったってことか
外れ値で調べてみたらいいんじゃないか いや、平均の値がってことか
標本平均の標準誤差ってのがあるからそれ見たらだいたいわかんないかな >>138
途中で人が入れ替わってるけどね
元の質問者は統計の本を読んだ方がいい
区間推定とか検定とか
その前に基礎的な事を再確認した方が良いのかも
確率変数とか >>133
偏りってのはばらつきのことかな?
確率分布の形が分かっていてパラメータ(この場合平均値や分散)が分からないなら平均二乗誤差使えばいいんじゃないかな?
平均値と確率変数の距離の期待値が分かる指標だから、平均的にどれくらいずれている可能性があるかが分かる
例えば、この場合だと標本平均が真の平均に対して不偏ならば平均的に真の平均に近づくのだけど、標本平均もやはり確率変数だからばらつきはあるのね
そのばらつきを見る指標がMSE平均二乗誤差
これが大きければ珍しい度合いってやつが大きい、小さければ小さい
つまりデータの偏りが分かる
計算の仕方はググってくれ
>>128の例は平均と標準偏差がわからない状態で、
サンプルがそこからどれくらいずれてる可能性があるとゆうことを知りたいなら平均的にどれくらいずれてるかとしか分からない。
もし、平均と実現値がどれぐらいずれてるか判るならば統計学なんていらないよ >>ALL
回答ありがとうございます。
基本的な言葉の定義について無知で申し訳ありません。
質問があやふやな中答えていただいてうれしいです。
>>136
ありがとうございます。標本と呼ぶのですね。
「平均0、標準偏差10の正規分布からサンプリングされた標本が20,40,10,-10,50だった」
で間違いありません。
>>140
自分がレスで使った偏りとは「標本が平均から大きく外れている」ということです。
「平均と標準偏差がわからない状態で、
サンプルがそこからどれくらいずれてる可能性があるとゆうことを知りたい」
のではなく、
「平均と標準偏差がわかっている状態で、(>>128では平均0、標準偏差10)
サンプルが平均からこのぐらいズレた場合(>>128では標本数5、平均22)
そうなる確率は何%ぐらいか」
ということが知りたいと思っています。
>>128-133まででは、
1.平均x標準偏差σで標本を取るプログラムを作る
2.そのプログラムにn回分の標本を取らせる
3.2.で得たn個の標本の平均を更に標本として扱う
4.2〜3を任意の回数だけループさせ(>>132では1000回)、「n個標本の平均」の標本を集める
5.サンプル(>>128ではn5、平均22)と4.で作ったものを比較し、サンプルの平均を超える確率がどの程度あるかを見ることで珍しい度的なものを測る
このようにして解決しています。
この方法はこの方法でいいのですが、プログラムを走らせて実際に標本を得てみないと
分からないということに疑問を感じたので、何か計算方法があったりするのかなと思い
質問しようと思った次第です。
ひとまずは皆さんから回答をいただいた言葉について調べてみようと思います。 >>152
「n個の標本」の平均値と標準偏差の推定値がわかれば
その値を使ったガウス分布になると思う
上記の平均値と標準偏差の推定値はn個の標本1回分からも推定できるはず
点推定と区間推定がある すいません質問です
進研模試は母集団のレベルが低いとかよく聞くのですがあれって標本じゃないんですか?
母集団は受験生に思えるのですが >>154
区間推定をwikipediaで見たら推計統計学っていうのがありました!!
それっぽいです、ありがとうございます!!
答える価値もないから勉強してから来い、と感じられている方には申し訳なく思います。
ただ何を勉強していいか分からないレベルだと「こういうことを知りたいけれど
そちらの分野で取り扱っていませんか?」という質問をするしかないので・・・
何にしてもありがとうございます、勉強して活用したいと思います。 主な理由
・答えが欲しければ知恵遅れで聞け
・予備知識無しでプログラムを組むのはアホ
・ここは数学板 >>155
受験生全体からランダムサンプリングしたら良いのかもしれないけど
進研模試を受ける人は偏った集団
他の模試を受ける人も偏った集団
偏った集団同士を比較して高いとか低いとか言ってるんじゃないかな
進研模試の結果と受験生全体を比較したら高いのかもしれない
比較する対象が違えば母集団という記号が示すものも違うのではないかな >>160
割と評価する。無視できるぐらいには煽られ慣れとけ。 データの質の評価尺度 交差検証
モデルの質の評価尺度 情報量基準
という認識で合ってますか?
モデルとデータの質と両方を評価する尺度ってありますか? 馬鹿と言ってもらえるのは2chの良いところだね
現実では無視されるだけ ああああああああああああああああああああああああああああああ!!!!!!!!! !!(ブリブリブリブリュリュリュリュリュリュ!!!!!!ブツチチブブブチチチチブリリイリブブブブゥゥゥゥッッッ) fisherのフィデューシャル推測とベイズの確信区間で、前者に正当性がない理由がよく分からないです。
前者は確率測度を満たさないことがその理由になっているらしいですが、
これについての証明を見つけることができません。
どなたか詳しい方いましたらヒントでもいいので教えてください。 フィデューシャル推定とベイズ推定の比較で前者が正しくない理由らしいが
https://en.wikipedia.org/wiki/Fiducial_inference
そもそも定理なのかどうすら不明 >>187
レスありがとうございますが、
それは回答になっていません。
そのページでは加法性がないから確率測度的にダメと書いているのですが、そこに証明が与えられていないので質問した次第です。 あなたが言うことが意味不明だから適当に推定しただけだ。 >>189
それは測度論の話だからここで聞くべきではない 出現頻度の検定についての質問をさせてください。
20個の玉があり、それぞれに1~20までの番号が振られていたとします。
この中からランダムに10個を選ぶという作業を100回行います。
その結果を頻度分布表に表してみると
若い番号の玉の方がよく選ばれている事が分かりました。
ここから
『玉はランダムに選ばれたのではなく
若い番号の方が選ばれやすかった』
と言えるかどうかを確かめるためには、どのような検定をすればいいでしょうか? >>195
ありがとうございます!
実はとあるゲームの考察ブログをやっていて
>>194みたいな考察をしてみたかったんですが、
どの検定をすればいいか分からなくて。。。
こんなに早く答えていただけるとは思いませんでした!
ありがとうございます! 学歴板に凄いのがいます。
国公立と私大の偏差値並べて、「私大の偏差値が高い!」と勘違いしているんですが、
どなたかこいつに自分の頭悪さを教えてやってください。
http://itest.2ch.net/matsuri/test/read.cgi/joke/1489991684
「ちゃんと『補正』してる」とか訳の分からんこと言ってます。
科目も異なる試験の偏差値なのに「補正」なんてできるんでしょうか? 大学の偏差値は、基準となる数値は同じ模試、テストでの偏差なのだから補正とか関係がない。
与えられた勉強時間は普通は3年でみな同じなのだから一科目あたりにかけれる時間は私立志望のほうが多い。
科目数が多い国立のほうが偏差値が下がるのは当たり前。だから私立のほうが偏差値が高いから国立より頭がいいということではない。
国立は偏差値が低いといわれて馬鹿にされたと思うなら、馬鹿にした奴と同じレベルの脳みそだろう。 経営学の学部生なんですけど、とりあえず東大出版の統計学シリーズ三部作を読み終わったら、何の教科書を使えばいいですかね? ¥
>462 132人目の素数さん2017/05/16(火) 00:33:13.20ID:PrryPRav
>数学なんか理解しても人間性の評価に
>何の影響もないからどうでもいい
>
>いい大学の入試パスできる数学以外は
>使えん
>
>ゴミ
>
>526 132人目の素数さん2017/05/16(火) 23:03:37.74ID:5cxKtuwt
>東大含め、旧帝は数学5割で受かるから数学の本質理解など要らん
>
>数学は、入学したらさようなら
>
>529 132人目の素数さん2017/05/17(水) 00:38:50.34ID:t0rdrWYT
>数学なんてやる奴は社会に存在しないも
>同然だし、だれも見向きもしない
>
>ただの趣味でやってるだけで社会に情報提供も
>しないとなると、数学者はますますゴミクズになる
>
>知識を自慢したいがためだけに必死で数学やってる
>この板の人間が最悪
>
>531 132人目の素数さん2017/05/17(水) 01:20:58.31ID:t0rdrWYT
>本当に最悪なのは使えない数学が生きること
>
>数学的優越感こそ最大の悪
> 社会に出てから統計学がわかってるか、そうでないかの判断力の差は大きい
しかしその判断力を活かせる経営環境かどうかは、99%で帰無 上司「お前、成約率が悪いじゃないか」
ぼく「私の1/3と全体での15/30では母比率が異なるとは……」
上司「いいから早く契約とってこい!」 アホってすぐサンプル数少ないから意味はないとか言うよな。 >>237
恐ろしい話しているよ、今回も。
完全に検定否定だな。
>>237の続き
統計学の基本は変わらないにしても、
最近、AIの影響で
新たなデータの優位性を議論している
母集団に縛られているのが、昔の統計学で
100万回の昔のデータと、今の30回のデータ
をどう評価するか、疑問になっているわけだよね。
恐ろしい、ベイズの定義で
サンプルと母集団の母数を同等に扱って、
どっちも同じ変数じゃないか
というわけで、どうやって考えたかが、モデルの正当性を
考える時代かな。
検定は古いわけだ。
>>240
検定は背理法なわけで
古いとか新しいとか無くない? >>240の続き
まず、帰無仮説の否定...
まあ、母集団とサンプル群の値が同じだとは言えないよな。
サンプルを取る前から偽...
そりゃあ、恣意的なのかもな。
Jargon!!!!
笑います。
ずごい! 刑事事件になってきたぞ。
アリバイが検定に導入されている。
アリバイがないことで有罪の確率が変わるのはおかしい、
まあそういうことかな。
>>241
背理法だと言うことはよく分かります。
で、じゃあ、アリバイのない人が犯人である確率が上がるのか、
という話ですよね?
アリバイのない人なんて全国で、数千万人いるわけじゃないですか?
>>243
放送大学見てないけど
帰無仮説としてアリバイが無い、を考えて
これが棄却されても
アリバイがある事を立証する事にはならないんじゃないかな
アリバイが無いと言えない可能性が95%ってことで
簡単な話なんですが、
母集団に左右される統計学は、
既に新しいサンプルを有意に思う統計学にとっては無意
なんでしょう。
AIなんてそんなもんでしょ?
>>244
だとして、その否定される確率はどのぐらいなのですか?
と言うことになりませんか?
帰無仮説を否定することが100%と考えて行動を変えるわけでしょ?
それはあり得ないという、考え方なんじゃないでしょうか?
帰無仮説が正しい確率はどれだけなんですか?
でしょ?
>>245
ベイズ更新だっけ?の事かな
更新してもどこかで収束すると思うけどな >>246
誤った判断をする可能性は危険率によるんじゃないの? 同時に複数の行動を取れるなら
60:40とか行動を分ければいいけどね
簡単に言えば、
標本の示す確率空間をどれだけ重要視するか
って話。
母集団が100万で標本集団が30なら
無視するべきなのか
考慮すべきなのか
という話。
AI=機械学習なんて「考慮する」の方でしょ?
検定主義は無視するわけですよね?
簡単な話、
明日のダウ平均株価の予測は
昨年度までの数十年の膨大な統計に従うべきなのか、
新しい1月以降のデータを考慮すべきなのか
という話だよね。
後者がAI取引なのよ。
知能と何の関係もない。
昔はアルゴリズム取引と言ったり、システム取引と言ったり、今はAI取引。中身は何も変わらない。 プログラムでの株取引が増えると暴騰・暴落が激しくなりそう >>250
無視はしないんじゃね
推定の区間が広くなるだけ >>251
過去のデータも考慮する
しかしその影響度合いが小さいだけ >>250
0か100で考えてる所が統計的では無くない? AIAI言うんじゃなくて具体的なアルゴリズム挙げれば話しやすいのに 最近のAIで注目されたディープラーニングは統計とはあまり関係ないかも >>260
時間的に確率が変動しているじゃない、それ分かっていないと、
試行錯誤で知識を積み上げていくAIのプログラミングなんて無理無理。
Rで、ニューロネットワークのシミュレーションも可能。
>>262
Rで実現できる→確率と関係ある
とはならなくね? >>262
何かの変数を変えたら出力が変わるようなものは全て時間とともに確率が変わると言える
so what? たとえば昔からよくある簡単なアルゴリズム取引にMA(移動平均)を使うものがある。
直近10日の移動平均の傾きが+なら買い、-なら売りみたいな。
詐欺師に言わせれば過去10日の価格を学習して判断したのでAI取引と言うだろう。
AIはもはやバズワード。 >>263
AIは確実に正解が出るとは限らない、
画像認識にしても、ボードゲームにしても。
確率を上げていくように、入力に対する反応の確率を
修正できるようにしていくだけ。
>>267
AIというバズワードではなく適切な数学分野に置き換えてください。 >>267
どこをどう変更したら確率が上がるか判る?
ある種の関数と考えられるものは全て同様
確率を上げるように修正すると言っても
だからどうするの?って事になる もし分かる方がいれば教えてほしいのですが、
√Nで基準化する必要がある(たとえばOLS推定量のような)統計量と、
Nで基準化する必要がある統計量の、「収束速度の違い」はどのように解釈すればよいのでしょうか?
結局は統計量のばらつきを、それぞれ1/N, 1/N^2で解釈することになると思うので、
Nで基準化する統計量の場合、サンプルサイズが比較的小さい場合でも漸近分布に
従っていると見做せる(すなわち、Nを大きくしていったときの漸近分布への収束が速い)、
と解釈してよいのでしょうか?
Nで基準化する必要がある場合、標準的な仮定が成立していない場合の応用的な統計量のことが多いと
感じるので、直感的には逆な気がしています。 統計学は最強の学問なのかなあ。経済、経営 統経 の方が好きかというと。 >>266
今の株式予測は遺伝子解析に用いられるようなパターンマッチングを利用していると
思いますよ。やり方は各々だと思いますが、過去のデータとの比較、今回の試行による
重み付けの変更、これを繰り返していると思いますよ。
>>269
それをフィードバックしているのが機械学習。これを高速で学習させる。
結果が自動的に変化するわけ。ベイズ更新と同じ理屈。
統計は手段であって目的ではないと言う認識
何かの問題を解決する手がかりを探すとか結果の有効性を確認するとか >>273
結果が変化するのはパラメータを変えるのだから当たり前
そのパラメータを変化させるのと統計がどう関係する? >>270
基準化って他の分布に近づけることでしたっけ?
基準化=標準化?
>>273
機械学習の結果が正しいかの判断は、クラスター分析などの統計学的手法。
>>277
クラスター分析で正しいと判断できるなら機械学習する必要がないのでは? >>278
リアルタイムで情報を集め、人間の介在なしに学習ができる、入力に対する
確率を変えていくのが機械学習でしょ。人間が後で検証するための統計学的
ツール。
実際にやってみると分かるよ。GoogleもIBMも機械学習用のAPIが使えるように
している。
確率的勾配降下法の確率的は必ず下がるのではないと言うだけのこと 週末、連続のミサイル発射で
国民の意識は変わるわけ
で、その遷移確率は計算すべきじゃないの?
量子理学ではそれが当たり前でしょ?
顔見知りには撃たないよ。ミサイルは。言語では?間違いは。 > 機械学習用のAPI
これは具体的にどういうものでどのくらいのことができるん?
たとえば3x3のoxゲームを解く関数作る場合はどうするん? Rのスレは死んでいるみたいだからここで質問させてください。
Rmarkdownを使っていたのですが、Rのチャンクの実行ボタン(三角の再生ボタン)が突然消えてしまいました。
アプリを再起動しても出てきません。
どうやったら、出すことができますか?
ちなみにmacOSのRStudioつかってます。 統計初心者です。
じゃんけんのように、勝率がお互い5割と分かっているときに、50試合中何度勝てば95%有意と検定できるかを計算したいと考えています。
この場合、どのような計算方法になりますでしょうか?
また、エクセルで簡単にこのような計算を行う機能はありますか? ★★★数学徒は馬鹿板をしない生活を送るべき。大脳が腐るのでサッサとヤメレ。★★★
¥ 勝率がお互い5割と分かっていてしまっては、何を検定したいか判らないなあ。
50試合中何度以上勝てば、有意水準5%で、勝率がお互い5割ではないと検定できるか?
なら考えようもあるけれど。 ヒカル TV出演「年間5億は稼ぐ勢いですね」
https://www.youtube.com/watch?v=G7qL6ftpets
第1回案件王ランキング!YouTuberで1番稼いでるのは誰だ!
https://www.youtube.com/watch?v=asF2wQ2xhjY&t=61s
ユーチューバーの儲けのカラクリを徹底検証!
https://www.youtube.com/watch?v=FUSb4erJSXE&t=504s
【給料公開】チャンネル登録者4万人突破記念!YouTuberの月収公開!
https://www.youtube.com/watch?v=Y7DAQ0RKilM&t=326s
誰も言わないなら俺がYouTuberのギャラ相場を教えます
https://www.youtube.com/watch?v=E4q-vaQh2EQ&t=118s
YouTuberになりたいのは馬鹿じゃない!YouTuberになる方法
https://www.youtube.com/watch?v=Fr0WXXZRMSQ
最高月収5000万円だとさ。年収じゃなくて「月収」な
おまえらもyoutubeに動画投稿したほうがいい
やろうと思えばスマホがあればできるぞ
最低2年はやらないとここまではいかないだろうけど才能とアイデアと
企画力と継続力があればが大儲けできる可能性がなくもない
まだまだ他の職種に比べれば競争率は低いからオススメ
顔出したくないならラファエルみたいに仮面つければいい 勝負がついて1回カウントなら、σ2=50*.5*.5正規分布で近似しちゃダメ? ★★★数学徒は馬鹿板をしない生活を送るべき。大脳が腐るのでサッサとヤメレ。★★★
¥ SASって本当にボロだな。
機能がないというか使えない。
でかいファイルを読むのが速いだけ。
ただそれだけで、あんな金額だせないぞ?
SASを撲滅するために立ち上がろう! SASって本当にボロだな。
機能がないというか使えない。
でかいファイルを読むのが速いだけ。
ただそれだけで、あんな金額だせないぞ?
SASを撲滅するために立ち上がろう! ★★★馬鹿板は悪い習慣であり、大脳が劣化します。なので早く止めましょう。★★★
¥ 因子分析についてどなたかご存知でしたらお答えください。
現在「5 因子性格検査短縮版 (FFPQ–50) 」https://www.jstage.jst.go.jp/article/personality/13/2/13_2_231/_pdf
を用いて個人の性格を分析しようとしているのですが、どのような計算をすればよいのかわかりません。
因子得点の計算法を書籍で確認したところ標準化した粗点に因子得点係数をかければ計算できるようです。
しかし論文には因子負荷量表のみ紹介されており因子得点係数や相関行列を求める手段が内容に思えます。
ご教授いただけますでしょうか。よろしくお願い致します。 ◇◇◇馬鹿板をしない知性的な国民が、その論理と実績で未来ある国家を作るべき。◇◇◇
¥ 何か実験をして、データをとった際に、それが正規分布に従うなら
平均と標準偏差は同じ単位ですよね
(10株のトマトを育てて、各株の成ったトマト果実の個数を数えた)
でも、二項分布に従う場合は、平均はnp、分散はnp(1-p)なので
平均値の単位は同じなのは標準偏差でなく分散ですよね。あとポアソン分布も
分布によって平均値と単位が同じなのは標準偏差だったり分散だったりして
そういうものなのでしょうか わかりにくくてごめんなさい。
>何か実験をして、データをとった際に、それが正規分布に従うなら
平均と標準偏差は同じ単位ですよね
(10株のトマトを育てて、各株の成ったトマト果実の個数を数えた)
この場合、平均と標準偏差の単位は「個」ですよね(n=10)
>でも、二項分布に従う場合は、平均はnp、分散はnp(1-p)なので
1-6の目が等しい確率ででるサイコロを12回振った。2がでる確率について、なら
平均は12*6/1回、分散は12*1/6*5/6回 で、平均と分散の単位が回ですよね
なので、平均と標準偏差が同じ単位になる分布もあれば、平均と分散が同じ単位になる
分布もあるのかなと思った次第です >>379
分散は(x-μ)^2/nなんだから
必ず平均の単位の2乗
np(1-p)のルートの単位が回 ★★★馬鹿板を長くヤルと脳が悪くなって軽蔑される。そやし早く止めるべき。★★★
¥ 分散は
np((n-1)p+1)-(np)^2で求まるんだから、単位は回^2に決まってるだろ ★★★馬鹿板を長くヤルと脳が悪くなって軽蔑される。そやし早く止めるべき。★★★
¥ 〒〒〒馬鹿板は悪い習慣であり、この行為は脳を悪くする。そやし足を洗いなさい。〒〒〒
¥ 20回以下、30回以上だな。
> dbinom(20,50,0.5)
[1] 0.04185915
> dbinom(30,50,0.5)
[1] 0.04185915 > dbinom(30,50,0.5)
[1] 0.04185915
> dbinom(29,50,0.5)
[1] 0.05979878
> > dbinom(21,50,0.5)
[1] 0.05979878
> dbinom(20,50,0.5)
[1] 0.04185915 >>310
グラフにすると
http://i.imgur.com/I95VNrp.png
このグラフはRで2行で書ける
plot(0:50,dbinom(0:50,50,0.5))
abline(h=0.05)
んで、>410で検証 >>328
正規分布近似で
> qnorm(0.95,50*0.5,sqrt(50*0.5*(1-0.5)))
[1] 30.81544
> qnorm(0.05,50*0.5,sqrt(50*0.5*(1-0.5)))
[1] 19.18456 >408の根拠は
> pbinom(32,50,0.5)-pbinom(18,50,0.5)
[1] 0.9511261
18から32の間に95%が含まれる。 >>411
95%の信頼度で両側検定だと
下側と上側で2.5%ずつにしないといけない
その計算だと信頼だと90%になる >>414
両側検定ならその通りだね
> sum(dbinom(32:50,50,0.5))
[1] 0.03245432
> sum(dbinom(0:18,50,0.5))
[1] 0.03245432
> sum(dbinom(19:33,50,0.5))
[1] 0.9598723
正解は >408の 18回以下か32回以上 >>313
95%有意>>310は、「有意水準95%」の省略形と思われ。 >>426
有意水準は5%とか1%が多い
95%を使う意味がわからない >>427
物理学分野のニュースだと「有意水準 0.0001% で検定して棄却されない」という意味になるようだ。 ###政治家が愚かなのと同様に馬鹿板を行うのも愚かな行為。そやし止めるべき。###
¥ こいつ自分の書き込みの後だけは荒らさないんだな
とことんクズ >>427
>有意水準は5%とか1%が多い・・・・・・・・・・・・・・・・
多いのは、医学や農学分野での適用例だろ?
1000ケに3ケの不適合品など許されぬPPMオーダー
品質の要求される自動車・宇宙航空業界では、
多くはないぞ。 >>467
PPMオーダーというと、有意水準だと0.1%ですか? ☆☆☆馬鹿板は数学徒の脳を腐らせる悪い板であり、そやし廃止してナシにすべき。☆☆☆
¥ 20回に1回ならしょうがないという経験則から来てる ☆☆☆馬鹿板は数学徒の脳を腐らせる悪い板であり、そやし廃止してナシにすべき。☆☆☆
¥ >>491
違うだろ?経験則って、誰のどういう分野での経験なんだよ?
始祖R・フィッシャーが、有意水準値を採用するのに、
おのが專門の農学分野で適当に選んだだけだろ。 20回に1回の起源はシェークスピアとも古代ローマとも言われとるよ
前にネットで調べた フィッシャーも無意識でも何かに拠って1/20としたんだろう ローマはこっちだったかな
http://www.radford.edu/~jaspelme/611/Spring-2007/Cowles-n-Davis_Am-Psyc_orignis-of-05-level.pdf >>236
最近TV視聴率調査会社が、視聴率標本数を600-->800に上げたらしいが、
何か新しい理論に依拠したのか?
従来理論では、標本数600も採れば無限母集団値を推測可能
だったはずだが?
234名無しさんは見た!@放送中は実況板で2017/08/24(木) 10:32:15.46ID:Dhh6t4I5>>251
統計はな 母集団が二千万であろうが一億であろうが
1000件もサンプリングすれば95%の信頼性があると言われてる
ビデオリサーチ関東のサンプリング数は去年ようやく800件くらいになったばかり・・・・・・・・・・・
NHK連続テレビ小説「ひよっこ」part105 [無断転載禁止]©2ch.net
http://lavender.2ch.net/test/read.cgi/tvd/1503402864/234- 実際のところ、高校の数学Bで「確率分布と統計的な推測」を授業で扱ってる高校ってあるのかな?
旧課程の数学Bも「統計とコンピュータ」「数値計算とコンピュータ」を授業で扱ってる高校なんて聞いたこと無かったし。 ベイズ論の基礎の質問
コイントスの試行において事前確率を表裏どっちも0.5とし、ただ1度の試行で表が出たとき、ベイズ更新によって事後確率はどのように更新されますか?
また、続けてもう一度表が出たときの事後確率は?
計算式付きで知りたいとです >>523
事前確率を0.5ずつにしたら更新しても0.5から変わらないかも >>524
ベータ分布においてa+b=1で良いですよね?
記事の最後の方にμを最大化する式が載っていますが、Nが1のとき分母ゼロで計算できません
2回以上の試行でないとダメなのですか?
>>526
>>527
2連続のとき0.75に更新されるという記述は見たことがありますが計算式がありませんでした
1回ずつ更新する場合と2回まとめてやる場合で結果が変わって良いのですか? 表が出る事前確率P(H1)=0.5
裏がでる事前確率P(H2)=0.5
表を観測したことをAとすると
条件付確率はP(A|H1)=0.5
事後確率 P(H1|A)=P(H1)P(A|H1)/(P(H1)P(A|H1)+P(H2)P(A|H2))=0.5
1回更新しても0.5で変わらないから2回更新しても変わらないのでは?
仮に条件付確率P(A|H1)=1.0とすると、事後確率P(H1|A)=1
で2回目以降も1になると思う 確率変数Xの確率密度関数が、1(0<=X<=1)、0(その他)のとき
Xと同様の確率密度関数を持つ互いに独立な確率変数X1,X2,X3を使って
確率変数Z=X1+X2+X3とするとき
Zの確率密度関数はzだけ1変数で表すとどうなりますか
期待値が3/2 分散が3/12になるのはわかります
正規分布N(3/2, 3/12)とはグラフを描くと微妙に違うました
ただχ二乗適合度検定では上記正規分布と等しいという帰無仮説を棄却できませんでした >>530
https://ja.m.wikipedia.org/wiki/確率分布#.E7.A2.BA.E7.8E.87.E5.A4.89.E6.95.B0.E3.81.AE.E5.92.8C.E3.81.AE.E7.A2.BA.E7.8E.87.E5.88.86.E5.B8.83 >>532
の計算をすると
>>531
の結果を得られるということですね
ちょっと試してみます
ありがとうございました >>511
これからの実学では、「データ・サイエンティスト」が脚光を浴びる
模様です。
1ノチラ ★2017/10/10(火) 12:30:31.49ID:CAP_USER
今年また、米国の大学で助教授として働いていた2人の友人がアマゾンに引き
抜かれた・・・大学の研究職を辞してアマゾンなどの企業へ転職する経済学者・
統計学者・情報工学者などはこの数年で格段に増え・・・引き抜きの対象に
なっているのが「データ・サイエンティスト」と呼ばれる、データ分析に長けた
研究者たちだ。例えば、統計学・計量経済学の専門知識を持つ統計学者・経済学者、
そして、人工知能を使ったデータ分析を開発する工学者など・・・ 「データ分析の力」を
持った人材を集めることが、ビジネス成功の大きな柱になってきているためで・・・・・・・・
【IT】いま一番稼げるのは「データ・サイエンティスト」かもしれない。新卒でも「破格の待遇」
http://egg.5ch.net/test/read.cgi/bizplus/1507606231/ スレチかもしれないが、適合しそうなスレがここだったんで書かせてもらいました。
構造方程式モデリングで、あるサービスの全体的な満足度とその構成サービスの品質の関係を7段階評価のアンケートで得た情報を元に求めようとしてます。
ただ、問題は回答者が構成サービスを全て使っている(又は経験がある)とは限らない点です。
個別の構成サービスの利用経験がない場合の回答はそもそも品質の評価が出来ないはずなのに、良い・悪いと回答するものが一定数あります。
その場合、そのまま扱うことは問題があると思います。
このデータは欠測値として処理すべきか、或はどちらとも言えないのような回答に纏めてしまうのが妥当か悩んでいます。
どちらも問題があるように感じてはいるんですが、自分ではどうすれば良いかわからないんです。知恵を貸してください。 学校の課題で問題が出されたのですが、全くわかりません。
問題は、
問1 平均値μ=2、および標準偏差σ=2の正規分布に従う確率変数を考える。このとき、この確率変数が次の区間に含ま
れる確率を小数第4位まで計算しなさい。
1 (4, ∞)
2 (-∞, 2.7)
3 (0.88, 5.6)
4 (1.46, 3.24)
問2 ある検問所で記録された車のスピードのデータによると、そこを通過する車は平均時速61.6km、標準偏差7.0kmで、だいたい正規分布に従っている。このとき、次の割合を100分率(パーセント)で小数第1位まで計算しなさい。
1 時速70kmをこえている車は全体の○%である
2 時速49kmよりも遅い車は全体の○%である
3 時速56kmから時速63kmまでの車は全体の ○%である
誰か助けてください、、答えだけでいいです、、、 流石に授業も出てない、教科書も1章も読んでないのはスレチ
宿題外注スレへどうぞ ■モンティホール問題(空箱とダイヤ)
このゲームができるのは1回だけです
外からは中が見えない空箱100個の中のひとつに
ダイヤモンドを1個入れます
その中から1個の箱を選びます
98個の空箱を取り除きます
最後に残った2個の箱の中から1個の箱を選びます
ダイヤモンドが当たる確率は何%でしょうか? ネットで何か知りたいときは下手に出るより出来るだけ挑発的に書いたほうがいいぞ
>>548みたいな奴が釣れて正解にたどり着けることが多い >>553
自分でやったら
0.1587
0.6368
0.6763
0.3388
11.5
3.6
36.7 になった >>545
もういないだろうが
データを除外するならデータ数がへるので検定力がさがる
つまり第二種の過誤がふえる
データ数が少ないならもんだいになる
どちらともいえないという回答にいれるってことは
線引きの問題がでてくる
線引きが外形的客観的にできないおそれがあるなら問題がでてくる
場合に応じてかんがえるべき 教科書を勉強して正規分布やポアソン分布や中心極限定理
推定や検定(点推定区間推定〜母平均母分散)
辺りまではやったのですが
次の段階としてどのテキストがお勧めでしょうか?
独学で学んでいるので、どれを学べばいいのかわからなくて困っています >>557
東大教養課程編なんたらの
統計学入門なんたら
統計学入門人文学系なんたら
おなじく自然科学系なんたら
やっとけ
いいかどうか知らんが一応鉄板テキストだ
読み物なら駄目な統計学はよんどけ
時間に余裕があってより上をめざすなら
線形代数
速度論ルベーグ積分
集合論
はやっとけ >>558
ありがとうございます
3冊あるようなので内容を確認の上購入したいと思います
線形代数は学習済みなので測度論ルベーグ積分集合論について学習していきます 東洋大の往路優勝はヴェイパーフライ4%の効果である。
これを統計学で証明できますか?
どのようにアプローチするのか勉強したいです。 重回帰分析で重決定係数が0.2などと低い場合は、偏回帰係数がいくつでもあまり意味がないのですか? うんあんま意味ないよ。
回帰係数は傾きやからあてはまりとは関係ない。ほかの変数固定して固定しなかった変数を1かえるとどんだけ被説明変数が変動するかの目安でしかない。 統計知識はあるR初心者が、R Studioを学ぶのに良い本はありますか?英語でも構いません。 ある製品の重さ100枚を測定して
平均値が100g、最大101.5g、最小98.5gだったとします。
この製品は100枚をワンセットとして包装するため、
100枚あるかの確認のために秤を使用することにしました。
しかしながら、仮に最大あるいは最小の製品が100枚続くと仮定すると、
100枚時総重量は製品1枚分の100g以上に違いがでてしまいます。
100枚がそろっていることを確認するためには、
OKの範囲をいくつに設定すればいいのでしょうか? >>565
正規分布だと仮定すると ±3σ(99.73%)で 1kg ± 19.35g
一枚の重量を確率変数としてその分布を考え、それが100枚集まった新たな確率変数が従う分布を考えればいいんじゃないかな。 >>566
>>一枚の重量を確率変数としてその分布を考え、それが100枚集まった新たな確率変数が従う分布を考えれば
まさにそういうことがやりたかったけど具体的にどう計算したらいいかわからなかったです >>567
確率変数 和 積 平均 分散 あたりで調べてごらん。 マルチ失礼します
(分からない問題スレで間違って自分が化学の問題ぶち込んだせいで、回答が得られそうにないので泣)
統計学の問題なのですが、問4(2)のやり方、答えがわかりません。教えてください。
https://i.imgur.com/2tYtqzV.jpg 最近は何が流行ってるのかね。高次元統計ももう随分長く研究されてきてopen problemがどれほどあるんだろうか? 1と0の数列が乱数によって並べられたものなのか
意図的に並べられたものなのかを調べる方法を知りたいのです。
1010101010101010101010101010101010101010
上の数列の場合、1と0の出現率はともに20回ずつなので出現率だけを見ると乱数で偶然起こり得ると思いますが
1と0が等間隔にならんでおり偶然この様にならぶ確率は低いと思います。
1011001011001011001011001011001011001011
上の数列の場合、一見不規則に並んでる様で「101100」の繰り返しになってます。
この様な事を調べるにはどうしたら良いのでしょうか?何を勉強したらいいのですか?
乱数検定?恥ずかしながら中学校までの数学の知識しかないのですがだれか助けてください 統計学学んでないのに、自店と、近隣の同業店の顧客に対する出口調査を行って
アンケート結果を分析することになったんだけど、
重回帰分析のサイトとかを事前に読んで、以下のデータは用意できた
・それぞれの店の総合評価(1〜5点)
・店内設備に対する満足度
・総合評価 ・駐車場 ・カート ・空調 ・レジの数 ・etc...
・スタッフに対する満足度
・品揃えに対する満足度
・総合評価 ・肉類 ・魚介系 ・お菓子 ・生活雑貨 ・etc...
----------------------------------
分析の結果としてほしいものは
「顧客は●●を重視している」的なことなんだけど、
総合評価を目的変数、それ以外を説明変数(すべて0or1のダミー変数)として
重回帰分析かけてみたらいいの?
作業はエクセルで行う予定 >>576
ウィルコクソンの順位和検定で検索してみ。 >>578
ありがとうございます。
ググって見たけどその検定をどう使うのかわからなかったです。。。
二群を比較する際に使う検定のようですが1つの数列の判断する時はどう使うんですか? >>579
ヒントの出し方悪かったね。「乱数 検定」とか「ランダム 判断」の方が分かりやすい解説出てくるかも。
ざっくりいうと、理想的な場合(この場合は乱数)の特徴と今問題にしている数列の特徴を比較することで(二群の比較)判定するのが検定の考え方。
二値の場合、期待値と分散が理想乱数と同じになる場合があるので符号和みたいなテクニックが必要になるんだね。
>580
乱数→ホワイトノイズ→フーリエスペクトル一定で判定できそう、って連想するよね。なんかまだ研究中みたいだけど。詳しい人いるかな? お二方ありがとう。
頂いたヒントを元に調べてみます。 統計学とウェブ解析を交えて実践的な勉強と練習を
したいのですが、おすすめな書籍やサイトはありますか。
実際に解析ツールや分析ツールを用いて
自分で分析解析してから
解答を見て適切な手順や方法、考察を
解説してくれるものが良いです。
統計学は統計検定2級の知識はありますが
ウェブ解析はテキスト読んだだけです。 偏差を標準偏差で割った値はなんといいますか?参考書等にも明確には定義されていないようです。 文科省の次期学習指導要領(まだ案の段階)では
高校生に統計を必修にするために空間座標やベクトルを
数Cに追い出したんだが
統計ってベクトルを追い出してまで
高校生のうちから勉強する必要があるのかな 別にスレを建てた方がよいかな。
教育系の板でなく数学板で書いてるのは
お受験のためではなく
将来の日本の科学技術の基礎力という観点から
議論したい為。 少なくとも文系とる人のが多いんですからそういう人にとっては有益でしょうね 高卒者と文学部(心理学以外)・法学部に進学する人は全く触れる機会がなかっただろうから つまり文系に必要だから、理系の必須事項はどんどん高3に回してゆこう
ということか。
残念ながら理系の高3の多くは
・高1〜2で学んだ事を入試問題が解けるレベルまで引き上げること
・新たに数IIIの微積分を学習し、更に入試問題が解けるレベルまで引き上げること
で手一杯で、微積分以外で新たに学ぶ項目はとても定着が悪い。
例えば複素平面は今数IIIだが、数Bにあった頃に比べて、とても出来が悪い。
なので「理系だけがやればいい」とか言ってベクトルや空間座標を
3年に回してしまうと、理系の学生は大学に入ってからの線形代数に
ついて行けなくなる危険がある。
一方、大学の理系の統計では、線形代数の知識も要求される。
教える順序が間違っていると思うなあ。 あと、文系であっても経済学部だと線形代数は要求される。
2〜3次元の幾何ベクトルがシッカリ身に付いていないと
n次元の線形代数の理解はとても貧弱になると思うがどうだろうか。
それよりも高校生の段階で統計を学んでおく事の方が重要なんだろうか。 やっぱり別スレの方が良さそうだが
その前に統計スレで煽っておこうw 統計学の端緒に触れるのに果たして幾何ベクトルの理解が必要なのかね
単なる数の並びで十分な気がする
しかも高校の学習内容に理論的な完全さは端から求められていないだろうし 理系以外の教養の底上げが狙いだとすると、日本の科学技術の基礎力という観点だけでは是非を問えないね
統計学は科学技術の担い手だけのものではないので 数学の項目を削って統計を入れるという発想がおかしい >>595
> 統計学の端緒に触れるのに果たして幾何ベクトルの理解が必要なのかね
そのような主張はしていませんが? 科学技術の基礎力という観点だけでは是非を問えないと言ったろ
まず議論の出発点を見直さなきゃ 理系はどうせ数IIIやるんだから問題なくないですか? このへんなんだろう(適当)
生徒が数学が社会に出ていないと感じていること
企業からの要望
応用重視へ そうですね。統計は科学技術以外でも重要です。しかし
その普及のために科学技術者の養成を疎かにして良いこと
にはなりません。
文系の大学で統計を必須にしたって良いわけです。
ただでさえ理系と文系では大学で要求される時間数が
全然違うのだから、文系に統計が入ったくらいで
理系よりも時間数が多くなることはないでしょう。
あるいは高3の文系で統計を必須にするという選択肢もある。
あるいは高校で文理に分かれる時期を今よりも早めるとか、
学年に縛られず統計は2年で3年でも取れるようにするとか、
理系を犠牲にせずに文系に統計を教える方法はいくらでもある。 本当に問題だと思うならこんなとこに書き込んでないで行動を起こしたら 統計学必修化するなら統計詐欺の代表的手法も紹介しとかないとマズイ
生兵法が一番危険だからね
ますます数学からかけ離れちゃうけど 是非はともかくとして、大学ではなく高校で学習することには大いに意味があると思うよ
大学受験に必要となれば皆が真面目に勉強する
受験生の真面目さと大学生の不真面目さを対照すれば、これがどれほど重大な差かわかると思う ベクトルは数学のあらゆる分野の土台となる。
統計学も進んだ理論にはベクトルの理解は不可欠。
逆に統計学は数学の各分野の土台となるだろうか。
だから
ベクトルを犠牲にしてでも統計をやらねば!!!!!!! 株価でも為替でもいいのですが、値動きのチャートが
ブラウン運動(ランダム)に沿っているのかどうかを
判定することは可能ですか? >>576 〜>>581あたりがヒントになりそうだね。ありがとう。 ここの住人は標本数と標本の大きさの誤用についてどう思っているのか聞きたい。 >>628
言葉遊びだと思うけど、
こだわる椰子がいるから俺はサンプルサイズと言ってる。 英語で混同してるなら元々の用語に問題があるんだよ。
単位系が定義変更してるのだから用語変更もすべき Excelのマクロで統計関係の自作関数作って公開している人知っている?
わざわざRに取り込んだりするのめんどい うん、分析ツールは良くないっていう話はよく聞くよね。
俺の妄想は、Excelシート上のA列にN数、B列に陽性数が入っているとして
C列に
=confint(A1,B1,0.95,"wald")
みたいにすると、簡単に信頼区間が得られるようなユーザ定義関数。
あ、RExcelがあるか >>646
Rの方が面倒くさくないよ。
パッケージbinomを使えば
A=c(1,2,3)
N=c(5,6,7)
for(i in 1:length(A))
print(binom::binom.confint(A[i],N[i],conf=0.95))
で一気に様々な信頼区間が表示される。
http://imagizer.imageshack.com/img921/964/oNNsrh.jpg >>648
便利そうなパッケージ、教えてくれてありがとう。
俺の説明不足だったんだけど、
そのRのコンソールに出力されたテキストを結局また元のExcelへコピペして、
「区切り位置」とかでパースしたりいろいろして表の体裁に仕上げる、
という作業に、何となく徒労感があるんだ。
ちなみにExcelに戻すのは、色つけろ枠つけろみたいな要求に
R で対応するスキルが足りないから。
knit とか覚えればいいのかな。
>>647
http://sunsite.univie.ac.at/rcom/
開発は続いているよう。 >>649
情報ありがとう。
以前、インストールでめちゃくちゃ苦労して、パソコン変わった際にはインストールする気が起きなかった記憶がある。それ以来、ご無沙汰してるわ それな。
俺も昔苦労して最終的に入るには入ったんだけど、
Excelが全体的に重くなってしまうのがストレスで、あまりいい思い出がない。
今のPCはメモリたくさん積んでるから当時よりはましかもしれない。
統計学らしくない話を振ってしまってすまなかった。名無しに戻ります。 既存の評価指標Aが0〜10までしか計測できないところを
0〜50まで図れる新規の評価指標Bを作りました。
信頼性と妥当性を検証したいんですけど、
信頼性は級内相関でいいとして、妥当性はどう検証すればいいでしょう?
BはAを内包している関係なので、相関係数が高くて収束的妥当性があってもよくないし
低くて弁別性があってもよくないと思うんです。
BがAを内包していますみたいなことを検証する統計ってあるんですか? >>628
今読んでる本(国立大の統計学の教授が翻訳)には
サンプルサイズのことを標本数と表現してあったので調べたが
読者等の混乱を避けるためにサンプルサイズ(標本の大きさ)と標本数は使い分けたほうがいいということらしい。
実際いま本読ん出る時に、どっちのことか混乱することがあるので
読者がいるようなものは使い分けたほうがいいとおもうわ。 >>646
>うん、分析ツールは良くないっていう話はよく聞く・・・・・・・・・・・・
良くないというのは、Excelのどのバージョンのどのサブメニューのことなのか?
良くないというのは、分析結果の精度が粗い?分析結果が間違っている?
それとも、うん、>>646と>>645を受けたレスということは、分析ツールとは別メニューの
Excelのソルバー>>645が、良くないという趣旨なのか?
ソルバーが良くないというのは、他の統計ツールと分析結果が相異するからなの? 自由度の求め方について教えてください。
2グループについて、それぞれ平均値、標準偏差、n数がわかっています。
各グループでn数は違います
個々のデータは分かりません。分散が等しくないt検定(ウェルチのt検定)
をしようと思います。t値は求められるのですが、自由度も求め方がわから
ないので、有意水準5%で有意かどうかが判断できません。自由度の算出
方法を教えていただけないでしょうか。 >>657
# t検定(生データなし,等分散不問)
Welch.test=function(n1,n2,m1,m2,sd1,sd2){
T=(m1-m2)/sqrt(sd1^2/n1+sd2^2/n2)
df=(sd1^2/n1+sd2^2/n2)^2 / (sd1^4/n1^2/(n1-1)+sd2^4/n2^2/(n2-1))
p.value=2*pt(abs(T),df,lower.tail = FALSE)
return(p.value)
} 標本数n 平均m 標準偏差sdの正規分布するシミュレーションデータを作ってWelchの検定をすることもできる。
Rが使えるなら
scale(rnorm(n))*sd + m
で可能。
これを各グループで作って検定する方法もある。
>659の結果と一致するはず。 統計学と並行して高校数学からやり直してるんだけど、微分積分さえある程度できれば解析学までやる必要はないってホント?
むしろその時間で線形代数やったほうが良いってのもホント? 合成関数の微分とか全微分とかあたりまでは統計でも必須 3個中1個が当たりのものがある。これを被験者6人中5人が当たりを引いた。
このとき、被験者は有意水準1%で当たりがわかるとは言えないが、有意水準5%で当たりがわかると言える。
ただし(1/3)^6=0.0014とする。
これ6C5*(1/3)^6+6C6*(1/3)^6=0.0096で1%を下回るんじゃないの?
納得できないんだけど教えて偉い人 確率を検証して当たる確率出すなんてナンセンスだよね。賭け事は進んでいて
意外性が在る乱数になるから、何か見えないものが働いていることが数学ではよくわからない。そしてタロットも然り。同じ確率なんだけど、
運命を感じるというのも変な話で。矛盾しているよね。気持ちと心が。 練習問題の解法を教えてください。基本統計学第4版(有斐閣)の6章の問題です。
41)1つのサイコロを1,000回投げたとき、1の目が180回以上出る確率と、1の目が140回以上200回以下出る確率を求めよ。
本の答えは、0.1379と0.9875です。以下のように計算してるのですが、答えがあいません。
前段の問題
n=1000,p=1/6の2項分布を正規分布で近似して求めた。μ=1000*1/6、σ^2=1000*1/6*5/6としてN(1000/6, 5000/36)を使う
(180−1000/6)/(sqrt(5000)/6)=80/sqrt(5000)=1.1313 −>正規分布の上側確率表より【0.12924】
後段の問題
Pr(140≦x≦200)で計算する
(140−1000/6)/(sqrt(5000)/6)=−160/sqrt(5000)=−2.2627 −>正規分布の上側確率表より0.011911
(200−1000/6)/(sqrt(5000)/6)=200/sqrt(5000)=2.828 −>正規分布の上側確率表より0.0023274
1−0.011911−0.0023274=【0.9857】
【】が自分で計算した答えです。計算式のどこかで間違えているのはずなのですが、自分では気付くことができません。
よろしくお願いします。 z=(179.5-1000/6)/sqrt(5000/36)=1.08894...→1.09
z=1.09に対する分布表の値は.3621なので、0.5からこれを引いて0.1379
z1=(200.5-1000/6)/sqrt(5000/36)=2.87085...→z=2.87
z=2.87 に対する分布表の値は 0.4979
z2=(139.5-1000/6)/sqrt(5000/36)=-2.30517...→z=2.31
z=2.31 に対する分布表の値は 0.4896
これらの和は0.9875
「180回以上出る確率」の相反事象は「179回以下出る確率」なので、
179.5を境界にするのが妥当だということと、教わった手順に従って、
「適当」な場面で四捨五入を行い、数表を用いると、
テキスト通りの値に行き着くようです。 ありがとうございました。離散数値での確率密度関数の使い方がわかりました。 ちょいとすみません。わからないところがあってここにたどり着いたズブの素人なのですが、よければ教えてください。
標準偏差て平均が基準値なんですよね?
平均じゃなくて、ある値(カットオフ値)を基準にしてそこからバラつきがどんなものか調べたい時は、計算方法は標準偏差と同じで平均値をカットオフ値に置き換えたらいいのでしょうか?
ネットで調べても平均値で計算、ばかりでわからなかったです Wolframに入力してみました。
https://www.wolframalpha.com/input/?i=sum%5Bchoose(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+180+to+1000%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 180 to 1000]
sum_(n=180)^1000 ((5/6)^(1000 - n) binomial(1000, n))/6^n
=0.138430864995663940543635063874277127250218037792364115557...
https://www.wolframalpha.com/input/?i=sum%5Bchoose(1000,n)*1%2F6%5En*(5%2F6)%5E(1000-n),+n+%3D+140+to+200%5D
sum[choose(1000,n)*1/6^n*(5/6)^(1000-n), n = 140 to 200]
sum_(n=140)^200 ((5/6)^(1000 - n) binomial(1000, n))/6^n =
=0.988113644388740861240108592472945211524447200450991732557... 重回帰分析で交互作用を検討?交互作用が予想される問題に
適用すべきは、実験計画法(分散分析)ではないのか?
重回帰分析で交互作用を検討する Posted on 2014年1月31日
http://norimune.net/1733 この名大のように先端医療開発部門に生物統計とバイオインフォマティクスを
抱える統計解析室という組織があるのは、他所のの医学部でも通常なのかな?
医学部で生物統計というと新薬の薬効の統計的検定ということか?
また統計解析室長を木下文恵某とかいう若手の助教が担うのも通常なのかな?
名古屋大学医学部附属病院 先端医療開発部 先端医療・臨床研究支援センターの体制
統計解析室−−生物統計・バイオインフォマティクス
http://www.nu-camcr.org/cms/center_index/center_staff/ 例えば、母集団から50枚の答案用紙を選んで、平均が
60点だとする。母集団は2500枚の答案用紙から成り立っているとして、平均は70点とする。このとき50枚の答案用紙をランダムに選んだかの検定はどの
ようにすればいいでしょうか。(つまり60点の平均点が低いので、ランダムに選んだかどうかを疑っているわけです。) >>646
EXCELの分析ツールは良くないというのは、統計専用ソフトと
出力値が合わないからですか?
お薦めの統計専用ソフトは、どれどれですか? 方程式に代入する速度はパソコンじゃ無理なんだろうか?そうでもないらしいね。 こんなグラフの2つの系列に対する有意差検定ってどうすればいいでしょうか。
ttps://benesse.jp/teikitest/_resource/img/kou/science/k_sc_619_6.png
実際には2つの系列はそれぞれ複数の結果があります。 >>676
母集団のバラツキが大きいならランダムに選んだと言えるかもね。
母集団の分布をどう仮定するかによるんじゃね。 >>676
母集団は正規分布としてシミュレーションしてみた。
母分散が43点程度であれば標本平均が60点以下になる確率が5%を越える。
> f= function(sig){
+ x=scale(rnorm(2500))*sig + 70
+ mean(replicate(1e3,mean(sample(x,50)))<=60)
+ }
> f=Vectorize(f)
> f(1:100)
[1] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
[13] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.001
[25] 0.002 0.002 0.003 0.003 0.005 0.006 0.010 0.018 0.017 0.017 0.013 0.021
[37] 0.029 0.026 0.029 0.041 0.035 0.037 0.057 0.054 0.058 0.076 0.059 0.060
[49] 0.063 0.068 0.080 0.074 0.077 0.086 0.098 0.092 0.114 0.096 0.110 0.098
[61] 0.115 0.115 0.133 0.122 0.141 0.118 0.139 0.157 0.170 0.153 0.182 0.165
[73] 0.171 0.154 0.167 0.175 0.163 0.174 0.178 0.174 0.196 0.205 0.204 0.211
[85] 0.206 0.205 0.217 0.212 0.235 0.218 0.189 0.230 0.232 0.215 0.221 0.246
[97] 0.217 0.228 0.216 0.248
> >>679
同一濃度での反応速度データがあるならpaired t-test で検定できるのでは。 >>665
6C5*(1/3)^5*(2/3)+6C6*(1/3)^6= 0.01783265 >>682
x軸の値を実験の設定値にすれば同一ですが、測定値で補正してるので厳密には同一になりません。
散布図のプロットを繋いだような系列では難しいですね。
もしx軸を設定値としてpaired t-testする場合、レプリケートの扱いは各測点で平均化すればいいでしょうか。
それとも検定結果を平均化する方法が有るのでしょうか。 >>681
訂正
×母分散が43点程度
○ 母集団の標準偏差が43点程度 >>684
阻害剤の添加による反応速度の変化=0が帰無仮説の検定
なので両端のデータが多いと有意差なしになるだろうね。
この例での有意差検定の意味がわからなくなってきた。 >>686
専用の検定が無いとなると確かに両端に影響されますね。
有意差の数値化は諦めてグラフから説明するしかないかもしれませんね。 https://i.imgur.com/BHgxjYD.png
帰無仮説、対立仮説に関する質問です。
・3つのグループの標本は同じ母集団から得られたものである。○か×か?
どちらなんでしょう。
初学者なため、自分でも何を言いたい質問なのか分かりませんが、お答えいただければ幸いです。 >>689-690
×なんですね。お返事ありがとうございます
それも画像付きで…感謝の極みです
>>691
Odyssey主催のビジネス統計スペシャリスト(上級)という資格試験の勉強中でして…
ベーシックに合格できたのでスペシャリストの方も取ろうと思ったら内容が一気に難しくなり、
恥ずかしながら独学でどうしても分からない所が出てきたので質問させていただきました >>692
統計検定二級あたりの教科書で一通り手法は知っといた方がいいかもね。無料がいいなら統計WEBとかもあるし。
まあ、でも、問題に複数の会社名が出てきてる時点で同じロット(母集団)とは言えないんじゃ?と思ったけど。 >>688
生データなしで計算すると
> ## m sd n
> A=c(159.0625,sqrt(3924.729167),16)
> B=c(240,sqrt(22027.5),17)
> C=c(366.35,sqrt(5329.292105),20)
>
> lh=rbind(A,B,C)
> colnames(lh)=c("m","sd","n") ; lh
m sd n
A 159.0625 62.64766 16
B 240.0000 148.41664 17
C 366.3500 73.00200 20
> mean.G=sum(lh[,"m"]*lh[,"n"])/sum(lh[,"n"])
> SS.bit=sum((lh[,"m"]-mean.G)^2*lh[,"n"])
> SS.wit=sum(lh[,"sd"]^2*(lh[,"n"]-1))
> df.bit=nrow(lh)-1
> df.wit=sum(lh[,"n"]-1)
> MS.bit=SS.bit/df.bit
> MS.wit=SS.wit/df.wit
> (F.ratio=MS.bit/MS.wit)
[1] 19.28831
> pf(F.ratio,df.bit,df.wit,lower.tail=FALSE)
[1] 6.18406e-07
> (η2=(SS.bit)/(SS.bit+SS.wit))
[1] 0.4355169 どの2つが別の母集団かを検定すると
> pairwise.t.test(x,g,p.adjust='holm')
Pairwise comparisons using t tests with pooled SD
data: x and g
A B
B 0.02596 -
C 4.5e-07 0.00083
P value adjustment method: holm Zが標準正規分布に従う時、次の値を求めよ。
1:P{Z>u1}=0.05を満たすu1の値 → u1=1.645
2:P{Z<u2}=0.005を満たすu2の値 → u2=-2.576
3:P{-u3<Z<u3}=0.99を満たすu3の値 → u3=2.576
Xが正規分布N(10, 5^2)に従う時、次の確率を求めよ。
1:P{X>20} → 0.0228
2:P{X<5} → 0.1587
3:P{0<X<20} → 0.9544
途中式:https://i.imgur.com/mJcxOKQ.png
※P{X>20}は 0.0028 じゃなくて 0.0228 の間違い。
━━━━━━━━━━━━━━━
Excelスレで質問したのですがスレチと言われたのでここで質問させて下さい。
上の6つの問題を標準正規分布の数値表を用いずに、
Excelの関数で求めたいのですが関数式を教えていただければ幸いです。 >>696
これを見た統計学スレの方々が答えてくれたのかはわかりませんが、
このレスの後すぐに関数式を教えていただけました。ありがとうございました! >>696
Excelスレで質問?
数学板上のソフトスレは、以下しかない筈だが?
理工系分野手法操作も扱うExcelスレは、何処板に?
【R言語】統計解析フリーソフトR 第6章【GNU R】 [無断転載禁止]©2ch.net
http://rio2016.2ch.net/test/read.cgi/math/1501755792/
統計ソフトSTATAの部屋 Ver.2
https://rio2016.2ch.net/test/read.cgi/math/1284083650/
グラフから読み取る統計学の基本入門 [無断転載禁止]©2ch.net
http://rio2016.2ch.net/test/read.cgi/math/1497075809/ Zが標準正規分布に従う時、次の値を求めよ。
1:P{Z>u1}=0.05を満たすu1の値 → u1=1.645
2:P{Z<u2}=0.005を満たすu2の値 → u2=-2.576
3:P{-u3<Z<u3}=0.99を満たすu3の値 → u3=2.576
qnorm(0.05,lower.tail = FALSE)
qnorm(0.005,lower.tail= TRUE)
qnorm((1-0.99)/2,lower.tail=FALSE)
Xが正規分布N(10, 5^2)に従う時、次の確率を求めよ。
1:P{X>20} → 0.0228
2:P{X<5} → 0.1587
3:P{0<X<20} → 0.9544
1-pnorm(20,10,5)
pnorm(5,10,5)
pnorm(20,10,5)-pnorm(0,10,5) 散々ググってもわからなかったので、教えてください。
どこか間違ってるんだが、どこかわかりません。
検定の際にα=5% β=20%、右側検定(母集団の平均測定)として、
なぜ、確率の場合分けで足し合わせるように
H0となる確率=(1−α)/(1-α+β) H1となる確率=(1-β)/(1-β+α)
ではなく
いきなり、H0の第2種の過誤=β=20%、H1第1種の過誤=α=5%なのでしょう。
そもそもμ0とμが1:1の確率で起こる前提だと、確率の場合分けができますが、前提が違うのでしょうか。
H0ならば測定値xバーはZcrit 以下に95%分布している(はず)、よってH0をrejectできない。
でもそれが間違っている確率はβ=20%よ、というのがピンときません。。。 >間違っている確率はβ=20%よ
というのは正しくないよ。
棄却 棄却しない
H0 A B
H1 C D
α=A/(A+B)
β=D/(C+D)
β=D/(B+D)ではないよ。
ちなみに
A/(A+C)はFalse Positive Report ProvbabilityとかFalse Positive Rateとか呼ばれる 平均値と中央値の差の絶対値が標準偏差以下であることを示して欲しいです。よろしくお願いします。 >>688,692です。
https://i.imgur.com/KQMCk5P.png
質問に答えてくださった方々のお力で資格試験に無事合格できました。
このスレにいる統計学の専門者の方々から見たら、
「おいおいそんな見たことも聞いたことも無いうんちな資格取ってどーすんだ?w」と思われるかもしれませんが、
単に、お礼を伝えに来ただけなのです。ありがとうございました(、、 >>704
エクセル分析ベーシック?エクセル分析スペシャリスト?
無事合格おめでとうございます。
初めて聞く資格名です。
どの方面で有能な資格なのですか?
主催odysseyというのは、どういう組織なのですか?
https://stat.odyssey-com.co.jp/about/ NHKのこの「日本人の意識」調査のサンプルサイズn=5400は、
過剰で統計理論に背いているだろ?
1安倍ちゃん ★2019/01/10(木) 18:43:00.82ID:e4+I4ZlK9
・・・「日本人の意識」調査を、昭和48年から5年ごとに行っています。最新の調査は
去年6月から7月にかけて、全国の16歳以上の5400人を対象に個人面接法で実施し、
50.9%にあたる2751人から回答を得ました。
この中で、結婚についての考え方を尋ねたところ「必ずしも結婚する必要はない」と
答えた人は68%、「人は結婚するのが当たり前だ」と答えた人は27%・・・・
【NHK世論調査の異常な現実】本当にちゃんと選んでるのか?現状の生活満足が92%
http://asahi.5ch.net/test/read.cgi/newsplus/1547113380/ >>706
どちらにしても、アンケートを受けた本人が考えたというより、
親の考え方がそうだということにしかならんのだよな。
そう考えると、大人は理不尽だ。 統計先達方に質問。先般より騒動出来の厚労省「毎月勤労統計」不正問題だが、2004年
以前まで零細企業は抽出統計、大企業は全数統計と決められていた根拠は、何なのかな?
統計の考えに立脚すれば企業規模に関わらず標本抽出統計一本でよいのじゃないか?
【伝統】厚生労働省、勤労統計を正しく装うデータ改変ソフトまで作成していた事が判明 ★2
http://asahi.5ch.net/test/read.cgi/newsplus/1547255657/ 改変ソフトって、ほんとかね?割合を合わせてるだけじゃないの?
決まりはもちろん全数だけど、件数割合を全数に合わせているとしたら
計算結果はおおきく変わらないだろうね。
だとした場合
今までの報道では、件数も合わせずに、そのまま東京の分は1/3で計算
していたと報道していた。これの方が大間違いの報道ということに
なるのだが。 社会人でも通いやすい統計学の大学院てどこかありませんか デイトレやるようになって勉強し始めた
とりあえず2級が目標 ある私立医大の合格者の偏差値の平均値はm、標準偏差は10の正規分布であるとする。
合格者のうち成績上位70%は入学を辞退し下位30%の合格者が入学する。入学者の偏差値の平均値をmaとする。
m - maを算出せよ。
答はmの値によらないでいい? >>708
1 全件調査は法的に決まっていた
2 サンプル抽出なら、全体支払い料を算出する際に抽出率の逆数を乗じないといけない
3 上のミスをこっそり修正したので賃金の伸び率が不自然になった おまけに2004年からのデータ破棄してるって
紙のアンケートだか何か知らないがひどい >>718
じつは指摘されるのと類似した問題が一つの要因で
ただ、言われていることとちょっと異なるんだが
ソフト環境が進んで、さらに無償で利用できる関係で研究員によって
好みのツールを使うようになり、検証が不十分になってきているところが
今回の要因の一つにある。
便利さが生んだ問題と言ったらいいのか。 高度な統計解析が必要とされるわけではないので
言い換えれば、ツールオタクが生んでしまった問題の
一つと言えなくもない。
言語で結果が変わるわけじゃないんだから、
研究と業務という意識の切り分けができていなかった
といえるかも。 書くところがここしないので書かせていただきます
公的な統計の問題が毎日ニュースで流れていますけど、
賃金構造基本統計調査=> チンコウ
毎月勤労統計調査 => マイキン
と、統計の専門家が短縮してチンコウ、マイキンと
おっしゃっていますけど、俺が耳がすこし悪いので、
聞くたびに、チンコ、マンコと聞こえてしまいます。
お願いですから、他の短縮形を使ってください!
よろしくお願いします! 賃金構造基本統計調査=> 賃本
じゃあまずいかな?
どう発音してもいいけど すいません、質問です。
ttp://www.data-arts.jp/jssc/grade1semi/2016-06/2/q1/q.html
この問題の(3)の解答なのですが、なぜ自由度が9になるのでしょうか。11カテゴリで自由度10にならないのでしょうか。 相関係数について教えてください。
変数a={1,1,1,1,1,1,1,1,1,1}
変数b={1,1,1,1,1,1,1,1,1,1}
つまり2つの変数の値が全て同じだった場合に、
相関係数を計算すると計算不能になりますけど、
これは相関係数は1だと言っていいんでしょうか?
それとも計算不能でいいんでしょうか? 1でok
ていうか全く同じデータの相関係数求めてどうすんの 意味ないですよね?
よくよく考えてみると、
その意味ないことを
延々と証明してるキチガイ論文見つけたので
学会発表のときに
触れてやろうと思ってます >>733 に異を唱えてくれるステキな大人のひと、いないの? エンタングルメントみたいな非自明ながらも完全なる相関性とかもあるんだけどね。 >>735
そんな人は研究に忙しくて
5chみてるヒマないでしょ?
ここにくるのは初心者とカスとゴミですから >>732
相関係数の公式は知らんが、
0/0は、不定値である
そもそも、aもbも全部1とのことだが
より精密に測定すれば
0.982とか1.023の感じの測定値となる
有効数字1桁ではなく、せめて、
有効数字2~3桁となるよう再測定せよ
なお、相関K数は計算上不定だが
一般に相関K数は-1~+1に定まる 統計学で大学院に行って学びたいと思うけど、修論がまったく思い描けない。
既にある問題解析なら、本を買ってやればよいと思う。
統計学の修士論文って、どんなレベルなんですか? 学部なんだろ、当たり前だろ、馬鹿か
>修論がまったく思い描けない 修論のテーマなんて教授から与えられるものじゃないの 昨今AIと呼ばれているものは統計学のごく一部を応用してるにすぎないし応用と呼べるレベルにすら達していないものも多い
つまり統計学なくして理論面でのAIの発展などあり得ない >>749
禿同
その基本的なことさえ
全く分かってない機械学を
Pythonでやってるママゴトでも
高い給料もらえるという
データサイエンティストバブル! >>748
残念ながら今のところ
統計学≒AI
なのよ
よろしくね! 2515
かずきち@dy_dt_dt_dx 8月28日
学コン8月号Sコース1等賞1位とれました!
マジで嬉しいです!
来月からも理系に負けず頑張りたいと思います!
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account) 初歩的なことかもしれませんが、「有意水準」に関して悩ましいことがあったので質問させてください。
個人的な興味のために、「n面ダイスをm回振って、全ての目が出揃う確率」について議論したいんですが、
統計学的には、その確率が99%以上であれば、有意水準1%のもと、「n面ダイスをm回以上振れば、流石に全ての目が出たものとして扱ってよい」と言える、
という認識で合ってますでしょうか。
合っているとして、ここからが本題なんですが。
例えばこれをn = 100で行った場合、
「百回中一回しか起こらない事象を自分は扱ってるくせに、統計学的には1%以下を無視するなんて、どの口が言ってねん」って感覚を覚えます。
つまり、nの値が大きければ大きいほど、有意水準を引き下げたくなってしまいます。
この感覚は理論的には正しいのでしょうか? 検定の概念がわかってないようなのでそこから見直しって感じですかね n面ダイスが正確に作られた(=各面の出る確率が等しい)ものであればm回振って全目が出る確率は厳密に計算できる
しかし、現実には完全に正確なダイスなどあり得ないのでこの確率からのブレが生じる
手元にある実物のダイスがどのくらい不正確かは実際に振ってみて値を記録しなければ分からない
で、実際に振った以上どの目がどの確率で出るのかは分かったのだから求めたい確率も計算できる
有意水準を使った統計学的検定でできるのはダイスが正確なものか否かの判定ぐらいでしかないので今の場合は不要 なるほど……有意水準という概念を適用できる範囲を誤解していたみたいですね。
有意水準の概念は「このダイスに偏りがないか」を調べるときには使えるが、
「ダイスが正確であるとして、m回振った結果すべての目が出揃っているか」は、例えば計算した結果99.4%だとしたらそれ以上でも以下でもなく、99%以上だからと言って全ての目が出ているとして扱えるものではない、と。
勉強し直します。ありがとうございました。 ちょっと調べてみたんですが、「どの程度、低い確率で起きる事象なら無視していいか」に関しては「ボレルの法則」というものがあるらしいですね。
「10のマイナス6乗以下の確率は、人間の時間スケールではまず起こらないものとして扱ってよい」という。
この場合適用すべきはこちらでしょうか。 確率と有意水準をごっちゃまぜにしているように見えます。
有意水準という用語の背景には、必ず帰無仮説があります。
帰無仮説というのは、いわば否定されることを目的に立てるような仮説です。
帰無仮説が否定されたなら、それに従って、何らかの主張が行えます。
その時の常套句が、「有意水準これこれで、これこれを主張する」等となります。
なぜ、その帰無仮説が否定できたか?
否定した理由は、あまり起こりえないことが起こったからという論法です。
偶然、たまたま起こったと言うこともあり得ます。
しかし、そう考えるより、帰無仮説が間違っていたと考える方が、無難だと考え、
帰無仮説の内容の否定にあたる主張を、「有意水準云々で、此れ此れ...」と言うのです。
帰無仮説が間違っていると考えるか、偶然起こることもあるから、帰無仮説が間違っているとまでは
言い切れないと考えるか、その判定の境界として採用されているのが、5%とか、1%とかの値です。
従って、この5%とか1%は、「その主張が間違っている確率」ではありません。
「間違って帰無仮説を棄却してしまった確率」です。
帰無仮説は正しかったのに、誤って否定し、何らかの主張を行ってしまった確率です。
主張の内容の確率ではなく、帰無仮説を否定してある主張を持ってきたときの判断の誤りの確率です。 5645
かずきち@dy_dt_dt_dx 9月29日
京大オープン経済190/550しか取ってないやつにマウント取られて草
お前より90点高いんだよ黙って勉強しろ
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account) 検定とか有意とか
フィッシャー最大の失敗だと思いますんw 統計学やると今流行のデータサイエンティストになれるのか? むしろデータサイエンティストブームが終わっても生き残るために必要なのが統計学
データサイエンティストになるだけが目的ならもっと小手先のテクニック身に着ける方が手っ取り早い データサイエンス=機械学習 になってしまって、統計学への関心が薄れてきた印象
データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象
結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする 機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。 緑本が難しかったんだけど、どの本から始めたらいいですか? 機械学習のベースは統計学
ついでにいうと機械学習機械学習といっているのは日本くらいなもん 緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか Rは数年前に既に衰退始まっててpythonに移行しつつある >>772
日本でいうDSだの機械学習はもう数年で終わり
今慌ててDS関係の講座作ってる大学は不良資産抱えることになる
新規採用した教員が今後20年足引っ張るよw RはRstudioが使いやすいけど、Pythonは何使ってる? 不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、
自由度と不偏推定量はどうして関係があるのでしょうか?
不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、
という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。 非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね?
いい本あったら教えてください 非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰することじゃないの?
又は2次関数なりで変数変換して線型回帰に落とし込むとか
いずれにせよ大層な話じゃないと思う 重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね
ニューラルネットとかでもいけるんですかね?ニューラルネットは軽く調べただけであんまわかってなくてすんません 単純な非線形重回帰なら一般化線形モデルでよくないか? 条件の違う2つの群に対して、5つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか? 名義尺度になるから標準偏差は取れなくない?
カイ二乗検定かね? 好みを点数で評価してもらったら
形式上は間隔尺度になるかも 要素Aについて、Aがある場合とAがない場合に、
100回中何回事象X、Y、Zが起きたか調べたデータがあるとき
X、Y、Zが起きるのは高得点である
たとえば
Xが起きる=〇点、起きない=0点
Yが起きる=△点、起きない=0点
のように何点であるかはわからないが、事象が起きると
起きないときに比べて高得点が得られるとすると、
要素Aは「高得点を得る」のに影響しているのか
というのを調べるのにはどうしたらいいでしょうか?
AとX、AとYのように個別にカイ二乗検定を行うと
p値は0.05より大きいというようなことはわかったのですが…
100回中
A ~A
X 15 10
Y 17 10
Z 12 8 >>796
Aと、Xが起きる起きないの関係でP値が5%超だと
AとXの発生は無関係って解釈になるのでは?
そのレスにあるクロス集計表だと
AとXYZのどれが発生するかの関係を調べることになると思う >>797さん、ありがとうございます!
....A ~A
X...15 85
~X..10 90
....A ~A
Y...17 83
~Y..10 90
....A ~A
Z...12 88
~Z.. 8 92
についてそれぞれp値は5%超なので、
「高得点を得る」事象X、Y、Zについて、
帰無仮説:要素Aによって、事象X、Y、Zの発生のしやすさは変わらない
は棄却不能であるので、
Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない
Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、
それは偶然であるのか必然であるのか、このデータから推論することはできない
ということでいいのでしょうか? >>798
H0:二つの変数は独立である。
H1:二つの変数は独立ではない(何らかの関連がある。)
でH0を棄却できないので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
になると思います
有意水準の値にもよりますけど ありがとうございます
優位水準5%としたとき、p>0.05なので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
同様にp>0.05なので
AとY、AとZに関連があるとは言い切れない
よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない
(あるともないとも言い切れない)
ということで大丈夫でしょうか? 統計学の勉強をしたいのですがお勧めの教書はありますか?とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです >>801
図書館とかでいろいろ見てみたらいいのでは?
同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので それぞれ、サイズの異なる
A B C D E が5分類有り、ONとOFFの2つの状態を持ちます。
ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。
判明している数値は、A〜Eのサイズ(量)と各分類でONになった回数です。
分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、
各分類で起こった回数もトータルでの起こった回数も不明です。 スレ違だったらすまん
TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな?
ふと疑問に思ってしまった >>801
教えてもらったらレスしなさい、いやなら二度と来ないで >>802
遅くなってしまい申し訳ありません。
情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。 >>812
定義とおりに計算したら求められると思います
Xが-4を取る確率をその表から読み取って掛け算して
他の値も同様にして、全部足し合わせる→平均
平均との偏差の二乗を足し合わせて個数で割る
共分散も定義の式を確認してその通りに計算する 質問:日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合
Q1. この統計調査そのものを棄却すべきなのか
Q2. 信頼区間をいじればどうにか統計として成り立つのか
Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか
よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○%!」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。 仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな
"瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―" >>805
求めたい値を変数として
今わかっている関係を数式で表す
それらを使って誤差などの評価値を最小にする値を探す
組合せ最適化問題に帰着するかもしれない >>814
除外する基準が分からないなら
そのアンケートの結果としては意味があるだろうけど
対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う
別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか >>817
仮説が正しい確率が小さいから仮説を棄却するんじゃね? 「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある
現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる >>821
仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える
分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね?
中心極限定理とかで安定分布とみなせるとかあるんじゃね? >>821
別の手段は何か適切なものがあるの?
ないなら近似的なものでも答えがわかった方がいいんじゃね? >>823
勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも
有限サンプルの世界ではあくまで近似でしかない
そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって
近似的に使えるものがあれば好きに使えばいい
ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる この問題を教えて頂けないでしょうか?
大学1年生について,何かを失敗してしまうことへの恐怖感を感じる程度(「以下,「失敗恐怖尺度得点」)と,個人の大学生活への不適応度(以下,「不適応得点」)を測定したところ,
それぞれの記述統計量について,「失敗恐怖尺度得点」に関して平均値=4.05,標準偏差=1.17,「不適応得点」に関して平均値=20.29,標準偏差=6.49という結果が得られた。また,2変数間の共分散は2.37であった。
「失敗恐怖尺度得点」を独立変数とし,「不適応得点」を従属変数として単回帰分析を行い,それぞれ値を入力欄に記入せよ。
(1) 切片を推定せよ
(2) 回帰係数を推定せよ
(3) 決定係数を示せ
(4) 単回帰分析の結果,得られる,従属変数の予測値と,従属変数との間の相関係数を求めよ
(5) 予測の標準誤差を示せ ベイズって簡単なの?理解に苦しんでる笑
もう一踏ん張りしたらそのステージに上がれるかな 平均値100 標準偏差15で定義される知能指数で
標準大学の新入生の知能指数の平均が100
裏口シリツ医大の新入生の知能指数の平均が85であったとする。
各大学から1/10を無作為抽出して知能指数をt検定したときのp値の期待値、中央値を求めよ。
また、p値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか? >>825
統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。
Rだと
library(MASS)
mx=4.05
my=20.29
sx=1.17
sy=6.49
vxy=2.37
n=1e6
mu=c(mx,my)
si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2)
dat=mvrnorm(n,mu,si)
X=dat[,1]
Y=dat[,2]
lm(Y~X) 近似値なら
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept) X
13.279 1.731 >>824
仮説なんだから真の分布はわかるはずがないだろ
仮説が成り立つとして検定するんだから
真の分布なんて厳密に判るケースの方が少ないんじゃないか?
今あるデータだけでなく未来のデータも含めないと真の分布は厳密にはわからないんだし >>832
だから散々言っているように、真の分布が分からないのに仮説が正しい確率など分からないよね?ということ
あくまで自分が勝手に作ったモデルが手元のデータに対してどれぐらい使い物になるかが分かるだけ
それが有用なら使えばいいが、それは決して仮説が正しい確率ではないというだけのこと >>833
自分が勝手に作ったモデルのことを仮説と呼ぶ
仮説が正しい確率=自分のモデルが正しい確率 >>834
そこで言う「正しい」って何だよってこと
正解があって初めて自分が作ったものが正しいか間違いかを論じることができるはずだが正解を誰も知らないので「正しい」などという言葉を使ってはならない >>835
正しい→観測した事象が発生する確率が高い >>834
これは正確ではなかったかも
仮説が正しい確率=自分のモデルで対象の事象が発生する確率
自分のモデルで対象事象が発生する確率が低い→
自分のモデルつまり仮説が正しくないから仮説を棄却する >>837
統計量と検定に使う分布を適切に選ぶ必要はある
どの程度の精度が必要かは個別に違うだろう
近似でも有用なケースもある >>835
統計だから正しいか正しくないかの二択ではないんだよ
正しい可能性が1%なのか95%なのかで違うだろ 正しいか正しくないかは確率変数ではないので正しい確率などという概念がおかしい
確率変数ではないのだから正しいという言葉を使った瞬間に正しいか正しくないかの二択で論じることになる
>>837にあるようにあくまで計算するのは作成したモデルで観測した事象をどれだけ説明できるかであるが
それは一般に言う「正しい」の意味合いとは大きく異なる
だから「正しい」などと大袈裟なことを言わずに正直に自分が作ったモデルとはこの程度合っていると言えばいいだけのこと >>840
正しいという言葉の定義の問題でしかないな
意思疎通ができれば問題ない
正しいとはこう言う意味に解釈すると前置きすれば解決する だからベイズ使えベイズ。
仮定したモデルが正しい確率だから分りやすいぞ。 ベイズって観測するまでは事前分布を均等だとみなして
観測に合わせて分布を更新すると理解しているけど
それだと滅多に起きない事を考慮できないんじゃないの? >>843
無情報事前分布を当てはめるのは普通は確率分布のパラメータに対してであって最終的に知りたい確率分布自体は別のものを用意すればいい
レアな現象を扱いたいならポアソン分布とかをベースにした統計モデルがよく使われる 別の質問スレに書いたけどスレチだったようで回答頂けなかったので、こちらで質問させてください。
あるデータを連続分布関数でフィッティングしてパラメータを決めたいのですが、累積でやるのと階級に区切ったヒストグラムでやるのはどちらがいいのでしょうか? 累積じゃないか。
最小二乗法でフィッティングできない? >>847
俺も累積だと思うんだけど。
階級に区切るほうだと、階級幅をこっちで決めなきゃいけないからいらんパラメーターが増えるのがデメリットだけど、メリットあるのか?
どっちも最小二乗法は使えるよね。 最小二乗法が使えるかどうかはデータの誤差分布がどうなっているか次第なので実際のデータを見ない限り最小二乗法が使い物になるかは誰にも分からない アメリカの株のセンチメントの悪化が1万年に1度の発生確率って本当ですか?
https://imgur.com/OCqv5uX.jpg 収益率に正規分布を使うと大変な間違いになります。
株価は非線形的な反応をします。
ポートフォリオは毎日リスクにさらされます。 >>854
正規分布って線形ではないよね
株価とかがランダムウォークしたら正規分布にならない? ポートフォリオがリスクにさらされないと価格変動はなくなるからキャピタルゲインを得られない >>855
平時はそうだけど
裾はもっと分厚い
非線形というのは例えばコロナだけの問題ではないということで
連鎖反応がある > センチメント分析とは、文字通り消費者の「センチメント = 感情」を分析する
> ことを意味します。ウェブ上に投稿されたコメントなどを分析することによって、
> 消費者が持っている感情がネガティブなのかポジティブなのか、また、どの程度の
> 強さなのかを知ることができます。
そのセンチメント分析が何をどういう方法で分析したのか不明なのだから、
5σと言われても、さっぱりなんのことやらわからんよ。
単に否定的な単語の出現頻度が上昇したとか、そんなところだろ?
だって、テレビも新聞もウィルスの記事だらけ。
そんなの分析したら極端な結果になるんだろうね。
だけど5σと判断した基準がわからんのだから、
さっぱり意味不明だね。
その意味不明だということが理解できない人が、馬鹿ということ。
つーか、非線形と線形がどういう意味なのか
知ってる奴がいないということに驚いてる。
少しは勉強したほうがいいね。 >>858
線形、非線形を知っているのがいないってどうやって確認したの?
確認できない→いない
と判断した? SPSSで2グループの判別分析をおこなうと、正準判別関数と分類関数が出力されます。
この二つの違いは何でしょうか。
実際に分類を行う場合には、分類関数を使用するのでしょうか。 初めてこのスレに来た!
データ分析のために統計学を学ぼうとしていて、調べるとちょうど6月に検定試験があってちょうどいいなと思ってた今日この頃
皆さんは受験しますか? >>851
たまに真顔でこういう人がいるから困る
検定と推定は別物な
>>840
841がおかしいけど
センセーショナルなほうがもてはやされるんだろうね 使える=計算して何らかの結果が出せる、という意味なら使える
使える=計算して得た結果が役に立つ、という意味なら使えない >>864
計算可能かどうかは学問的には興味があるだろうけど
最小二乗法を学問的に研究しても面白くないんじゃないか?
事業とかの役に立つという意味で使えるという用語を使用する人が多いだろうよ 誤差が正規分布はblueの条件じゃないことをいいたいんだろう
正規分布に従っていればモデルのフィッテングがいいわけじゃない
決定係数が高くても外れ値で見かけ上の直線性になっているだけかもしれない
相関係数の検定結果で悦にひたっていた人を思い出すわ だから結局は実際のデータをプロットしたりして見てみないとどんな方法が最適かなど誰にも分からない
あらゆるデータに対して有用な結果を出せるような都合のいい手法など存在しない 人がいないので、質問を破棄します。
どうぞよろしく。 >>869は間違いなので無視してください
すみませんが、確率論統計学オタクの方々、日本のコロナウイルス感染者数を
計算できませんか
このコロナ騒ぎ以来日本政府はなんか態度が怪しげで外国のように検査数を
増やすつもりもないようです。
そこで、実際の感染者数をなんとか計算でだせないかと。
3月20日現在の、感染者数
日本国内 1015人
重症者49人
死亡者35人
致死率は1%から2%
NHKが毎日更新してる新型コロナの日本のデータ
https://www3.nhk.or.jp/news/special/coronavirus/
ジョンズホプキンス大学が毎日更新してる新型コロナ世界の感染者数
https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
よろしくお願いしますm(_ _)m 医療体制も国民の意識も栄誉状態も国内外の移動の頻繁さも全く違う国のデータを並べて一体何が推定できるようになると思っているのか 海外と比較して優位な差があるとかは分かるかもしれない
その理由はなぜかは海外との違う点が候補になるくらいじゃないかな >>870
ガイガーとか地面においてたタイプの人? 統計学を1から勉強してるけど難しいな
アウトプットが足りない 例えば、現在の都内の感染者数は正しいと仮定して、
都内の1ヶ月後の感染者数を
予測してみよう。
n:現在の感染者数を120人
d:接触率(1日に1人が何人と濃厚接触するか人数)=5人
c:感染率(人と濃厚接触して感染させる確率)=20%
M:都内の昼間人口
難しいのは感染者同士なら感染しない
一度感染した人は感染しないこと
また接触率を一定とする.
これから仕事なので
続きはまた後で・・・ 感染者数を教えてください。
森岡正博
@Sukuitohananika
みんな冷静に計算してほしいけど、東京都の新コロナ感染者数は現在171人。
東京から無作為に200人をピックアップしたときに、その中に超有名人の志村けん氏が入ってる確率ってどのくらいだと思う?
現在の感染拡大ペースは我々の想像をはるかに超えてるよ。
桁違いの感染者数になってるよ。
https://twitter.com/Sukuitohananika/status/1242698846032953345
https://twitter.com/5chan_nel (5ch newer account) >>878
超有名人かどうかは個人を特定した時にその値をどう解釈するかというだけじゃないの?
有名人かどうかに関わらず感染する確率は変わらない
有名人だから感染する確率が高くなるとか低くなるとは思えない
個人の行動範囲とか多数の人と会う機会が多いとかは影響するかも知れないし
有名人だから街で握手したりする機会が多いなら高くなるだろうけど
行動で感染するかどうかの結果は変わるだろう >>878
「統計でウソをつく方法」というのを思い出したw >>879
ある国の人口は100,000,000人で、
そのうちの1,000人が「有名人」です。
いま、ある感染症に、1人の有名人が罹患しました。
なお、この感染症は国民にランダムに罹患するものとします。
@この条件だけで、全国民の感染症患者数は、ほぼ100,000人と推計できるでしょうか?
A「他の999人は罹患していないことが分かっている」という条件を付け加えたとき、
上記の推計結果は変わるでしょうか?
B罹患した有名人が2人のとき、単純に200,000人と推計できるのでしょうか?
罹患している人の確率よりも、罹患していない人の確率を計算して1から引く?
よくわからない。 志村けんが感染する確率なら結構低いかもしれないが、今気にしてるのはあくまで一定以上の知名度の有名人が感染する確率だから特に都内に限定すれば大して珍しいことではない >>881
1については母比率の推定から類推できそうだけど
芸能人に限定するとランダムサンプリングではないから
少し調整が必要だろうな
どんな調整が適切かは判らないけど
例えば、ダイヤモンドプリンセスをサンプルに感染率の推定をしても値が妥当でないのと同じだと思う >>881
人口がN=1億で、感染者の数がA、非感染者の数がN-Aとし、有名人の数がU=1千とすると、
有名人の感染者の数がnである確率は、C[U,n]C[N-U,A-n]/C[N,A]
A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、
これだけの情報では範囲が荒すぎてA「ほぼ100,000人」なんて言えず、@も当然言えない
A=24230のとき、n≧2の確率は2.5%、A=720600のとき、n≦2の確率は2.5%だから、
これだけの情報では範囲が荒すぎてB「ほぼ200,000人」なんて言えない
そもそも、感染者を見つけてからそのサンプルの珍しさを後出しで主張するのは反則だよね
人は大きい集合に属していたり同時に小さい集合にも属していたりするので、
小さい集合から出たサンプルであると、後出しならいくらでも都合よく主張できてしまう >>882
毎夜の六本木での志村のご乱行を
知っているので
感染しても当然としか思わない。
阪神の藤浪選手も同じような
ご乱行により感染したのだ。
これ業界では有名よ! >>885
ありがとう
なんとなく雰囲気は分かりました。
学者なら、こういう議論くらいしてほしいよね。 >>867
現時点をt=0とし、時点tにおける感染者の割合をp(t)とする
感染者は一人あたり、一日に5人と接触する
その5人のうち非感染者は、時点tにおいて、5*(1-p(t))人そのうち20%の人間に移す
なので感染者一人が作る一日の新規の感染者は、0.2*5*(1-p(t))=(1-p(t))人
感染者みんなで作る一日の新規の感染者は、それのp(t)倍に比例する量となる
よって、感染者の増加率は、p(t)(1-p(t))に比例し、dp(t)/dt=Kp(t)(1-p(t))と書ける
dp(t)/{p(t)(1-p(t))}=Kdt、∫dp(t){1/p(t)+1/(1-p(t))}=∫Kdt、ln(p(t))-ln(1-p(t))=Kt+C
ln(1/p(t)-1)=-Kt-C、1/p(t)-1=Aexp(-Kt)、p(t)=1/(1+Aexp(-Kt))、(ただし、A=1/p(0)-1)
また、p(t)に比例した量の死亡者が出ることで感染者の減少分があると考えるなら、
p(t)の増加率は、dp(t)/dt=Kp(t)(1-p(t))-KTp(t)=Kp(t)(1-T-p(t))=と考えて、
dp(t)/{Kp(t)(1-T-p(t))}=dt、dp(t){1/p(t)+1/(1-T-p(t))}/(1-T)=Kdt
ln(p(t))-ln(1-T-p(t))=∫K(1-T)dt=K(1-T)t+C、(1-T)/p(t)-1=Aexp(-K(1-T)t)
p(t)=(1-T)/(1+Aexp(-K(1-T)t)) ただし、A=(1-T)/p(0)-1 >>887
>なんとなく雰囲気は分かりました
間違いのもとです 議論するほど賢くないもので
A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、
なぜここで2530と555900を選んだのかが分からない やっとt検定まで理解できたつもりになった
ちゃんと理解せねば 統計学なんて独学でやってもさっぱりわからんね。
わかったと思っても使わないとすぐ忘れる。 区間推定とか検定とかの考え方は忘れないだろ
具体的な計算方法は調べたりプログラムで実行したりすれば良い 統計勉強してる人はなんのプログラム言語を学習するべき? >>898
プログラムは手段だから実現したいことが簡単になるものを選んだり学んだりしたらいい
とくにないならPythonは情報もモジュールも多いし悪くないと思う あとPythonでWebサービス実装したりもできるし
一応汎用言語だから >>900
>>903
俺の先生は、教えるのが下手であるし、
教えるのはめんどくさいという人で、
ホントに全く何も教わってないです。
しかし、他の先生方の勉強会に連れて行って
くれたりしたので、いろんな先生と出会って
結果としてそれが良かったです。
統計関連のいろんな先生に今まで何度も助けてもらったり、いろいろと教わることができました。
というのも、教えて欲しいことは、
壁にぶつかったときのひと言なんです。
自分で必死に考えて、必死に調べてもわからない。
そゆときに先生方に相談すると、
黄金のひと言をいただけるのです。
そうやってなんとか勉強を続けて、
現在に至ります。
自分で全く調べても考えてもいない人には教えても無駄なことが多いので、
考えてから質問する人に教えたいです。 >>851
>最小二乗法が使い物になるか・・・・・・・・・
収集値の残差分布が正規分布を呈していたら
最小二乗法が使えると判断してよいだろ? 収集値が母集団から満遍なくサンプリングされていることが保証できるならokだが実用上はそんなこと仮定できないことの方が多いだろう
実用化しようとしたら机上で考慮しなかったパターンのデータが侵入してまともに機能しないというのはあるある 何もできないなんて誰も言っていない
最小二乗法を使うための前提が成立しないのに最小二乗法は使えないぞと言っているだけ
別の方法を検討すればいい 3月の宿題で(1)のみ正解の数弱@shukudai_sujaku
昨年度の大学への数学(大数)での勝率は、
学コンBコースが 1/1 = 100% ,
宿題が 3/10 = 30% でした!
宿題の勝率が低すぎると思うので、
これからは一層精進していきたいです!
https://twitter.com/shukudai_sujaku
https://twitter.com/5chan_nel (5ch newer account) 仕事でつかえるかもと思い統計学を勉強中のものですが、
以下の問いがまったくわからないので教えてください。
YesかNoで答える質問で、以下のような回答データがある。
2010年 20% n=100
2011年 30% n=120
2012年 23% n=80
2013年 25% n=150
2014年 10% n=100
この時、2014年の回答に対し、 「たまたまだ」「何か原因があるはずだ」
のどちらかの判断を下したいとき、どのように導けばよいか。
標本検定で母平均?母分散の比?を検定すればよいのか、
過去のデータから確率の理論値を出してカイ2乗検定をするのか、
そもそも統計学で結論を出すべき問題ではないのか・・・ >>911
母比率の信頼区間かな
95%信頼度でも99%でも有意差があると思う >>912
各年を独立な観測とするならp値を修正する必要がある 2014年の信頼区間を求めて他の値がその区間に含まれるかどうかでよくないか? k群の個々同士で有意水準αで検定したら
1-(1-α)^(kC2)=1-(1-0.01)^(5c2)=0.096の確率で帰無仮説を棄却することになる
この補正方法には何種類かあってどれを使うかは検出力次第
あとテューキーは等分散仮定しないとだめか >>916
分散分析の方が良くないか?
2014年の結果が有意差あるかどうかを知りたいだけだから
2014年の母比率の信頼区間に他の年の結果が入るかどうかで良くない?
ダメな理由は? ANOVAは全体として等平均性があるか検定してるけど1群だけ異なっているケースは棄却されにくい
そして特定の群だけに注目して他の群を見なかったことにするのは多重比較を前提にした実験で一番やってはいけないこと 「2014年は他と差がありそう」っていうのはあくまで結果を見るまで分からないというのが統計のスタンス
それを調べるには全通り調べるしかない >>919
で、具体的にどうやって検定したらいいの?
2014年と2013年の場合は?
2014年と2012年の場合は?
最終的にどう修正してどんな結果になる? 多重比較とか比率の差の検定で調べればすぐに見つかる >>921
結果は?
他の年と比べて誤差とは言えない有意な差がある? みなさんありがとう。
私は過去4年の平均だして、有意水準95パーセントで区間推定して、その最小値を確率の理論値としてカイ2乗検定してみたんだけど、全然違うみたいだね。
教えていただいたキーワード調べてみます。 >>870
2月初めのダイプリ号報道以来新型コロナウイルス感染問題
一色になり当数学板にも新型コロナウイルス感染数理に特化
した以下スレが2/29に新設されていますね。
数学 統計に詳しい人が語るコロナウイルス
https://rio2016.5ch.net/test/read.cgi/math/1582910321/ 基準群Nと刺激群A,B,Cがあって,
基準群とA,B,Cそれぞれの組に違いがあるかをフィッシャーの正確確率検定で比較しようとしているのだけど,
この場合普通にN-A,N-B,N-Cを2つずつ比較してしまって構わないのかな?
それともこれらをやったあとに多重比較の補正を行う必要があるのかしらん? >>925
フィッシャーの正確確率検定をどう適用する?
https://ja.m.wikipedia.org/wiki/フィッシャーの正確確率検定
2×2分割表みたいにすると思うけど
何を行に割り当てて
何を列に割り当てる? >>926
心理的な評価内容で,行に群(N,A,B,C)を振って,列に選択した行動3種類(X,Y,Z)を振り,各セルに選択した人数を入れて適用しようとしてます
3×3の分割表ですね >>927
それで何が判るの?
最初に書いていたものと違うものが判るような気がするけど >>929
妥当そうに見えるけど、間違ってるのか? >>930
N,A,B,Cの結果に差がある事を確認したいのが元の目的
それを確認できるかな? >>931
できないんですかね?もしかして私フィッシャーテストを勘違いしてる? ガンマ分布関数の最頻値の確立変数を求めたいんだけど
最頻値の値は、式が見つかるんだけど
そのX座標みたいなものの式が見つからないんだよね 計算したら、
x=exp(log(a-1)/a-2))
になった。なるほど 違った
x=exp(log((a-1)Xb)/a-2))
だった。なるほど 間違っていた
b(a-1)
だった、聞くまでもなった 「異端の統計学ベイズ」が面白かった
こんな別世界があったなんて気づかなかった >>940
ベイズは異端でもなんでもないです
普通にデータ分析すればベイズになります
そういうタイトルを付ければ
釣られて本買うアホがいる
ということです 頻度論 VS ベイズみたいな構造で別物として考えようとする限りベイズを理解できているとは言えないだろうな ベイズを理解できなかった人の成れの果てのような記事
島根県の事例からも数字で明らかになる「検査をすると患者が増える」説のデタラメさ
https://hbol.jp/224407
>島根県、陽性者発生と大規模検査をベイズ推定で検証! >>943
お前がバカ過ぎるの
笑えるぐらいバカw このスレって初心者しかいないんだねえ(笑)
「ベイズってスゲーッ!」って
書けばいいの?(笑)
じゃベイズってなんだよ?
本読んで勉強したんだろ?(笑)
>>943はベイズを説明してみな。
できないだろうな
バカだからね(笑) >>945,946
悔しくて2連投。涙ふけよww
バカと言われた返しがこれ↓
>「ベイズってスゲーッ!」って
バカ丸出し。やはりただの知ったかぶりだったな
お前はこのスレで1番の知ったかぶりのバカと認定してやるよw
「お前が知ったかぶりかつバカである」という仮定の事前確率は0.9だったが
お前のレスで事後確率は、0.9999999になったw >>784
自分も気になってたから自分なりにまとめてみた
まず同じ確率分布を持つ変数x_iたちのどんな2次形式の平均値も元の確率分布の平均μと分散σ^2を使って書ける
実際、ベクトル表記x=(x_i)∈R^nと行列A∈M_n(R)を使って
一般に2次形式はx^tAxと書けるが、その平均E[x^tAx]は
σ^2tr(A)+μ^2(Σ_i,jA_ij)と計算できる
σ^2だけを得たい(σ^2の不偏推定量がほしい)のであれば
2項目つまりΣ_i,jA_ijがゼロであればよい
例えば、 Aが(1,1,…,1)に垂直な(n-1)次元超平面への射影行列であれば満たされる
この時、σ^2の係数であるtr(A)は(n-1)となる
(射影行列のトレースは像空間の次元に一致する)
こうしてE[x^tAx]=(n-1)σ^2を得る
同じように
一般にAが(1,1,…,1)に垂直な(n-k)次元超平面への射影行列であれば、E[x^tAx]=(n-k)σ^2を得る
多重線形回帰はこの射影する次元をパラメータを推定することで下げてると見ることができる
しかしσ^2の不偏推定量がほしいだけであればΣ_i,jA_ij=0であるどんな2次形式x^tAxを使ってもいい
そのときσ^2の係数はtr(A)だけズレる >>948
補足
標本の分散をn倍したものΣ(x_i-(Σx_k)/n)^2は
A=I-1/nP(Iは単位行列、Pは全ての成分が1の行列)を使って
x^tAxという2次形式になっている
この行列Aは対称かつ冪等なので射影行列であり
(1,1,…,1)に垂直な(n-1)次元超平面への射影になっていて
実際トレースは(n-1)である >>948
計画行列から射影行列を計算して二次形式の期待値を計算すれば(n-1)σ^2が求まるということですか? というか射影される次元はrank(A)に依存するか 検定やら回帰分析は統計学でカバーしているが,
機械学習はクラスタリングや決定木とか、統計学の範囲を超えた部分もあるので,
そこらへんは機械学習使わんといかんと思います。 誰かわかる?
TOEICみたいな英米の選択式試験て素点をスケーリングしてスコアにすることがほとんどだけど
英医学部適性試験UCATの資料みると
昨年の試験のある部分
素点平均21.27標準偏差5.78最高39
最高のZ値=(39-21.27)/5.78=3.06...
300から900にスケーリングするってんだが、結果
平均557.5標準偏差74.21最高890
最高のZ値=(890-557.5)/74.21=4.48...???
英米のこの手の換算かなり見たけど
おおざっぱではあってもほぼ線形
Z値ほぼ変わらない
しかし
この結果
いったいどういうスケーリングしたんだろ?
まったく想像できない >>953
少なくとも、線形でスケーリングするなんて今時どこもやっていない。
たまたま数字が合っただけかと。 偏差値は?
平均50
標準偏差10
線形スケーリング https://collegedunia.com/exams/toeic/results
上と下はあやしいが
ほぼ線形
英米ってなんでこうすんだろう
SATとかIQテストもこういうの多い
変換後5とか10きざみ
ある程度以上だと変換後スコア同じ
ある程度以下だと変換後スコア同じ
ってのがよくある 選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる 選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる この問題分からないから誰か教えてくれ
不偏推定量と有効推定量についての問題
母平均μ(≠0)が分からない母集団分布から無作為抽出された標本X(1)、X(2)、X(3)、X(4)をとる。母分散は12である。
(1)母平均μの3つの推定量
T(1)=(X(1)+X(2)+X(3)X(4))/4
T(2)=(X(1)+2X(2)+2X(3)X(4))/6
T(3) =(X(1)+X(2)+X(3)X(4))/3
の中でどの推定量が不偏推定量であるか
(2)3つの推定量の中でどれが最も有効な推定量であるか >>960
誤字ってないか
X(3)とX(4)の間に+がないとどれも不偏推定量にならん気が >>961
誤字ってました。すいません
T(1)=(X(1)+X(2)+X(3)+X(4))/4
T(2)=(X(1)+2X(2)+2X(3)+X(4))/6
T(3) =(X(1)+X(2)+X(3)+X(4))/3
ですね 一括してT=aX(1)+bX(2)+cX(3)+dX(4)とおいて計算する
T(1)のとき、a=1/4,b=1/4,c=1/4,d=1/4
T(2)のとき、a=1/6,b=2/6,c=2/6,d=1/6
T(3)のとき、a=1/3,b=1/3,c=1/3,d=1/3
X(i)の期待値はE[X(i)]=μ
X(i)X(j)(i≠j)の期待値はE[X(i)X(j)]=E[X(i)]E[X(j)]=μ^2
X(i)^2の期待値はE[X(i)^2]=σ^2+μ^2=12+μ^2
である
(1)
Tがμの不偏推定量であるためにはTの期待値E[T]がμと一致しなければならない
E[T]=E[aX(1)+bX(2)+cX(3)+dX(4)]
=aE[X(1)]+bE[X(2)]+cE[X(3)]+dE[X(4)]
=aμ+bμ+cμ+dμ=(a+b+c+d)μ
よって(a+b+c+d)=1となっているT(1)とT(2)が不偏推定量である
(2)
Tが最も有効となるのはTが不偏かつその分散E[(T-E[T])^2]が最も小さくなるときである
E[(T-E[T])^2]=E[T^2]-E[T]^2
= E[(aX(1)+bX(2)+cX(3)+dX(4))^2]-((a+b+c+d)μ)^2
=a^2E[X(1)^2]+b^2E[X(2)^2]+c^2E[X(3)^2]+d^2E[X(4)^2]2abE[X(1)X(2)]+…+2cdE[X(3)X(4)]-((a+b+c+d)μ)^2
=(a^2+b^2+c^2+d^2)σ^2
=12(a^2+b^2+c^2+d^2)
となるので、結局a〜dの平方和が最も小さいものが最も有効となる
この平方和はT(1)では1/4、T(2)では5/18となる
よって、T(1)がこの中で最も有効である >>963
本当にありがとうございます。感謝しかないです。 カシオのWebアプリClassPad.net
https://youtu.be/HOESVQ4TzV0
手書きの図をきれいに出力してくれたり
ユーザー定義関数を使えるのがいいね 質問なのですが、最近GNIの統計を調べていたんですが、国連の統計で2018年の2年前までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、GNIの統計データが2017年になっていて、なるほど2年前のデータです。
なぜ1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。 質問なのですが、最近GNIの統計を調べていたのですが、国連の統計で2年前の2018年までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、載っているGNIの統計データが2017年になっていて、なるほど2年前のデータです。
1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。
(日本語がおかしかったので修正しました) 2830
学コン・宿題ボイコット実行委員会@gakkon_boycott 9月1日
#拡散希望
#みんなで学コン・宿題をボイコットしよう
雑誌「大学への数学」の誌上で毎月開催されている学力コンテスト(学コン)と宿題は、添削が雑で採点ミスが多く、訂正をお願いしても応じてもらえない悪質なコンテストです。(私も7月号の宿題でその被害に遭いました。)このようなコンテストに参加するのは時間と努力の無駄であり、参加する価値はありません。そこで私は、これ以上の被害者を出さないようにするため、また、出版社に反省と改善を促すために、学コン・宿題のボイコットを呼び掛けることにしました。少しでも多くの方がこの活動にご賛同頂き、このツイートを拡散して頂ければ幸いです。
https://twitter.com/gakkon_boycott/status/1300459618326388737
https://twitter.com/5chan_nel (5ch newer account) 2.0 4.9
12.7 28.4
0.7 2.3
5.4 11.9
0.9 8.9
3.9 13.9
6.2 26.5
31.3 47.2
26.5 37.0
9.2 26.4
10.1 27.3
5.7 19.8
21.9 ?
左の列の数字の時に右の列の数字が出るとして、
?が30以上になる確率を求める方法が知りたいです。
エクセルのFORECAST関数で36.67くらいになりそうだということまでは分かったのですが。
(左が予備校生のうち試験で成績が悪かった人の割合%、
右が試験受験者全体のうち試験で成績が悪かった人の割合%です。
予備校生のデータから未発表の全体の割合が30%を超える確率が知りたいです。) ExcelのMINVERSEって
内部でやってるのはLU分解でしょうか? 逆行列を返すからLU分解してんのかもな
途中の処理を知ってどうするの? こちらの論文をもとにサンプルサイズを計算したいのですが、式5(ミュー>0
のとき)を使って計算しても再現できないのです。この論文の式、間違っていると思われるのですが、正しい式わかりました(導出できる方いました)ら、お教え下さい。
https://www.degruyter.com/configurable/contentpage/journals$002fijb$002f12$002f2$002farticle-20150039.xml 統計学の初心者です。
セミコロンの意味について教えてください。
最尤推定量の説明の中に、
L(Θ;x) = f(x;Θ)という説明がでてきたのですが、
数学において(少なくともピュアマスでは)
セミコロンがこのような場所で使われたことを見たことがありません。
なので統計学特有の使い方と思いますが、
説明がありません。
(統計学者にとっては常識???)
どういう意味かわかるかたいましたら教えてください。 条件付き確率の事だと思うけど
|を使う書き方と同じじゃないかな?
違いがあるのかな? 統計では普通に使う
単純にセミコロンの後はパラメータを書いているだけ 米国大統領戦で多くがバイデン勝利を予想していますが
こういった予想は可能なのでしょうか?
統計学者のネイトシルバーも前回の大統領選の予測は外していますが
有権者数に対してサンプル数が少なすぎる等の根本的な問題が有るような気がします。 米国大統領選挙は州ごとに勝者全取りだから
大票田の州と少ない州もあるし
選挙制度によって予測方法も変わると思う >>976
> |を使う書き方と同じじゃないかな?
条件付き確率ということですか?
>>977
> 統計では普通に使う
> 単純にセミコロンの後はパラメータを書いているだけ
それが全く理解できないんですけど、
セミコロンの前も後ろもパラメータですよね?
統計学の人は、カンマのかわりにセミコロンを使うということですか? ぐぐって次のところを見つけました。
https://oshiete.goo.ne.jp/qa/144427.html
> f(x; a,b) = (x^a)e^(-x/b)
> なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> で、カンマとセミコロンを使い分けちゃったりすることがあります。
と書いてありました。
なるほど、統計学ってのは
汚い学問だとよく聞きますが、
なるほど汚いw(笑)
意味不明の記述をして
難しいことをしているらしく
見せかけているということですね。
了解できましたw 数学的にはxもaもbも対等に見えるかも知れないがあくまで統計は現実世界を記述することが目的なので
どれが現実世界に直接現れるものでどれがハイパーパラメータかを区別するのは極めて重要 >>981
> ぐぐって次のところを見つけました。
>
> https://oshiete.goo.ne.jp/qa/144427.html
>
>
> > f(x; a,b) = (x^a)e^(-x/b)
> > なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> > の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> > で、カンマとセミコロンを使い分けちゃったりすることがあります。
>
> と書いてありました。
> なるほど、統計学ってのは
> 汚い学問だとよく聞きますが、
> なるほど汚いw(笑)
>
> 意味不明の記述をして
> 難しいことをしているらしく
> 見せかけているということですね。
>
> 了解できましたw
カンマとセミコロンの使い分けは単に英文法でしょ。 >>981
a, bの条件付きでの確率変数xの関数
みたいに解釈している 数理に基づいた学問でも工学や物理学を始めとして分野によってどこまで明確に精確に数学を用いるかは違うしな >>981
別に数学でも、セミコロン使うだろ
君何年生? 初心者がここで質問してよろしいでしょうか?
ある業務の、1つの案件に対する作業時間をプロットしてヒストグラムを作成して、X軸を対数変換したら、綺麗な正規分布になりました。
これは対数正規分布だと思うのですが、それであれば作業時間合計(残業時間)の予想(信頼区間を出す)ことが可能だと考えました。
仮に、20件の案件がある場合には、@ 標本平均とt値、標準偏差から、信頼区間を出します。
A 次に、信頼区間上限・下限をe乗してあげると、対数変換を戻した時の標本平均の信頼区間が出ます。
B 最後に、信頼区間を20倍してあげると、作業時間合計の信頼区間が出ます。
以上の手順ですが、自分でやっていて正しい計算とは思えません。
試しに、実際のデータから20件の標本平均を、100回抽出して、ヒストグラムを作成することを何度かやってみましたが、信頼区間の上限を超えて、信頼区間の下限はほとんど超えないという結果になりました。
どなたか正しい計算をお教えいただくことはできないでしょうか。
よろしくお願いします。 >>988
確率変数を20倍したものと
20個の確率変数を足したものの分布は違うと思う
確率変数の和の分布の平均と分散は計算出来る
https://bellcurve.jp/statistics/course/18592.html
20の和の確率変数の平均と分散を使って信頼区間を求めたら良いと思う >>988
別の方法はブートストラップ法で分布を求める方法
20のデータを100回取り出して分布を作ったのを
もっと多く1万回とかにして分布を作って
その平均や分散を計算して推定値とする >>990
ありがとうございます
信頼区間の導出の仕方をもう少し勉強してからやってみようと思います
ブートストラップ法はExcelで手作業でやるには難しそうでした
今日、コルモゴロフ=スミルノフ検定をしたところ(計算の仕方が合っているかは分かりませんが)正規分布ではありませんでした。
また、E(ln(X))と、ln(E(X))は、異なる値になることも知りました。
E(ln(X))は、ln(相乗平均(X))と対応しているようです。
また整理できたら質問させていただくかもしれません >>991
作業時間データを行方向に書く
その範囲の行番号を乱数で発生させて
index関数でデータを取り出す
列方向に20個ランダムサンプリングしたデータの和を列に追加する
行方向にコピーして1万行同様の計算をする
1万行21列の和を計算した列からヒストグラム、平均、分散を計算する NHKの高校数学(ベーシック数学)を見ていたんだが、
事前確立と事後確率の説明が間違っているんだが、
三流役者のお笑いの部分ばかり多くて
大事な説明が間違っているとは、なさけないぞNHK!!! 残レスが僅かのときに恐縮ですが、検定について質問させてください
商品について金額基準の故障率を考えています
たとえば1千円の商品が5個、2千円の商品が5個あるとき、2千円のものが1個故障したときの故障率は、
個数で見たときは1/10=0.10ですが、金額で見たときは2/(1*5+2*5)=0.13になります
このとき、全ての商品の金額・個数・故障件数を基に計算した金額故障率と、
特定の層に販売した商品についての金額故障率とを比較して、
全体平均よりも故障率が大きいかどうか判断するために検定を行おうと考えています
率同士の比較という事で安直に、全体を母集団、特定層をサンプルとした母比率の検定を考えたのですが、
取る値が01でないためかうまくいきません
なにかよいアイデアはないでしょうか
よろしくお願いします >>998
何年分かの1月毎とか1週毎の故障率を集めて分布、ヒストグラムを全体と特定層向けの両方作る
故障率を確率変数とした分布になると思うから
その2つの分布が同じ分布かどうかを適合度検定するとか このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1546日 6時間 32分 33秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。