X



トップページ数学
1002コメント299KB
統計学Part17 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0708132人目の素数さん
垢版 |
2019/01/19(土) 20:28:25.83ID:HDORvJAa
統計先達方に質問。先般より騒動出来の厚労省「毎月勤労統計」不正問題だが、2004年
以前まで零細企業は抽出統計、大企業は全数統計と決められていた根拠は、何なのかな?
統計の考えに立脚すれば企業規模に関わらず標本抽出統計一本でよいのじゃないか?
【伝統】厚生労働省、勤労統計を正しく装うデータ改変ソフトまで作成していた事が判明  ★2
http://asahi.5ch.net/test/read.cgi/newsplus/1547255657/
0709132人目の素数さん
垢版 |
2019/01/19(土) 20:58:33.86ID:unI0qWhi
改変ソフトって、ほんとかね?割合を合わせてるだけじゃないの?
決まりはもちろん全数だけど、件数割合を全数に合わせているとしたら
計算結果はおおきく変わらないだろうね。

だとした場合
今までの報道では、件数も合わせずに、そのまま東京の分は1/3で計算
していたと報道していた。これの方が大間違いの報道ということに
なるのだが。
0711132人目の素数さん
垢版 |
2019/01/19(土) 21:41:50.33ID:rSgjVqQn
社会人でも通いやすい統計学の大学院てどこかありませんか
0715132人目の素数さん
垢版 |
2019/01/21(月) 07:07:44.77ID:s0Etp/8a
ある私立医大の合格者の偏差値の平均値はm、標準偏差は10の正規分布であるとする。
合格者のうち成績上位70%は入学を辞退し下位30%の合格者が入学する。入学者の偏差値の平均値をmaとする。
m - maを算出せよ。

答はmの値によらないでいい?
0717132人目の素数さん
垢版 |
2019/01/21(月) 13:43:35.90ID:jatJic6p
>>708
1 全件調査は法的に決まっていた
2 サンプル抽出なら、全体支払い料を算出する際に抽出率の逆数を乗じないといけない
3 上のミスをこっそり修正したので賃金の伸び率が不自然になった
0719132人目の素数さん
垢版 |
2019/01/25(金) 11:27:01.46ID:jPcz8uua
おまけに2004年からのデータ破棄してるって
紙のアンケートだか何か知らないがひどい
0720132人目の素数さん
垢版 |
2019/03/05(火) 08:32:16.40ID:agNxkP9Y
>>718
じつは指摘されるのと類似した問題が一つの要因で
ただ、言われていることとちょっと異なるんだが
ソフト環境が進んで、さらに無償で利用できる関係で研究員によって
好みのツールを使うようになり、検証が不十分になってきているところが
今回の要因の一つにある。
便利さが生んだ問題と言ったらいいのか。
0721132人目の素数さん
垢版 |
2019/03/05(火) 09:01:16.13ID:agNxkP9Y
高度な統計解析が必要とされるわけではないので
言い換えれば、ツールオタクが生んでしまった問題の
一つと言えなくもない。
言語で結果が変わるわけじゃないんだから、
研究と業務という意識の切り分けができていなかった
といえるかも。
0722132人目の素数さん
垢版 |
2019/03/08(金) 12:44:40.00ID:wd6xlp6H
書くところがここしないので書かせていただきます
公的な統計の問題が毎日ニュースで流れていますけど、

賃金構造基本統計調査=> チンコウ
毎月勤労統計調査  => マイキン

と、統計の専門家が短縮してチンコウ、マイキンと
おっしゃっていますけど、俺が耳がすこし悪いので、
聞くたびに、チンコ、マンコと聞こえてしまいます。

お願いですから、他の短縮形を使ってください!
よろしくお願いします!
0724132人目の素数さん
垢版 |
2019/03/08(金) 14:42:02.17ID:MkV0Z/ug
賃金構造基本統計調査=> 賃本

じゃあまずいかな?
どう発音してもいいけど
0729132人目の素数さん
垢版 |
2019/04/02(火) 21:51:43.84ID:awGEUT67
すいません、質問です。

ttp://www.data-arts.jp/jssc/grade1semi/2016-06/2/q1/q.html

この問題の(3)の解答なのですが、なぜ自由度が9になるのでしょうか。11カテゴリで自由度10にならないのでしょうか。
0732132人目の素数さん
垢版 |
2019/06/10(月) 20:24:58.97ID:DYnR/eWG
相関係数について教えてください。
変数a={1,1,1,1,1,1,1,1,1,1}
変数b={1,1,1,1,1,1,1,1,1,1}
つまり2つの変数の値が全て同じだった場合に、
相関係数を計算すると計算不能になりますけど、
これは相関係数は1だと言っていいんでしょうか?
それとも計算不能でいいんでしょうか?
0734132人目の素数さん
垢版 |
2019/06/11(火) 02:56:55.47ID:4gLAsdF7
意味ないですよね?
よくよく考えてみると、
その意味ないことを
延々と証明してるキチガイ論文見つけたので
学会発表のときに
触れてやろうと思ってます
0736132人目の素数さん
垢版 |
2019/06/12(水) 12:39:38.21ID:r8hS2Av9
エンタングルメントみたいな非自明ながらも完全なる相関性とかもあるんだけどね。
0737132人目の素数さん
垢版 |
2019/06/13(木) 00:57:42.22ID:1/MlBZbG
>>735
そんな人は研究に忙しくて
5chみてるヒマないでしょ?

ここにくるのは初心者とカスとゴミですから
0739132人目の素数さん
垢版 |
2019/06/18(火) 08:09:12.14ID:boAmwD1T
>>729
よく読め
0740132人目の素数さん
垢版 |
2019/06/18(火) 10:20:44.21ID:r3SGd61F
>>732
相関係数の公式は知らんが、
0/0は、不定値である

そもそも、aもbも全部1とのことだが
より精密に測定すれば
0.982とか1.023の感じの測定値となる

有効数字1桁ではなく、せめて、
有効数字2~3桁となるよう再測定せよ

なお、相関K数は計算上不定だが
一般に相関K数は-1~+1に定まる
0744132人目の素数さん
垢版 |
2019/08/21(水) 15:43:37.73ID:R9JKCgfG
統計学で大学院に行って学びたいと思うけど、修論がまったく思い描けない。
既にある問題解析なら、本を買ってやればよいと思う。
統計学の修士論文って、どんなレベルなんですか?
0745132人目の素数さん
垢版 |
2019/08/21(水) 16:06:20.31ID:l33Sc9o9
学部なんだろ、当たり前だろ、馬鹿か
>修論がまったく思い描けない
0749132人目の素数さん
垢版 |
2019/09/16(月) 00:42:27.54ID:+jVhODrH
昨今AIと呼ばれているものは統計学のごく一部を応用してるにすぎないし応用と呼べるレベルにすら達していないものも多い
つまり統計学なくして理論面でのAIの発展などあり得ない
0750132人目の素数さん
垢版 |
2019/09/17(火) 15:37:17.58ID:Mzc/TNCI
>>749
禿同
その基本的なことさえ
全く分かってない機械学を
Pythonでやってるママゴトでも
高い給料もらえるという
データサイエンティストバブル!
0752132人目の素数さん
垢版 |
2019/09/17(火) 20:42:38.79ID:TeA5l+qf
>>748
残念ながら今のところ
統計学≒AI
なのよ
よろしくね!
0754132人目の素数さん
垢版 |
2019/09/18(水) 08:45:49.87ID:4XM7uJtX
アンカーつけろ馬鹿たれ!
0755132人目の素数さん
垢版 |
2019/09/18(水) 08:47:04.34ID:4XM7uJtX
>>753
アンカーつけろ馬鹿たれ!

例な
0757132人目の素数さん
垢版 |
2019/09/20(金) 13:25:10.58ID:KyAOfC1j
2515
かずきち@dy_dt_dt_dx 8月28日
学コン8月号Sコース1等賞1位とれました!
マジで嬉しいです!
来月からも理系に負けず頑張りたいと思います!
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account)
0760132人目の素数さん
垢版 |
2019/09/21(土) 14:50:35.73ID:OeVFSCvD
河村敏彦(笑)
0761132人目の素数さん
垢版 |
2019/09/28(土) 17:33:46.84ID:3Xx7diYc
初歩的なことかもしれませんが、「有意水準」に関して悩ましいことがあったので質問させてください。

個人的な興味のために、「n面ダイスをm回振って、全ての目が出揃う確率」について議論したいんですが、
統計学的には、その確率が99%以上であれば、有意水準1%のもと、「n面ダイスをm回以上振れば、流石に全ての目が出たものとして扱ってよい」と言える、
という認識で合ってますでしょうか。

合っているとして、ここからが本題なんですが。
例えばこれをn = 100で行った場合、
「百回中一回しか起こらない事象を自分は扱ってるくせに、統計学的には1%以下を無視するなんて、どの口が言ってねん」って感覚を覚えます。
つまり、nの値が大きければ大きいほど、有意水準を引き下げたくなってしまいます。

この感覚は理論的には正しいのでしょうか?
0762132人目の素数さん
垢版 |
2019/09/29(日) 04:09:38.53ID:ICvo204V
検定の概念がわかってないようなのでそこから見直しって感じですかね
0763132人目の素数さん
垢版 |
2019/09/29(日) 11:55:16.64ID:YdSphJX8
n面ダイスが正確に作られた(=各面の出る確率が等しい)ものであればm回振って全目が出る確率は厳密に計算できる
しかし、現実には完全に正確なダイスなどあり得ないのでこの確率からのブレが生じる
手元にある実物のダイスがどのくらい不正確かは実際に振ってみて値を記録しなければ分からない
で、実際に振った以上どの目がどの確率で出るのかは分かったのだから求めたい確率も計算できる

有意水準を使った統計学的検定でできるのはダイスが正確なものか否かの判定ぐらいでしかないので今の場合は不要
0764132人目の素数さん
垢版 |
2019/09/29(日) 16:14:00.89ID:2CC0mAW5
なるほど……有意水準という概念を適用できる範囲を誤解していたみたいですね。

有意水準の概念は「このダイスに偏りがないか」を調べるときには使えるが、
「ダイスが正確であるとして、m回振った結果すべての目が出揃っているか」は、例えば計算した結果99.4%だとしたらそれ以上でも以下でもなく、99%以上だからと言って全ての目が出ているとして扱えるものではない、と。

勉強し直します。ありがとうございました。
0765132人目の素数さん
垢版 |
2019/09/29(日) 16:40:09.39ID:2CC0mAW5
ちょっと調べてみたんですが、「どの程度、低い確率で起きる事象なら無視していいか」に関しては「ボレルの法則」というものがあるらしいですね。
「10のマイナス6乗以下の確率は、人間の時間スケールではまず起こらないものとして扱ってよい」という。
この場合適用すべきはこちらでしょうか。
0766132人目の素数さん
垢版 |
2019/09/29(日) 18:28:41.84ID:82vqIqjS
確率と有意水準をごっちゃまぜにしているように見えます。

有意水準という用語の背景には、必ず帰無仮説があります。
帰無仮説というのは、いわば否定されることを目的に立てるような仮説です。
帰無仮説が否定されたなら、それに従って、何らかの主張が行えます。
その時の常套句が、「有意水準これこれで、これこれを主張する」等となります。

なぜ、その帰無仮説が否定できたか?
否定した理由は、あまり起こりえないことが起こったからという論法です。
偶然、たまたま起こったと言うこともあり得ます。
しかし、そう考えるより、帰無仮説が間違っていたと考える方が、無難だと考え、
帰無仮説の内容の否定にあたる主張を、「有意水準云々で、此れ此れ...」と言うのです。

帰無仮説が間違っていると考えるか、偶然起こることもあるから、帰無仮説が間違っているとまでは
言い切れないと考えるか、その判定の境界として採用されているのが、5%とか、1%とかの値です。

従って、この5%とか1%は、「その主張が間違っている確率」ではありません。
「間違って帰無仮説を棄却してしまった確率」です。
帰無仮説は正しかったのに、誤って否定し、何らかの主張を行ってしまった確率です。
主張の内容の確率ではなく、帰無仮説を否定してある主張を持ってきたときの判断の誤りの確率です。
0767132人目の素数さん
垢版 |
2019/09/29(日) 20:56:45.27ID:rVYV+GdK
5645
かずきち@dy_dt_dt_dx 9月29日
京大オープン経済190/550しか取ってないやつにマウント取られて草
お前より90点高いんだよ黙って勉強しろ
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account)
0768132人目の素数さん
垢版 |
2019/09/29(日) 23:29:22.50ID:4yGt3Rbe
検定とか有意とか
フィッシャー最大の失敗だと思いますんw
0769132人目の素数さん
垢版 |
2019/09/30(月) 21:32:41.09ID:pGz8xE4o
河村先生は女子学生にセクハラしてるのでは?
0771132人目の素数さん
垢版 |
2019/10/21(月) 00:23:39.84ID:h0/eah2o
むしろデータサイエンティストブームが終わっても生き残るために必要なのが統計学
データサイエンティストになるだけが目的ならもっと小手先のテクニック身に着ける方が手っ取り早い
0772132人目の素数さん
垢版 |
2019/10/22(火) 01:47:38.25ID:OUWgx3Yq
データサイエンス=機械学習 になってしまって、統計学への関心が薄れてきた印象
データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象
結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする
0773132人目の素数さん
垢版 |
2019/10/26(土) 17:02:21.23ID:qnfsZRYc
機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。
0774132人目の素数さん
垢版 |
2019/10/26(土) 17:14:56.32ID:80nGs05h
緑本が難しかったんだけど、どの本から始めたらいいですか?
0775132人目の素数さん
垢版 |
2019/10/27(日) 08:03:15.48ID:xp3AzHdF
機械学習のベースは統計学
ついでにいうと機械学習機械学習といっているのは日本くらいなもん
0776132人目の素数さん
垢版 |
2019/10/27(日) 10:08:41.82ID:725LjOOC
>>774
緑本って何?
0777132人目の素数さん
垢版 |
2019/10/27(日) 10:19:47.64ID:ZKA7UMw6
緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか
0779132人目の素数さん
垢版 |
2019/10/27(日) 12:59:36.48ID:fPVOzMOu
Rは数年前に既に衰退始まっててpythonに移行しつつある
0780132人目の素数さん
垢版 |
2019/10/27(日) 13:06:49.82ID:C7RbWweK
>>776
>>777
モデリングのほうです!
0781132人目の素数さん
垢版 |
2019/10/27(日) 13:22:30.81ID:t6dYTPS1
>>772
日本でいうDSだの機械学習はもう数年で終わり
今慌ててDS関係の講座作ってる大学は不良資産抱えることになる
新規採用した教員が今後20年足引っ張るよw
0784132人目の素数さん
垢版 |
2019/12/04(水) 23:38:03.50ID:JeLX6Nlr
不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、
自由度と不偏推定量はどうして関係があるのでしょうか?

不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、
という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。
0785132人目の素数さん
垢版 |
2019/12/08(日) 12:05:25.84ID:wenJp6AV
非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね?
いい本あったら教えてください
0786132人目の素数さん
垢版 |
2019/12/08(日) 12:34:39.66ID:2phJLplo
非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰することじゃないの?
又は2次関数なりで変数変換して線型回帰に落とし込むとか
いずれにせよ大層な話じゃないと思う
0787132人目の素数さん
垢版 |
2019/12/08(日) 16:56:44.30ID:/8FwQ3R/
重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね
ニューラルネットとかでもいけるんですかね?ニューラルネットは軽く調べただけであんまわかってなくてすんません
0790132人目の素数さん
垢版 |
2019/12/30(月) 23:03:06.88ID:3PRRBx7S
条件の違う2つの群に対して、5つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか?
0791132人目の素数さん
垢版 |
2019/12/31(火) 20:29:52.64ID:uFwLZGG6
分散の比ならF検定かな
0792132人目の素数さん
垢版 |
2019/12/31(火) 20:31:56.88ID:uFwLZGG6
標準偏差の比が正しいのか
0793132人目の素数さん
垢版 |
2019/12/31(火) 22:11:44.84ID:4uBrQaIf
名義尺度になるから標準偏差は取れなくない?
カイ二乗検定かね?
0794132人目の素数さん
垢版 |
2019/12/31(火) 22:15:54.60ID:uFwLZGG6
独立性の検定は使えるかもね
0795132人目の素数さん
垢版 |
2019/12/31(火) 22:17:43.07ID:uFwLZGG6
好みを点数で評価してもらったら
形式上は間隔尺度になるかも
0796132人目の素数さん
垢版 |
2020/01/17(金) 01:21:44.67ID:uZ2HrGrW
要素Aについて、Aがある場合とAがない場合に、
100回中何回事象X、Y、Zが起きたか調べたデータがあるとき

X、Y、Zが起きるのは高得点である
たとえば
Xが起きる=〇点、起きない=0点
Yが起きる=△点、起きない=0点
のように何点であるかはわからないが、事象が起きると
起きないときに比べて高得点が得られるとすると、

要素Aは「高得点を得る」のに影響しているのか
というのを調べるのにはどうしたらいいでしょうか?
AとX、AとYのように個別にカイ二乗検定を行うと
p値は0.05より大きいというようなことはわかったのですが…

100回中
A ~A
X 15 10
Y 17 10
Z 12 8
0797132人目の素数さん
垢版 |
2020/01/18(土) 11:00:37.99ID:qWqQZnoU
>>796
Aと、Xが起きる起きないの関係でP値が5%超だと
AとXの発生は無関係って解釈になるのでは?

そのレスにあるクロス集計表だと
AとXYZのどれが発生するかの関係を調べることになると思う
0798132人目の素数さん
垢版 |
2020/01/19(日) 13:25:58.01ID:2vRPAcfj
>>797さん、ありがとうございます!

....A ~A
X...15 85
~X..10 90

....A ~A
Y...17 83
~Y..10 90

....A ~A
Z...12 88
~Z.. 8 92

についてそれぞれp値は5%超なので、
「高得点を得る」事象X、Y、Zについて、
帰無仮説:要素Aによって、事象X、Y、Zの発生のしやすさは変わらない
は棄却不能であるので、
Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない
Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、
それは偶然であるのか必然であるのか、このデータから推論することはできない
ということでいいのでしょうか?
0799132人目の素数さん
垢版 |
2020/01/19(日) 14:38:42.36ID:SmisEix1
>>798
H0:二つの変数は独立である。
H1:二つの変数は独立ではない(何らかの関連がある。)
でH0を棄却できないので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
になると思います

有意水準の値にもよりますけど
0800132人目の素数さん
垢版 |
2020/01/19(日) 15:31:21.50ID:2vRPAcfj
ありがとうございます

優位水準5%としたとき、p>0.05なので

AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない

同様にp>0.05なので
AとY、AとZに関連があるとは言い切れない

よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない
(あるともないとも言い切れない)

ということで大丈夫でしょうか?
0801132人目の素数さん
垢版 |
2020/01/19(日) 15:47:51.10ID:6nrSQfDB
統計学の勉強をしたいのですがお勧めの教書はありますか?とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです
0802132人目の素数さん
垢版 |
2020/01/19(日) 15:58:46.14ID:SmisEix1
>>801
図書館とかでいろいろ見てみたらいいのでは?
同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので
0805132人目の素数さん
垢版 |
2020/01/20(月) 15:41:43.88ID:RFS0mRu2
それぞれ、サイズの異なる
A B C D E が5分類有り、ONとOFFの2つの状態を持ちます。
ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。

判明している数値は、A〜Eのサイズ(量)と各分類でONになった回数です。

分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、
各分類で起こった回数もトータルでの起こった回数も不明です。
0806132人目の素数さん
垢版 |
2020/01/20(月) 15:58:45.38ID:59LWl8Pz
スレ違だったらすまん
TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな?
ふと疑問に思ってしまった
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況