X



トップページ数学
1002コメント299KB

統計学Part17 [無断転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています
0732132人目の素数さん
垢版 |
2019/06/10(月) 20:24:58.97ID:DYnR/eWG
相関係数について教えてください。
変数a={1,1,1,1,1,1,1,1,1,1}
変数b={1,1,1,1,1,1,1,1,1,1}
つまり2つの変数の値が全て同じだった場合に、
相関係数を計算すると計算不能になりますけど、
これは相関係数は1だと言っていいんでしょうか?
それとも計算不能でいいんでしょうか?
0734132人目の素数さん
垢版 |
2019/06/11(火) 02:56:55.47ID:4gLAsdF7
意味ないですよね?
よくよく考えてみると、
その意味ないことを
延々と証明してるキチガイ論文見つけたので
学会発表のときに
触れてやろうと思ってます
0736132人目の素数さん
垢版 |
2019/06/12(水) 12:39:38.21ID:r8hS2Av9
エンタングルメントみたいな非自明ながらも完全なる相関性とかもあるんだけどね。
0737132人目の素数さん
垢版 |
2019/06/13(木) 00:57:42.22ID:1/MlBZbG
>>735
そんな人は研究に忙しくて
5chみてるヒマないでしょ?

ここにくるのは初心者とカスとゴミですから
0739132人目の素数さん
垢版 |
2019/06/18(火) 08:09:12.14ID:boAmwD1T
>>729
よく読め
0740132人目の素数さん
垢版 |
2019/06/18(火) 10:20:44.21ID:r3SGd61F
>>732
相関係数の公式は知らんが、
0/0は、不定値である

そもそも、aもbも全部1とのことだが
より精密に測定すれば
0.982とか1.023の感じの測定値となる

有効数字1桁ではなく、せめて、
有効数字2~3桁となるよう再測定せよ

なお、相関K数は計算上不定だが
一般に相関K数は-1~+1に定まる
0744132人目の素数さん
垢版 |
2019/08/21(水) 15:43:37.73ID:R9JKCgfG
統計学で大学院に行って学びたいと思うけど、修論がまったく思い描けない。
既にある問題解析なら、本を買ってやればよいと思う。
統計学の修士論文って、どんなレベルなんですか?
0745132人目の素数さん
垢版 |
2019/08/21(水) 16:06:20.31ID:l33Sc9o9
学部なんだろ、当たり前だろ、馬鹿か
>修論がまったく思い描けない
0749132人目の素数さん
垢版 |
2019/09/16(月) 00:42:27.54ID:+jVhODrH
昨今AIと呼ばれているものは統計学のごく一部を応用してるにすぎないし応用と呼べるレベルにすら達していないものも多い
つまり統計学なくして理論面でのAIの発展などあり得ない
0750132人目の素数さん
垢版 |
2019/09/17(火) 15:37:17.58ID:Mzc/TNCI
>>749
禿同
その基本的なことさえ
全く分かってない機械学を
Pythonでやってるママゴトでも
高い給料もらえるという
データサイエンティストバブル!
0752132人目の素数さん
垢版 |
2019/09/17(火) 20:42:38.79ID:TeA5l+qf
>>748
残念ながら今のところ
統計学≒AI
なのよ
よろしくね!
0754132人目の素数さん
垢版 |
2019/09/18(水) 08:45:49.87ID:4XM7uJtX
アンカーつけろ馬鹿たれ!
0755132人目の素数さん
垢版 |
2019/09/18(水) 08:47:04.34ID:4XM7uJtX
>>753
アンカーつけろ馬鹿たれ!

例な
0757132人目の素数さん
垢版 |
2019/09/20(金) 13:25:10.58ID:KyAOfC1j
2515
かずきち@dy_dt_dt_dx 8月28日
学コン8月号Sコース1等賞1位とれました!
マジで嬉しいです!
来月からも理系に負けず頑張りたいと思います!
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account)
0760132人目の素数さん
垢版 |
2019/09/21(土) 14:50:35.73ID:OeVFSCvD
河村敏彦(笑)
0761132人目の素数さん
垢版 |
2019/09/28(土) 17:33:46.84ID:3Xx7diYc
初歩的なことかもしれませんが、「有意水準」に関して悩ましいことがあったので質問させてください。

個人的な興味のために、「n面ダイスをm回振って、全ての目が出揃う確率」について議論したいんですが、
統計学的には、その確率が99%以上であれば、有意水準1%のもと、「n面ダイスをm回以上振れば、流石に全ての目が出たものとして扱ってよい」と言える、
という認識で合ってますでしょうか。

合っているとして、ここからが本題なんですが。
例えばこれをn = 100で行った場合、
「百回中一回しか起こらない事象を自分は扱ってるくせに、統計学的には1%以下を無視するなんて、どの口が言ってねん」って感覚を覚えます。
つまり、nの値が大きければ大きいほど、有意水準を引き下げたくなってしまいます。

この感覚は理論的には正しいのでしょうか?
0762132人目の素数さん
垢版 |
2019/09/29(日) 04:09:38.53ID:ICvo204V
検定の概念がわかってないようなのでそこから見直しって感じですかね
0763132人目の素数さん
垢版 |
2019/09/29(日) 11:55:16.64ID:YdSphJX8
n面ダイスが正確に作られた(=各面の出る確率が等しい)ものであればm回振って全目が出る確率は厳密に計算できる
しかし、現実には完全に正確なダイスなどあり得ないのでこの確率からのブレが生じる
手元にある実物のダイスがどのくらい不正確かは実際に振ってみて値を記録しなければ分からない
で、実際に振った以上どの目がどの確率で出るのかは分かったのだから求めたい確率も計算できる

有意水準を使った統計学的検定でできるのはダイスが正確なものか否かの判定ぐらいでしかないので今の場合は不要
0764132人目の素数さん
垢版 |
2019/09/29(日) 16:14:00.89ID:2CC0mAW5
なるほど……有意水準という概念を適用できる範囲を誤解していたみたいですね。

有意水準の概念は「このダイスに偏りがないか」を調べるときには使えるが、
「ダイスが正確であるとして、m回振った結果すべての目が出揃っているか」は、例えば計算した結果99.4%だとしたらそれ以上でも以下でもなく、99%以上だからと言って全ての目が出ているとして扱えるものではない、と。

勉強し直します。ありがとうございました。
0765132人目の素数さん
垢版 |
2019/09/29(日) 16:40:09.39ID:2CC0mAW5
ちょっと調べてみたんですが、「どの程度、低い確率で起きる事象なら無視していいか」に関しては「ボレルの法則」というものがあるらしいですね。
「10のマイナス6乗以下の確率は、人間の時間スケールではまず起こらないものとして扱ってよい」という。
この場合適用すべきはこちらでしょうか。
0766132人目の素数さん
垢版 |
2019/09/29(日) 18:28:41.84ID:82vqIqjS
確率と有意水準をごっちゃまぜにしているように見えます。

有意水準という用語の背景には、必ず帰無仮説があります。
帰無仮説というのは、いわば否定されることを目的に立てるような仮説です。
帰無仮説が否定されたなら、それに従って、何らかの主張が行えます。
その時の常套句が、「有意水準これこれで、これこれを主張する」等となります。

なぜ、その帰無仮説が否定できたか?
否定した理由は、あまり起こりえないことが起こったからという論法です。
偶然、たまたま起こったと言うこともあり得ます。
しかし、そう考えるより、帰無仮説が間違っていたと考える方が、無難だと考え、
帰無仮説の内容の否定にあたる主張を、「有意水準云々で、此れ此れ...」と言うのです。

帰無仮説が間違っていると考えるか、偶然起こることもあるから、帰無仮説が間違っているとまでは
言い切れないと考えるか、その判定の境界として採用されているのが、5%とか、1%とかの値です。

従って、この5%とか1%は、「その主張が間違っている確率」ではありません。
「間違って帰無仮説を棄却してしまった確率」です。
帰無仮説は正しかったのに、誤って否定し、何らかの主張を行ってしまった確率です。
主張の内容の確率ではなく、帰無仮説を否定してある主張を持ってきたときの判断の誤りの確率です。
0767132人目の素数さん
垢版 |
2019/09/29(日) 20:56:45.27ID:rVYV+GdK
5645
かずきち@dy_dt_dt_dx 9月29日
京大オープン経済190/550しか取ってないやつにマウント取られて草
お前より90点高いんだよ黙って勉強しろ
https://twitter.com/dy_dt_dt_dx
https://twitter.com/5chan_nel (5ch newer account)
0768132人目の素数さん
垢版 |
2019/09/29(日) 23:29:22.50ID:4yGt3Rbe
検定とか有意とか
フィッシャー最大の失敗だと思いますんw
0769132人目の素数さん
垢版 |
2019/09/30(月) 21:32:41.09ID:pGz8xE4o
河村先生は女子学生にセクハラしてるのでは?
0771132人目の素数さん
垢版 |
2019/10/21(月) 00:23:39.84ID:h0/eah2o
むしろデータサイエンティストブームが終わっても生き残るために必要なのが統計学
データサイエンティストになるだけが目的ならもっと小手先のテクニック身に着ける方が手っ取り早い
0772132人目の素数さん
垢版 |
2019/10/22(火) 01:47:38.25ID:OUWgx3Yq
データサイエンス=機械学習 になってしまって、統計学への関心が薄れてきた印象
データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象
結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする
0773132人目の素数さん
垢版 |
2019/10/26(土) 17:02:21.23ID:qnfsZRYc
機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。
0774132人目の素数さん
垢版 |
2019/10/26(土) 17:14:56.32ID:80nGs05h
緑本が難しかったんだけど、どの本から始めたらいいですか?
0775132人目の素数さん
垢版 |
2019/10/27(日) 08:03:15.48ID:xp3AzHdF
機械学習のベースは統計学
ついでにいうと機械学習機械学習といっているのは日本くらいなもん
0776132人目の素数さん
垢版 |
2019/10/27(日) 10:08:41.82ID:725LjOOC
>>774
緑本って何?
0777132人目の素数さん
垢版 |
2019/10/27(日) 10:19:47.64ID:ZKA7UMw6
緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか
0779132人目の素数さん
垢版 |
2019/10/27(日) 12:59:36.48ID:fPVOzMOu
Rは数年前に既に衰退始まっててpythonに移行しつつある
0780132人目の素数さん
垢版 |
2019/10/27(日) 13:06:49.82ID:C7RbWweK
>>776
>>777
モデリングのほうです!
0781132人目の素数さん
垢版 |
2019/10/27(日) 13:22:30.81ID:t6dYTPS1
>>772
日本でいうDSだの機械学習はもう数年で終わり
今慌ててDS関係の講座作ってる大学は不良資産抱えることになる
新規採用した教員が今後20年足引っ張るよw
0784132人目の素数さん
垢版 |
2019/12/04(水) 23:38:03.50ID:JeLX6Nlr
不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、
自由度と不偏推定量はどうして関係があるのでしょうか?

不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、
という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。
0785132人目の素数さん
垢版 |
2019/12/08(日) 12:05:25.84ID:wenJp6AV
非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね?
いい本あったら教えてください
0786132人目の素数さん
垢版 |
2019/12/08(日) 12:34:39.66ID:2phJLplo
非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰することじゃないの?
又は2次関数なりで変数変換して線型回帰に落とし込むとか
いずれにせよ大層な話じゃないと思う
0787132人目の素数さん
垢版 |
2019/12/08(日) 16:56:44.30ID:/8FwQ3R/
重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね
ニューラルネットとかでもいけるんですかね?ニューラルネットは軽く調べただけであんまわかってなくてすんません
0790132人目の素数さん
垢版 |
2019/12/30(月) 23:03:06.88ID:3PRRBx7S
条件の違う2つの群に対して、5つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか?
0791132人目の素数さん
垢版 |
2019/12/31(火) 20:29:52.64ID:uFwLZGG6
分散の比ならF検定かな
0792132人目の素数さん
垢版 |
2019/12/31(火) 20:31:56.88ID:uFwLZGG6
標準偏差の比が正しいのか
0793132人目の素数さん
垢版 |
2019/12/31(火) 22:11:44.84ID:4uBrQaIf
名義尺度になるから標準偏差は取れなくない?
カイ二乗検定かね?
0794132人目の素数さん
垢版 |
2019/12/31(火) 22:15:54.60ID:uFwLZGG6
独立性の検定は使えるかもね
0795132人目の素数さん
垢版 |
2019/12/31(火) 22:17:43.07ID:uFwLZGG6
好みを点数で評価してもらったら
形式上は間隔尺度になるかも
0796132人目の素数さん
垢版 |
2020/01/17(金) 01:21:44.67ID:uZ2HrGrW
要素Aについて、Aがある場合とAがない場合に、
100回中何回事象X、Y、Zが起きたか調べたデータがあるとき

X、Y、Zが起きるのは高得点である
たとえば
Xが起きる=〇点、起きない=0点
Yが起きる=△点、起きない=0点
のように何点であるかはわからないが、事象が起きると
起きないときに比べて高得点が得られるとすると、

要素Aは「高得点を得る」のに影響しているのか
というのを調べるのにはどうしたらいいでしょうか?
AとX、AとYのように個別にカイ二乗検定を行うと
p値は0.05より大きいというようなことはわかったのですが…

100回中
A ~A
X 15 10
Y 17 10
Z 12 8
0797132人目の素数さん
垢版 |
2020/01/18(土) 11:00:37.99ID:qWqQZnoU
>>796
Aと、Xが起きる起きないの関係でP値が5%超だと
AとXの発生は無関係って解釈になるのでは?

そのレスにあるクロス集計表だと
AとXYZのどれが発生するかの関係を調べることになると思う
0798132人目の素数さん
垢版 |
2020/01/19(日) 13:25:58.01ID:2vRPAcfj
>>797さん、ありがとうございます!

....A ~A
X...15 85
~X..10 90

....A ~A
Y...17 83
~Y..10 90

....A ~A
Z...12 88
~Z.. 8 92

についてそれぞれp値は5%超なので、
「高得点を得る」事象X、Y、Zについて、
帰無仮説:要素Aによって、事象X、Y、Zの発生のしやすさは変わらない
は棄却不能であるので、
Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない
Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、
それは偶然であるのか必然であるのか、このデータから推論することはできない
ということでいいのでしょうか?
0799132人目の素数さん
垢版 |
2020/01/19(日) 14:38:42.36ID:SmisEix1
>>798
H0:二つの変数は独立である。
H1:二つの変数は独立ではない(何らかの関連がある。)
でH0を棄却できないので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
になると思います

有意水準の値にもよりますけど
0800132人目の素数さん
垢版 |
2020/01/19(日) 15:31:21.50ID:2vRPAcfj
ありがとうございます

優位水準5%としたとき、p>0.05なので

AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない

同様にp>0.05なので
AとY、AとZに関連があるとは言い切れない

よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない
(あるともないとも言い切れない)

ということで大丈夫でしょうか?
0801132人目の素数さん
垢版 |
2020/01/19(日) 15:47:51.10ID:6nrSQfDB
統計学の勉強をしたいのですがお勧めの教書はありますか?とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです
0802132人目の素数さん
垢版 |
2020/01/19(日) 15:58:46.14ID:SmisEix1
>>801
図書館とかでいろいろ見てみたらいいのでは?
同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので
0805132人目の素数さん
垢版 |
2020/01/20(月) 15:41:43.88ID:RFS0mRu2
それぞれ、サイズの異なる
A B C D E が5分類有り、ONとOFFの2つの状態を持ちます。
ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。

判明している数値は、A〜Eのサイズ(量)と各分類でONになった回数です。

分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、
各分類で起こった回数もトータルでの起こった回数も不明です。
0806132人目の素数さん
垢版 |
2020/01/20(月) 15:58:45.38ID:59LWl8Pz
スレ違だったらすまん
TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな?
ふと疑問に思ってしまった
0809132人目の素数さん
垢版 |
2020/01/21(火) 18:49:54.65ID:XQhOWIM5
>>802
遅くなってしまい申し訳ありません。
情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。
0813132人目の素数さん
垢版 |
2020/01/22(水) 19:30:28.36ID:KUYY19ls
>>812
定義とおりに計算したら求められると思います
Xが-4を取る確率をその表から読み取って掛け算して
他の値も同様にして、全部足し合わせる→平均
平均との偏差の二乗を足し合わせて個数で割る

共分散も定義の式を確認してその通りに計算する
0814132人目の素数さん
垢版 |
2020/01/25(土) 00:28:42.59ID:IzxreXdi
質問:日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合

Q1. この統計調査そのものを棄却すべきなのか
Q2. 信頼区間をいじればどうにか統計として成り立つのか
Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか

よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○%!」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。
0817132人目の素数さん
垢版 |
2020/01/27(月) 12:27:19.82ID:p+k1S3fn
仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな

"瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―"
0818132人目の素数さん
垢版 |
2020/01/27(月) 13:06:07.10ID:vv73qAWZ
>>805
求めたい値を変数として
今わかっている関係を数式で表す

それらを使って誤差などの評価値を最小にする値を探す

組合せ最適化問題に帰着するかもしれない
0819132人目の素数さん
垢版 |
2020/01/27(月) 13:11:52.77ID:vv73qAWZ
>>814
除外する基準が分からないなら
そのアンケートの結果としては意味があるだろうけど
対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う

別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか
0820132人目の素数さん
垢版 |
2020/01/27(月) 13:12:35.41ID:vv73qAWZ
>>817
仮説が正しい確率が小さいから仮説を棄却するんじゃね?
0821132人目の素数さん
垢版 |
2020/01/27(月) 21:23:53.03ID:rbwRL9KL
「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある
現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる
0822132人目の素数さん
垢版 |
2020/01/27(月) 21:38:20.59ID:vv73qAWZ
>>821
仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える

分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね?
中心極限定理とかで安定分布とみなせるとかあるんじゃね?
0823132人目の素数さん
垢版 |
2020/01/27(月) 21:40:59.43ID:vv73qAWZ
>>821
別の手段は何か適切なものがあるの?
ないなら近似的なものでも答えがわかった方がいいんじゃね?
0824132人目の素数さん
垢版 |
2020/01/27(月) 22:33:49.08ID:AlwQV46l
>>823
勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも
有限サンプルの世界ではあくまで近似でしかない
そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって
近似的に使えるものがあれば好きに使えばいい
ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる
0825132人目の素数さん
垢版 |
2020/01/28(火) 00:05:49.11ID:L5uOvH9/
この問題を教えて頂けないでしょうか?
大学1年生について,何かを失敗してしまうことへの恐怖感を感じる程度(「以下,「失敗恐怖尺度得点」)と,個人の大学生活への不適応度(以下,「不適応得点」)を測定したところ,
それぞれの記述統計量について,「失敗恐怖尺度得点」に関して平均値=4.05,標準偏差=1.17,「不適応得点」に関して平均値=20.29,標準偏差=6.49という結果が得られた。また,2変数間の共分散は2.37であった。
「失敗恐怖尺度得点」を独立変数とし,「不適応得点」を従属変数として単回帰分析を行い,それぞれ値を入力欄に記入せよ。
(1) 切片を推定せよ
(2) 回帰係数を推定せよ
(3) 決定係数を示せ
(4) 単回帰分析の結果,得られる,従属変数の予測値と,従属変数との間の相関係数を求めよ
(5) 予測の標準誤差を示せ
0827132人目の素数さん
垢版 |
2020/01/28(火) 09:17:05.42ID:+WlMKIb4
ベイズって簡単なの?理解に苦しんでる笑
もう一踏ん張りしたらそのステージに上がれるかな
0828132人目の素数さん
垢版 |
2020/01/29(水) 06:00:24.07ID:wY0tYf5k
平均値100 標準偏差15で定義される知能指数で
標準大学の新入生の知能指数の平均が100
裏口シリツ医大の新入生の知能指数の平均が85であったとする。

各大学から1/10を無作為抽出して知能指数をt検定したときのp値の期待値、中央値を求めよ。
また、p値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか?
0829132人目の素数さん
垢版 |
2020/01/29(水) 06:51:38.37ID:wY0tYf5k
>>825
統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。

Rだと

library(MASS)
mx=4.05
my=20.29
sx=1.17
sy=6.49
vxy=2.37
n=1e6
mu=c(mx,my)
si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2)
dat=mvrnorm(n,mu,si)
X=dat[,1]
Y=dat[,2]
lm(Y~X)
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況