統計学Part17 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
相関係数について教えてください。 変数a={1,1,1,1,1,1,1,1,1,1} 変数b={1,1,1,1,1,1,1,1,1,1} つまり2つの変数の値が全て同じだった場合に、 相関係数を計算すると計算不能になりますけど、 これは相関係数は1だと言っていいんでしょうか? それとも計算不能でいいんでしょうか? 1でok ていうか全く同じデータの相関係数求めてどうすんの 意味ないですよね? よくよく考えてみると、 その意味ないことを 延々と証明してるキチガイ論文見つけたので 学会発表のときに 触れてやろうと思ってます >>733 に異を唱えてくれるステキな大人のひと、いないの? エンタングルメントみたいな非自明ながらも完全なる相関性とかもあるんだけどね。 >>735 そんな人は研究に忙しくて 5chみてるヒマないでしょ? ここにくるのは初心者とカスとゴミですから >>732 相関係数の公式は知らんが、 0/0は、不定値である そもそも、aもbも全部1とのことだが より精密に測定すれば 0.982とか1.023の感じの測定値となる 有効数字1桁ではなく、せめて、 有効数字2~3桁となるよう再測定せよ なお、相関K数は計算上不定だが 一般に相関K数は-1~+1に定まる 統計学で大学院に行って学びたいと思うけど、修論がまったく思い描けない。 既にある問題解析なら、本を買ってやればよいと思う。 統計学の修士論文って、どんなレベルなんですか? 学部なんだろ、当たり前だろ、馬鹿か >修論がまったく思い描けない 修論のテーマなんて教授から与えられるものじゃないの 昨今AIと呼ばれているものは統計学のごく一部を応用してるにすぎないし応用と呼べるレベルにすら達していないものも多い つまり統計学なくして理論面でのAIの発展などあり得ない >>749 禿同 その基本的なことさえ 全く分かってない機械学を Pythonでやってるママゴトでも 高い給料もらえるという データサイエンティストバブル! >>748 残念ながら今のところ 統計学≒AI なのよ よろしくね! 2515 かずきち@dy_dt_dt_dx 8月28日 学コン8月号Sコース1等賞1位とれました! マジで嬉しいです! 来月からも理系に負けず頑張りたいと思います! https://twitter.com/dy_dt_dt_dx https://twitter.com/5chan_nel (5ch newer account) 初歩的なことかもしれませんが、「有意水準」に関して悩ましいことがあったので質問させてください。 個人的な興味のために、「n面ダイスをm回振って、全ての目が出揃う確率」について議論したいんですが、 統計学的には、その確率が99%以上であれば、有意水準1%のもと、「n面ダイスをm回以上振れば、流石に全ての目が出たものとして扱ってよい」と言える、 という認識で合ってますでしょうか。 合っているとして、ここからが本題なんですが。 例えばこれをn = 100で行った場合、 「百回中一回しか起こらない事象を自分は扱ってるくせに、統計学的には1%以下を無視するなんて、どの口が言ってねん」って感覚を覚えます。 つまり、nの値が大きければ大きいほど、有意水準を引き下げたくなってしまいます。 この感覚は理論的には正しいのでしょうか? 検定の概念がわかってないようなのでそこから見直しって感じですかね n面ダイスが正確に作られた(=各面の出る確率が等しい)ものであればm回振って全目が出る確率は厳密に計算できる しかし、現実には完全に正確なダイスなどあり得ないのでこの確率からのブレが生じる 手元にある実物のダイスがどのくらい不正確かは実際に振ってみて値を記録しなければ分からない で、実際に振った以上どの目がどの確率で出るのかは分かったのだから求めたい確率も計算できる 有意水準を使った統計学的検定でできるのはダイスが正確なものか否かの判定ぐらいでしかないので今の場合は不要 なるほど……有意水準という概念を適用できる範囲を誤解していたみたいですね。 有意水準の概念は「このダイスに偏りがないか」を調べるときには使えるが、 「ダイスが正確であるとして、m回振った結果すべての目が出揃っているか」は、例えば計算した結果99.4%だとしたらそれ以上でも以下でもなく、99%以上だからと言って全ての目が出ているとして扱えるものではない、と。 勉強し直します。ありがとうございました。 ちょっと調べてみたんですが、「どの程度、低い確率で起きる事象なら無視していいか」に関しては「ボレルの法則」というものがあるらしいですね。 「10のマイナス6乗以下の確率は、人間の時間スケールではまず起こらないものとして扱ってよい」という。 この場合適用すべきはこちらでしょうか。 確率と有意水準をごっちゃまぜにしているように見えます。 有意水準という用語の背景には、必ず帰無仮説があります。 帰無仮説というのは、いわば否定されることを目的に立てるような仮説です。 帰無仮説が否定されたなら、それに従って、何らかの主張が行えます。 その時の常套句が、「有意水準これこれで、これこれを主張する」等となります。 なぜ、その帰無仮説が否定できたか? 否定した理由は、あまり起こりえないことが起こったからという論法です。 偶然、たまたま起こったと言うこともあり得ます。 しかし、そう考えるより、帰無仮説が間違っていたと考える方が、無難だと考え、 帰無仮説の内容の否定にあたる主張を、「有意水準云々で、此れ此れ...」と言うのです。 帰無仮説が間違っていると考えるか、偶然起こることもあるから、帰無仮説が間違っているとまでは 言い切れないと考えるか、その判定の境界として採用されているのが、5%とか、1%とかの値です。 従って、この5%とか1%は、「その主張が間違っている確率」ではありません。 「間違って帰無仮説を棄却してしまった確率」です。 帰無仮説は正しかったのに、誤って否定し、何らかの主張を行ってしまった確率です。 主張の内容の確率ではなく、帰無仮説を否定してある主張を持ってきたときの判断の誤りの確率です。 5645 かずきち@dy_dt_dt_dx 9月29日 京大オープン経済190/550しか取ってないやつにマウント取られて草 お前より90点高いんだよ黙って勉強しろ https://twitter.com/dy_dt_dt_dx https://twitter.com/5chan_nel (5ch newer account) 検定とか有意とか フィッシャー最大の失敗だと思いますんw 統計学やると今流行のデータサイエンティストになれるのか? むしろデータサイエンティストブームが終わっても生き残るために必要なのが統計学 データサイエンティストになるだけが目的ならもっと小手先のテクニック身に着ける方が手っ取り早い データサイエンス=機械学習 になってしまって、統計学への関心が薄れてきた印象 データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象 結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする 機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。 緑本が難しかったんだけど、どの本から始めたらいいですか? 機械学習のベースは統計学 ついでにいうと機械学習機械学習といっているのは日本くらいなもん 緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか Rは数年前に既に衰退始まっててpythonに移行しつつある >>772 日本でいうDSだの機械学習はもう数年で終わり 今慌ててDS関係の講座作ってる大学は不良資産抱えることになる 新規採用した教員が今後20年足引っ張るよw RはRstudioが使いやすいけど、Pythonは何使ってる? 不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、 自由度と不偏推定量はどうして関係があるのでしょうか? 不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、 という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。 非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね? いい本あったら教えてください 非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰することじゃないの? 又は2次関数なりで変数変換して線型回帰に落とし込むとか いずれにせよ大層な話じゃないと思う 重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね ニューラルネットとかでもいけるんですかね?ニューラルネットは軽く調べただけであんまわかってなくてすんません 単純な非線形重回帰なら一般化線形モデルでよくないか? 条件の違う2つの群に対して、5つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか? 名義尺度になるから標準偏差は取れなくない? カイ二乗検定かね? 好みを点数で評価してもらったら 形式上は間隔尺度になるかも 要素Aについて、Aがある場合とAがない場合に、 100回中何回事象X、Y、Zが起きたか調べたデータがあるとき X、Y、Zが起きるのは高得点である たとえば Xが起きる=〇点、起きない=0点 Yが起きる=△点、起きない=0点 のように何点であるかはわからないが、事象が起きると 起きないときに比べて高得点が得られるとすると、 要素Aは「高得点を得る」のに影響しているのか というのを調べるのにはどうしたらいいでしょうか? AとX、AとYのように個別にカイ二乗検定を行うと p値は0.05より大きいというようなことはわかったのですが… 100回中 A ~A X 15 10 Y 17 10 Z 12 8 >>796 Aと、Xが起きる起きないの関係でP値が5%超だと AとXの発生は無関係って解釈になるのでは? そのレスにあるクロス集計表だと AとXYZのどれが発生するかの関係を調べることになると思う >>797 さん、ありがとうございます! ....A ~A X...15 85 ~X..10 90 ....A ~A Y...17 83 ~Y..10 90 ....A ~A Z...12 88 ~Z.. 8 92 についてそれぞれp値は5%超なので、 「高得点を得る」事象X、Y、Zについて、 帰無仮説:要素Aによって、事象X、Y、Zの発生のしやすさは変わらない は棄却不能であるので、 Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、 それは偶然であるのか必然であるのか、このデータから推論することはできない ということでいいのでしょうか? >>798 H0:二つの変数は独立である。 H1:二つの変数は独立ではない(何らかの関連がある。) でH0を棄却できないので AとXが独立である可能性がある、つまり AとXに関連があるとは言い切れない になると思います 有意水準の値にもよりますけど ありがとうございます 優位水準5%としたとき、p>0.05なので AとXが独立である可能性がある、つまり AとXに関連があるとは言い切れない 同様にp>0.05なので AとY、AとZに関連があるとは言い切れない よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない (あるともないとも言い切れない) ということで大丈夫でしょうか? 統計学の勉強をしたいのですがお勧めの教書はありますか?とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです >>801 図書館とかでいろいろ見てみたらいいのでは? 同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので それぞれ、サイズの異なる A B C D E が5分類有り、ONとOFFの2つの状態を持ちます。 ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。 判明している数値は、A〜Eのサイズ(量)と各分類でONになった回数です。 分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、 各分類で起こった回数もトータルでの起こった回数も不明です。 スレ違だったらすまん TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな? ふと疑問に思ってしまった >>801 教えてもらったらレスしなさい、いやなら二度と来ないで >>802 遅くなってしまい申し訳ありません。 情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。 >>812 定義とおりに計算したら求められると思います Xが-4を取る確率をその表から読み取って掛け算して 他の値も同様にして、全部足し合わせる→平均 平均との偏差の二乗を足し合わせて個数で割る 共分散も定義の式を確認してその通りに計算する 質問:日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合 Q1. この統計調査そのものを棄却すべきなのか Q2. 信頼区間をいじればどうにか統計として成り立つのか Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○%!」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。 仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな "瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―" >>805 求めたい値を変数として 今わかっている関係を数式で表す それらを使って誤差などの評価値を最小にする値を探す 組合せ最適化問題に帰着するかもしれない >>814 除外する基準が分からないなら そのアンケートの結果としては意味があるだろうけど 対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う 別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか >>817 仮説が正しい確率が小さいから仮説を棄却するんじゃね? 「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある 現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる >>821 仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える 分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね? 中心極限定理とかで安定分布とみなせるとかあるんじゃね? >>821 別の手段は何か適切なものがあるの? ないなら近似的なものでも答えがわかった方がいいんじゃね? >>823 勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも 有限サンプルの世界ではあくまで近似でしかない そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって 近似的に使えるものがあれば好きに使えばいい ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる この問題を教えて頂けないでしょうか? 大学1年生について,何かを失敗してしまうことへの恐怖感を感じる程度(「以下,「失敗恐怖尺度得点」)と,個人の大学生活への不適応度(以下,「不適応得点」)を測定したところ, それぞれの記述統計量について,「失敗恐怖尺度得点」に関して平均値=4.05,標準偏差=1.17,「不適応得点」に関して平均値=20.29,標準偏差=6.49という結果が得られた。また,2変数間の共分散は2.37であった。 「失敗恐怖尺度得点」を独立変数とし,「不適応得点」を従属変数として単回帰分析を行い,それぞれ値を入力欄に記入せよ。 (1) 切片を推定せよ (2) 回帰係数を推定せよ (3) 決定係数を示せ (4) 単回帰分析の結果,得られる,従属変数の予測値と,従属変数との間の相関係数を求めよ (5) 予測の標準誤差を示せ ベイズって簡単なの?理解に苦しんでる笑 もう一踏ん張りしたらそのステージに上がれるかな 平均値100 標準偏差15で定義される知能指数で 標準大学の新入生の知能指数の平均が100 裏口シリツ医大の新入生の知能指数の平均が85であったとする。 各大学から1/10を無作為抽出して知能指数をt検定したときのp値の期待値、中央値を求めよ。 また、p値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか? >>825 統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。 Rだと library(MASS) mx=4.05 my=20.29 sx=1.17 sy=6.49 vxy=2.37 n=1e6 mu=c(mx,my) si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2) dat=mvrnorm(n,mu,si) X=dat[,1] Y=dat[,2] lm(Y~X) ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる