統計学Part17 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
データサイエンス=機械学習 になってしまって、統計学への関心が薄れてきた印象
データサイエンス関係の学科や学部が増えてきてるが、いずれもビジネスに寄りすぎていて、トレンド終わったら危うい印象
結局将来的にもデータ関連の人材はデータ処理を専門とせずに各々の研究の必要に迫られて独学した従来型が主流な気がする 機械学習にしても統計学にしても、今後はSPSS等の高額統計ソフトは廃れていくと思う。RやPython使える人が重宝されるだろう。 緑本が難しかったんだけど、どの本から始めたらいいですか? 機械学習のベースは統計学
ついでにいうと機械学習機械学習といっているのは日本くらいなもん 緑本と言えば東大出版の三部作の緑か、統計モデリング本かのどちらか Rは数年前に既に衰退始まっててpythonに移行しつつある >>772
日本でいうDSだの機械学習はもう数年で終わり
今慌ててDS関係の講座作ってる大学は不良資産抱えることになる
新規採用した教員が今後20年足引っ張るよw RはRstudioが使いやすいけど、Pythonは何使ってる? 不偏分散を算出する際にn-1で割る、というのは、実際に期待値を計算して、不偏推定量とするのに必要なのは理解できるのですが、
自由度と不偏推定量はどうして関係があるのでしょうか?
不偏分散だけじゃなくて、一元配置の分散分析や、最小2乗法でも、自由度で割る、
という自由度との関係があるように思いますが、どのような数学的背景があるのでしょうか。 非線形の重回帰分析をしたいんだけど、ネットとか専門書見てもあんまり情報なくて、非線形重回帰分析ってあまり使われてないんですかね?
いい本あったら教えてください 非線形の重回帰って普通にニューラルネットなりランダムフォレストなりで回帰することじゃないの?
又は2次関数なりで変数変換して線型回帰に落とし込むとか
いずれにせよ大層な話じゃないと思う 重回帰分析みたいに目的変数を推定するのを、説明変数と目的変数が非線形の関係なんで、非線形の重回帰分析をしたいんですよね
ニューラルネットとかでもいけるんですかね?ニューラルネットは軽く調べただけであんまわかってなくてすんません 単純な非線形重回帰なら一般化線形モデルでよくないか? 条件の違う2つの群に対して、5つ提示した物のうちどれが好みかってテストをして、条件によって選択のばらつきが変化するって話をしたいんだけど、これはどう検定したらいいんだろうか? 名義尺度になるから標準偏差は取れなくない?
カイ二乗検定かね? 好みを点数で評価してもらったら
形式上は間隔尺度になるかも 要素Aについて、Aがある場合とAがない場合に、
100回中何回事象X、Y、Zが起きたか調べたデータがあるとき
X、Y、Zが起きるのは高得点である
たとえば
Xが起きる=〇点、起きない=0点
Yが起きる=△点、起きない=0点
のように何点であるかはわからないが、事象が起きると
起きないときに比べて高得点が得られるとすると、
要素Aは「高得点を得る」のに影響しているのか
というのを調べるのにはどうしたらいいでしょうか?
AとX、AとYのように個別にカイ二乗検定を行うと
p値は0.05より大きいというようなことはわかったのですが…
100回中
A ~A
X 15 10
Y 17 10
Z 12 8 >>796
Aと、Xが起きる起きないの関係でP値が5%超だと
AとXの発生は無関係って解釈になるのでは?
そのレスにあるクロス集計表だと
AとXYZのどれが発生するかの関係を調べることになると思う >>797さん、ありがとうございます!
....A ~A
X...15 85
~X..10 90
....A ~A
Y...17 83
~Y..10 90
....A ~A
Z...12 88
~Z.. 8 92
についてそれぞれp値は5%超なので、
「高得点を得る」事象X、Y、Zについて、
帰無仮説:要素Aによって、事象X、Y、Zの発生のしやすさは変わらない
は棄却不能であるので、
Aによって、「高得点の得やすさ」は変わる、または変わらない、のどちらともいえない
Aがあるときはないときに比べて、Xは5回、Yは7回、Zは4回、多く発生しているが、
それは偶然であるのか必然であるのか、このデータから推論することはできない
ということでいいのでしょうか? >>798
H0:二つの変数は独立である。
H1:二つの変数は独立ではない(何らかの関連がある。)
でH0を棄却できないので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
になると思います
有意水準の値にもよりますけど ありがとうございます
優位水準5%としたとき、p>0.05なので
AとXが独立である可能性がある、つまり
AとXに関連があるとは言い切れない
同様にp>0.05なので
AとY、AとZに関連があるとは言い切れない
よって優位水準5%としたとき、Aと「高得点を得る」ことに関連があるとは言い切れない
(あるともないとも言い切れない)
ということで大丈夫でしょうか? 統計学の勉強をしたいのですがお勧めの教書はありますか?とりあえず統計検定2級を取ることを目標にして2級の参考書、過去問のみ持ってますが、範囲外のことも掻い摘んで勉強したいです >>801
図書館とかでいろいろ見てみたらいいのでは?
同じ事でも自分に分かり易い書き方をしてあるかどうかは読む人によって違うので それぞれ、サイズの異なる
A B C D E が5分類有り、ONとOFFの2つの状態を持ちます。
ONには、各分類でトリガーとなるイベントが起きた際に一定確率でなります。
判明している数値は、A〜Eのサイズ(量)と各分類でONになった回数です。
分類ごとのトリガーの発生回数とONになる確率を推定したいのですが、
各分類で起こった回数もトータルでの起こった回数も不明です。 スレ違だったらすまん
TwitterでAが好きな人はお気に入り、Bが好きな人はリツイートっての見たことある人いると思うんだけど、片方の投票だけ拡散される性能がある場合ってアンケートは平等と言えるのかな?
ふと疑問に思ってしまった >>801
教えてもらったらレスしなさい、いやなら二度と来ないで >>802
遅くなってしまい申し訳ありません。
情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。 >>812
定義とおりに計算したら求められると思います
Xが-4を取る確率をその表から読み取って掛け算して
他の値も同様にして、全部足し合わせる→平均
平均との偏差の二乗を足し合わせて個数で割る
共分散も定義の式を確認してその通りに計算する 質問:日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合
Q1. この統計調査そのものを棄却すべきなのか
Q2. 信頼区間をいじればどうにか統計として成り立つのか
Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか
よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○%!」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。 仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな
"瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―" >>805
求めたい値を変数として
今わかっている関係を数式で表す
それらを使って誤差などの評価値を最小にする値を探す
組合せ最適化問題に帰着するかもしれない >>814
除外する基準が分からないなら
そのアンケートの結果としては意味があるだろうけど
対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う
別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか >>817
仮説が正しい確率が小さいから仮説を棄却するんじゃね? 「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある
現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる >>821
仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える
分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね?
中心極限定理とかで安定分布とみなせるとかあるんじゃね? >>821
別の手段は何か適切なものがあるの?
ないなら近似的なものでも答えがわかった方がいいんじゃね? >>823
勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも
有限サンプルの世界ではあくまで近似でしかない
そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって
近似的に使えるものがあれば好きに使えばいい
ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる この問題を教えて頂けないでしょうか?
大学1年生について,何かを失敗してしまうことへの恐怖感を感じる程度(「以下,「失敗恐怖尺度得点」)と,個人の大学生活への不適応度(以下,「不適応得点」)を測定したところ,
それぞれの記述統計量について,「失敗恐怖尺度得点」に関して平均値=4.05,標準偏差=1.17,「不適応得点」に関して平均値=20.29,標準偏差=6.49という結果が得られた。また,2変数間の共分散は2.37であった。
「失敗恐怖尺度得点」を独立変数とし,「不適応得点」を従属変数として単回帰分析を行い,それぞれ値を入力欄に記入せよ。
(1) 切片を推定せよ
(2) 回帰係数を推定せよ
(3) 決定係数を示せ
(4) 単回帰分析の結果,得られる,従属変数の予測値と,従属変数との間の相関係数を求めよ
(5) 予測の標準誤差を示せ ベイズって簡単なの?理解に苦しんでる笑
もう一踏ん張りしたらそのステージに上がれるかな 平均値100 標準偏差15で定義される知能指数で
標準大学の新入生の知能指数の平均が100
裏口シリツ医大の新入生の知能指数の平均が85であったとする。
各大学から1/10を無作為抽出して知能指数をt検定したときのp値の期待値、中央値を求めよ。
また、p値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか? >>825
統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。
Rだと
library(MASS)
mx=4.05
my=20.29
sx=1.17
sy=6.49
vxy=2.37
n=1e6
mu=c(mx,my)
si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2)
dat=mvrnorm(n,mu,si)
X=dat[,1]
Y=dat[,2]
lm(Y~X) 近似値なら
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept) X
13.279 1.731 >>824
仮説なんだから真の分布はわかるはずがないだろ
仮説が成り立つとして検定するんだから
真の分布なんて厳密に判るケースの方が少ないんじゃないか?
今あるデータだけでなく未来のデータも含めないと真の分布は厳密にはわからないんだし >>832
だから散々言っているように、真の分布が分からないのに仮説が正しい確率など分からないよね?ということ
あくまで自分が勝手に作ったモデルが手元のデータに対してどれぐらい使い物になるかが分かるだけ
それが有用なら使えばいいが、それは決して仮説が正しい確率ではないというだけのこと >>833
自分が勝手に作ったモデルのことを仮説と呼ぶ
仮説が正しい確率=自分のモデルが正しい確率 >>834
そこで言う「正しい」って何だよってこと
正解があって初めて自分が作ったものが正しいか間違いかを論じることができるはずだが正解を誰も知らないので「正しい」などという言葉を使ってはならない >>835
正しい→観測した事象が発生する確率が高い >>834
これは正確ではなかったかも
仮説が正しい確率=自分のモデルで対象の事象が発生する確率
自分のモデルで対象事象が発生する確率が低い→
自分のモデルつまり仮説が正しくないから仮説を棄却する >>837
統計量と検定に使う分布を適切に選ぶ必要はある
どの程度の精度が必要かは個別に違うだろう
近似でも有用なケースもある >>835
統計だから正しいか正しくないかの二択ではないんだよ
正しい可能性が1%なのか95%なのかで違うだろ 正しいか正しくないかは確率変数ではないので正しい確率などという概念がおかしい
確率変数ではないのだから正しいという言葉を使った瞬間に正しいか正しくないかの二択で論じることになる
>>837にあるようにあくまで計算するのは作成したモデルで観測した事象をどれだけ説明できるかであるが
それは一般に言う「正しい」の意味合いとは大きく異なる
だから「正しい」などと大袈裟なことを言わずに正直に自分が作ったモデルとはこの程度合っていると言えばいいだけのこと >>840
正しいという言葉の定義の問題でしかないな
意思疎通ができれば問題ない
正しいとはこう言う意味に解釈すると前置きすれば解決する だからベイズ使えベイズ。
仮定したモデルが正しい確率だから分りやすいぞ。 ベイズって観測するまでは事前分布を均等だとみなして
観測に合わせて分布を更新すると理解しているけど
それだと滅多に起きない事を考慮できないんじゃないの? >>843
無情報事前分布を当てはめるのは普通は確率分布のパラメータに対してであって最終的に知りたい確率分布自体は別のものを用意すればいい
レアな現象を扱いたいならポアソン分布とかをベースにした統計モデルがよく使われる 別の質問スレに書いたけどスレチだったようで回答頂けなかったので、こちらで質問させてください。
あるデータを連続分布関数でフィッティングしてパラメータを決めたいのですが、累積でやるのと階級に区切ったヒストグラムでやるのはどちらがいいのでしょうか? 累積じゃないか。
最小二乗法でフィッティングできない? >>847
俺も累積だと思うんだけど。
階級に区切るほうだと、階級幅をこっちで決めなきゃいけないからいらんパラメーターが増えるのがデメリットだけど、メリットあるのか?
どっちも最小二乗法は使えるよね。 最小二乗法が使えるかどうかはデータの誤差分布がどうなっているか次第なので実際のデータを見ない限り最小二乗法が使い物になるかは誰にも分からない アメリカの株のセンチメントの悪化が1万年に1度の発生確率って本当ですか?
https://imgur.com/OCqv5uX.jpg 収益率に正規分布を使うと大変な間違いになります。
株価は非線形的な反応をします。
ポートフォリオは毎日リスクにさらされます。 >>854
正規分布って線形ではないよね
株価とかがランダムウォークしたら正規分布にならない? ポートフォリオがリスクにさらされないと価格変動はなくなるからキャピタルゲインを得られない >>855
平時はそうだけど
裾はもっと分厚い
非線形というのは例えばコロナだけの問題ではないということで
連鎖反応がある > センチメント分析とは、文字通り消費者の「センチメント = 感情」を分析する
> ことを意味します。ウェブ上に投稿されたコメントなどを分析することによって、
> 消費者が持っている感情がネガティブなのかポジティブなのか、また、どの程度の
> 強さなのかを知ることができます。
そのセンチメント分析が何をどういう方法で分析したのか不明なのだから、
5σと言われても、さっぱりなんのことやらわからんよ。
単に否定的な単語の出現頻度が上昇したとか、そんなところだろ?
だって、テレビも新聞もウィルスの記事だらけ。
そんなの分析したら極端な結果になるんだろうね。
だけど5σと判断した基準がわからんのだから、
さっぱり意味不明だね。
その意味不明だということが理解できない人が、馬鹿ということ。
つーか、非線形と線形がどういう意味なのか
知ってる奴がいないということに驚いてる。
少しは勉強したほうがいいね。 >>858
線形、非線形を知っているのがいないってどうやって確認したの?
確認できない→いない
と判断した? SPSSで2グループの判別分析をおこなうと、正準判別関数と分類関数が出力されます。
この二つの違いは何でしょうか。
実際に分類を行う場合には、分類関数を使用するのでしょうか。 初めてこのスレに来た!
データ分析のために統計学を学ぼうとしていて、調べるとちょうど6月に検定試験があってちょうどいいなと思ってた今日この頃
皆さんは受験しますか? >>851
たまに真顔でこういう人がいるから困る
検定と推定は別物な
>>840
841がおかしいけど
センセーショナルなほうがもてはやされるんだろうね 使える=計算して何らかの結果が出せる、という意味なら使える
使える=計算して得た結果が役に立つ、という意味なら使えない >>864
計算可能かどうかは学問的には興味があるだろうけど
最小二乗法を学問的に研究しても面白くないんじゃないか?
事業とかの役に立つという意味で使えるという用語を使用する人が多いだろうよ 誤差が正規分布はblueの条件じゃないことをいいたいんだろう
正規分布に従っていればモデルのフィッテングがいいわけじゃない
決定係数が高くても外れ値で見かけ上の直線性になっているだけかもしれない
相関係数の検定結果で悦にひたっていた人を思い出すわ だから結局は実際のデータをプロットしたりして見てみないとどんな方法が最適かなど誰にも分からない
あらゆるデータに対して有用な結果を出せるような都合のいい手法など存在しない 人がいないので、質問を破棄します。
どうぞよろしく。 >>869は間違いなので無視してください
すみませんが、確率論統計学オタクの方々、日本のコロナウイルス感染者数を
計算できませんか
このコロナ騒ぎ以来日本政府はなんか態度が怪しげで外国のように検査数を
増やすつもりもないようです。
そこで、実際の感染者数をなんとか計算でだせないかと。
3月20日現在の、感染者数
日本国内 1015人
重症者49人
死亡者35人
致死率は1%から2%
NHKが毎日更新してる新型コロナの日本のデータ
https://www3.nhk.or.jp/news/special/coronavirus/
ジョンズホプキンス大学が毎日更新してる新型コロナ世界の感染者数
https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
よろしくお願いしますm(_ _)m 医療体制も国民の意識も栄誉状態も国内外の移動の頻繁さも全く違う国のデータを並べて一体何が推定できるようになると思っているのか ■ このスレッドは過去ログ倉庫に格納されています