統計学Part17 [無断転載禁止]©2ch.net
レス数が900を超えています。1000を超えると表示できなくなるよ。
>>802
遅くなってしまい申し訳ありません。
情報ありがとうございます、参考に致します。また些細なことで質問することもあると思いますが、その時はどうぞよろしくお願いします。 >>812
定義とおりに計算したら求められると思います
Xが-4を取る確率をその表から読み取って掛け算して
他の値も同様にして、全部足し合わせる→平均
平均との偏差の二乗を足し合わせて個数で割る
共分散も定義の式を確認してその通りに計算する 質問:日本人を対象としたアンケート調査で十分なサンプル数を得られたものの、回答欄に不備があって回答の数パーセントが間違った集計をされた場合
Q1. この統計調査そのものを棄却すべきなのか
Q2. 信頼区間をいじればどうにか統計として成り立つのか
Q3. 出てきた結果に数パーセントの補正をなにかしらすれば使えるのか
よかったら教えてください。具体的な話をすると「20代男性は交際経験も性交経験もないのが○%!」みたいな記事を読んでたとき「これ3-10%いるLGBT人口を考慮しないと自分みたいなケツマンコ人数2桁でもおマンコゼロって回答するよね…」て思ったので。 仮説が正しい確率とかいう意味不明な概念を持ち出して絶賛炎上中だな
"瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―" >>805
求めたい値を変数として
今わかっている関係を数式で表す
それらを使って誤差などの評価値を最小にする値を探す
組合せ最適化問題に帰着するかもしれない >>814
除外する基準が分からないなら
そのアンケートの結果としては意味があるだろうけど
対象外としたい集団の結果がどの程度影響しているかわからないんじゃ補正の仕方もわからないと思う
別の統計で対象外としたい集団の結果がわかればそれを使って補正すればいいのではないか >>817
仮説が正しい確率が小さいから仮説を棄却するんじゃね? 「仮説」を統計モデルのようなものとすると「仮説が正しい確率」を計算するためには今対象とする事象の真のモデルを知っている必要がある
現実世界においてはそんなもの知り得ないし、万が一知っているならそもそもそれと別のモデルを立てて計算する必要などなくなる >>821
仮説が正しいという前提で観測した事象が発生する確率を考えてみたら1%以下だった→仮説が間違いと考える
分布は正規分布とかχ二乗分布とかt分布とかF分布とかそれらしいものを使うんじゃね?
中心極限定理とかで安定分布とみなせるとかあるんじゃね? >>821
別の手段は何か適切なものがあるの?
ないなら近似的なものでも答えがわかった方がいいんじゃね? >>823
勝手に想定した分布は真の分布ではないし中心極限定理で正規分布になるというのも
有限サンプルの世界ではあくまで近似でしかない
そもそも「仮説が正しい確率」などというものが求めようがないと言っているだけであって
近似的に使えるものがあれば好きに使えばいい
ただ単にそれを「仮説が正しい確率」と呼ぶのは事実と異なる この問題を教えて頂けないでしょうか?
大学1年生について,何かを失敗してしまうことへの恐怖感を感じる程度(「以下,「失敗恐怖尺度得点」)と,個人の大学生活への不適応度(以下,「不適応得点」)を測定したところ,
それぞれの記述統計量について,「失敗恐怖尺度得点」に関して平均値=4.05,標準偏差=1.17,「不適応得点」に関して平均値=20.29,標準偏差=6.49という結果が得られた。また,2変数間の共分散は2.37であった。
「失敗恐怖尺度得点」を独立変数とし,「不適応得点」を従属変数として単回帰分析を行い,それぞれ値を入力欄に記入せよ。
(1) 切片を推定せよ
(2) 回帰係数を推定せよ
(3) 決定係数を示せ
(4) 単回帰分析の結果,得られる,従属変数の予測値と,従属変数との間の相関係数を求めよ
(5) 予測の標準誤差を示せ ベイズって簡単なの?理解に苦しんでる笑
もう一踏ん張りしたらそのステージに上がれるかな 平均値100 標準偏差15で定義される知能指数で
標準大学の新入生の知能指数の平均が100
裏口シリツ医大の新入生の知能指数の平均が85であったとする。
各大学から1/10を無作為抽出して知能指数をt検定したときのp値の期待値、中央値を求めよ。
また、p値が0.05以上になって裏口シリツ医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか? >>825
統計ソフトを使っていいなら、擬似乱数発生させて近似値ならだせる。
Rだと
library(MASS)
mx=4.05
my=20.29
sx=1.17
sy=6.49
vxy=2.37
n=1e6
mu=c(mx,my)
si=matrix(c(sx^2,vxy,vxy,sy^2),ncol=2)
dat=mvrnorm(n,mu,si)
X=dat[,1]
Y=dat[,2]
lm(Y~X) 近似値なら
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept) X
13.279 1.731 >>824
仮説なんだから真の分布はわかるはずがないだろ
仮説が成り立つとして検定するんだから
真の分布なんて厳密に判るケースの方が少ないんじゃないか?
今あるデータだけでなく未来のデータも含めないと真の分布は厳密にはわからないんだし >>832
だから散々言っているように、真の分布が分からないのに仮説が正しい確率など分からないよね?ということ
あくまで自分が勝手に作ったモデルが手元のデータに対してどれぐらい使い物になるかが分かるだけ
それが有用なら使えばいいが、それは決して仮説が正しい確率ではないというだけのこと >>833
自分が勝手に作ったモデルのことを仮説と呼ぶ
仮説が正しい確率=自分のモデルが正しい確率 >>834
そこで言う「正しい」って何だよってこと
正解があって初めて自分が作ったものが正しいか間違いかを論じることができるはずだが正解を誰も知らないので「正しい」などという言葉を使ってはならない >>835
正しい→観測した事象が発生する確率が高い >>834
これは正確ではなかったかも
仮説が正しい確率=自分のモデルで対象の事象が発生する確率
自分のモデルで対象事象が発生する確率が低い→
自分のモデルつまり仮説が正しくないから仮説を棄却する >>837
統計量と検定に使う分布を適切に選ぶ必要はある
どの程度の精度が必要かは個別に違うだろう
近似でも有用なケースもある >>835
統計だから正しいか正しくないかの二択ではないんだよ
正しい可能性が1%なのか95%なのかで違うだろ 正しいか正しくないかは確率変数ではないので正しい確率などという概念がおかしい
確率変数ではないのだから正しいという言葉を使った瞬間に正しいか正しくないかの二択で論じることになる
>>837にあるようにあくまで計算するのは作成したモデルで観測した事象をどれだけ説明できるかであるが
それは一般に言う「正しい」の意味合いとは大きく異なる
だから「正しい」などと大袈裟なことを言わずに正直に自分が作ったモデルとはこの程度合っていると言えばいいだけのこと >>840
正しいという言葉の定義の問題でしかないな
意思疎通ができれば問題ない
正しいとはこう言う意味に解釈すると前置きすれば解決する だからベイズ使えベイズ。
仮定したモデルが正しい確率だから分りやすいぞ。 ベイズって観測するまでは事前分布を均等だとみなして
観測に合わせて分布を更新すると理解しているけど
それだと滅多に起きない事を考慮できないんじゃないの? >>843
無情報事前分布を当てはめるのは普通は確率分布のパラメータに対してであって最終的に知りたい確率分布自体は別のものを用意すればいい
レアな現象を扱いたいならポアソン分布とかをベースにした統計モデルがよく使われる 別の質問スレに書いたけどスレチだったようで回答頂けなかったので、こちらで質問させてください。
あるデータを連続分布関数でフィッティングしてパラメータを決めたいのですが、累積でやるのと階級に区切ったヒストグラムでやるのはどちらがいいのでしょうか? 累積じゃないか。
最小二乗法でフィッティングできない? >>847
俺も累積だと思うんだけど。
階級に区切るほうだと、階級幅をこっちで決めなきゃいけないからいらんパラメーターが増えるのがデメリットだけど、メリットあるのか?
どっちも最小二乗法は使えるよね。 最小二乗法が使えるかどうかはデータの誤差分布がどうなっているか次第なので実際のデータを見ない限り最小二乗法が使い物になるかは誰にも分からない アメリカの株のセンチメントの悪化が1万年に1度の発生確率って本当ですか?
https://imgur.com/OCqv5uX.jpg 収益率に正規分布を使うと大変な間違いになります。
株価は非線形的な反応をします。
ポートフォリオは毎日リスクにさらされます。 >>854
正規分布って線形ではないよね
株価とかがランダムウォークしたら正規分布にならない? ポートフォリオがリスクにさらされないと価格変動はなくなるからキャピタルゲインを得られない >>855
平時はそうだけど
裾はもっと分厚い
非線形というのは例えばコロナだけの問題ではないということで
連鎖反応がある > センチメント分析とは、文字通り消費者の「センチメント = 感情」を分析する
> ことを意味します。ウェブ上に投稿されたコメントなどを分析することによって、
> 消費者が持っている感情がネガティブなのかポジティブなのか、また、どの程度の
> 強さなのかを知ることができます。
そのセンチメント分析が何をどういう方法で分析したのか不明なのだから、
5σと言われても、さっぱりなんのことやらわからんよ。
単に否定的な単語の出現頻度が上昇したとか、そんなところだろ?
だって、テレビも新聞もウィルスの記事だらけ。
そんなの分析したら極端な結果になるんだろうね。
だけど5σと判断した基準がわからんのだから、
さっぱり意味不明だね。
その意味不明だということが理解できない人が、馬鹿ということ。
つーか、非線形と線形がどういう意味なのか
知ってる奴がいないということに驚いてる。
少しは勉強したほうがいいね。 >>858
線形、非線形を知っているのがいないってどうやって確認したの?
確認できない→いない
と判断した? SPSSで2グループの判別分析をおこなうと、正準判別関数と分類関数が出力されます。
この二つの違いは何でしょうか。
実際に分類を行う場合には、分類関数を使用するのでしょうか。 初めてこのスレに来た!
データ分析のために統計学を学ぼうとしていて、調べるとちょうど6月に検定試験があってちょうどいいなと思ってた今日この頃
皆さんは受験しますか? >>851
たまに真顔でこういう人がいるから困る
検定と推定は別物な
>>840
841がおかしいけど
センセーショナルなほうがもてはやされるんだろうね 使える=計算して何らかの結果が出せる、という意味なら使える
使える=計算して得た結果が役に立つ、という意味なら使えない >>864
計算可能かどうかは学問的には興味があるだろうけど
最小二乗法を学問的に研究しても面白くないんじゃないか?
事業とかの役に立つという意味で使えるという用語を使用する人が多いだろうよ 誤差が正規分布はblueの条件じゃないことをいいたいんだろう
正規分布に従っていればモデルのフィッテングがいいわけじゃない
決定係数が高くても外れ値で見かけ上の直線性になっているだけかもしれない
相関係数の検定結果で悦にひたっていた人を思い出すわ だから結局は実際のデータをプロットしたりして見てみないとどんな方法が最適かなど誰にも分からない
あらゆるデータに対して有用な結果を出せるような都合のいい手法など存在しない 人がいないので、質問を破棄します。
どうぞよろしく。 >>869は間違いなので無視してください
すみませんが、確率論統計学オタクの方々、日本のコロナウイルス感染者数を
計算できませんか
このコロナ騒ぎ以来日本政府はなんか態度が怪しげで外国のように検査数を
増やすつもりもないようです。
そこで、実際の感染者数をなんとか計算でだせないかと。
3月20日現在の、感染者数
日本国内 1015人
重症者49人
死亡者35人
致死率は1%から2%
NHKが毎日更新してる新型コロナの日本のデータ
https://www3.nhk.or.jp/news/special/coronavirus/
ジョンズホプキンス大学が毎日更新してる新型コロナ世界の感染者数
https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
よろしくお願いしますm(_ _)m 医療体制も国民の意識も栄誉状態も国内外の移動の頻繁さも全く違う国のデータを並べて一体何が推定できるようになると思っているのか 海外と比較して優位な差があるとかは分かるかもしれない
その理由はなぜかは海外との違う点が候補になるくらいじゃないかな >>870
ガイガーとか地面においてたタイプの人? 統計学を1から勉強してるけど難しいな
アウトプットが足りない 例えば、現在の都内の感染者数は正しいと仮定して、
都内の1ヶ月後の感染者数を
予測してみよう。
n:現在の感染者数を120人
d:接触率(1日に1人が何人と濃厚接触するか人数)=5人
c:感染率(人と濃厚接触して感染させる確率)=20%
M:都内の昼間人口
難しいのは感染者同士なら感染しない
一度感染した人は感染しないこと
また接触率を一定とする.
これから仕事なので
続きはまた後で・・・ 感染者数を教えてください。
森岡正博
@Sukuitohananika
みんな冷静に計算してほしいけど、東京都の新コロナ感染者数は現在171人。
東京から無作為に200人をピックアップしたときに、その中に超有名人の志村けん氏が入ってる確率ってどのくらいだと思う?
現在の感染拡大ペースは我々の想像をはるかに超えてるよ。
桁違いの感染者数になってるよ。
https://twitter.com/Sukuitohananika/status/1242698846032953345
https://twitter.com/5chan_nel (5ch newer account) >>878
超有名人かどうかは個人を特定した時にその値をどう解釈するかというだけじゃないの?
有名人かどうかに関わらず感染する確率は変わらない
有名人だから感染する確率が高くなるとか低くなるとは思えない
個人の行動範囲とか多数の人と会う機会が多いとかは影響するかも知れないし
有名人だから街で握手したりする機会が多いなら高くなるだろうけど
行動で感染するかどうかの結果は変わるだろう >>878
「統計でウソをつく方法」というのを思い出したw >>879
ある国の人口は100,000,000人で、
そのうちの1,000人が「有名人」です。
いま、ある感染症に、1人の有名人が罹患しました。
なお、この感染症は国民にランダムに罹患するものとします。
@この条件だけで、全国民の感染症患者数は、ほぼ100,000人と推計できるでしょうか?
A「他の999人は罹患していないことが分かっている」という条件を付け加えたとき、
上記の推計結果は変わるでしょうか?
B罹患した有名人が2人のとき、単純に200,000人と推計できるのでしょうか?
罹患している人の確率よりも、罹患していない人の確率を計算して1から引く?
よくわからない。 志村けんが感染する確率なら結構低いかもしれないが、今気にしてるのはあくまで一定以上の知名度の有名人が感染する確率だから特に都内に限定すれば大して珍しいことではない >>881
1については母比率の推定から類推できそうだけど
芸能人に限定するとランダムサンプリングではないから
少し調整が必要だろうな
どんな調整が適切かは判らないけど
例えば、ダイヤモンドプリンセスをサンプルに感染率の推定をしても値が妥当でないのと同じだと思う >>881
人口がN=1億で、感染者の数がA、非感染者の数がN-Aとし、有名人の数がU=1千とすると、
有名人の感染者の数がnである確率は、C[U,n]C[N-U,A-n]/C[N,A]
A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、
これだけの情報では範囲が荒すぎてA「ほぼ100,000人」なんて言えず、@も当然言えない
A=24230のとき、n≧2の確率は2.5%、A=720600のとき、n≦2の確率は2.5%だから、
これだけの情報では範囲が荒すぎてB「ほぼ200,000人」なんて言えない
そもそも、感染者を見つけてからそのサンプルの珍しさを後出しで主張するのは反則だよね
人は大きい集合に属していたり同時に小さい集合にも属していたりするので、
小さい集合から出たサンプルであると、後出しならいくらでも都合よく主張できてしまう >>882
毎夜の六本木での志村のご乱行を
知っているので
感染しても当然としか思わない。
阪神の藤浪選手も同じような
ご乱行により感染したのだ。
これ業界では有名よ! >>885
ありがとう
なんとなく雰囲気は分かりました。
学者なら、こういう議論くらいしてほしいよね。 >>867
現時点をt=0とし、時点tにおける感染者の割合をp(t)とする
感染者は一人あたり、一日に5人と接触する
その5人のうち非感染者は、時点tにおいて、5*(1-p(t))人そのうち20%の人間に移す
なので感染者一人が作る一日の新規の感染者は、0.2*5*(1-p(t))=(1-p(t))人
感染者みんなで作る一日の新規の感染者は、それのp(t)倍に比例する量となる
よって、感染者の増加率は、p(t)(1-p(t))に比例し、dp(t)/dt=Kp(t)(1-p(t))と書ける
dp(t)/{p(t)(1-p(t))}=Kdt、∫dp(t){1/p(t)+1/(1-p(t))}=∫Kdt、ln(p(t))-ln(1-p(t))=Kt+C
ln(1/p(t)-1)=-Kt-C、1/p(t)-1=Aexp(-Kt)、p(t)=1/(1+Aexp(-Kt))、(ただし、A=1/p(0)-1)
また、p(t)に比例した量の死亡者が出ることで感染者の減少分があると考えるなら、
p(t)の増加率は、dp(t)/dt=Kp(t)(1-p(t))-KTp(t)=Kp(t)(1-T-p(t))=と考えて、
dp(t)/{Kp(t)(1-T-p(t))}=dt、dp(t){1/p(t)+1/(1-T-p(t))}/(1-T)=Kdt
ln(p(t))-ln(1-T-p(t))=∫K(1-T)dt=K(1-T)t+C、(1-T)/p(t)-1=Aexp(-K(1-T)t)
p(t)=(1-T)/(1+Aexp(-K(1-T)t)) ただし、A=(1-T)/p(0)-1 >>887
>なんとなく雰囲気は分かりました
間違いのもとです 議論するほど賢くないもので
A=2530のとき、n≧1の確率は2.5%、A=555900のとき、n≦1の確率は2.5%だから、
なぜここで2530と555900を選んだのかが分からない やっとt検定まで理解できたつもりになった
ちゃんと理解せねば 統計学なんて独学でやってもさっぱりわからんね。
わかったと思っても使わないとすぐ忘れる。 区間推定とか検定とかの考え方は忘れないだろ
具体的な計算方法は調べたりプログラムで実行したりすれば良い 統計勉強してる人はなんのプログラム言語を学習するべき? >>898
プログラムは手段だから実現したいことが簡単になるものを選んだり学んだりしたらいい
とくにないならPythonは情報もモジュールも多いし悪くないと思う あとPythonでWebサービス実装したりもできるし
一応汎用言語だから >>900
>>903
俺の先生は、教えるのが下手であるし、
教えるのはめんどくさいという人で、
ホントに全く何も教わってないです。
しかし、他の先生方の勉強会に連れて行って
くれたりしたので、いろんな先生と出会って
結果としてそれが良かったです。
統計関連のいろんな先生に今まで何度も助けてもらったり、いろいろと教わることができました。
というのも、教えて欲しいことは、
壁にぶつかったときのひと言なんです。
自分で必死に考えて、必死に調べてもわからない。
そゆときに先生方に相談すると、
黄金のひと言をいただけるのです。
そうやってなんとか勉強を続けて、
現在に至ります。
自分で全く調べても考えてもいない人には教えても無駄なことが多いので、
考えてから質問する人に教えたいです。 >>851
>最小二乗法が使い物になるか・・・・・・・・・
収集値の残差分布が正規分布を呈していたら
最小二乗法が使えると判断してよいだろ? 収集値が母集団から満遍なくサンプリングされていることが保証できるならokだが実用上はそんなこと仮定できないことの方が多いだろう
実用化しようとしたら机上で考慮しなかったパターンのデータが侵入してまともに機能しないというのはあるある レス数が900を超えています。1000を超えると表示できなくなるよ。