統計学Part17 [無断転載禁止]©2ch.net

レス数が1000を超えています。これ以上書き込みはできません。
0001132人目の素数さん2016/11/11(金) 02:34:18.63ID:4ofrRMLG

0952132人目の素数さん2020/08/11(火) 02:43:32.23ID:O8s6arxs
検定やら回帰分析は統計学でカバーしているが,
機械学習はクラスタリングや決定木とか、統計学の範囲を超えた部分もあるので,
そこらへんは機械学習使わんといかんと思います。

0953132人目の素数さん2020/08/11(火) 12:57:02.48ID:vIooQgP1
誰かわかる?
TOEICみたいな英米の選択式試験て素点をスケーリングしてスコアにすることがほとんどだけど
英医学部適性試験UCATの資料みると
昨年の試験のある部分
素点平均21.27標準偏差5.78最高39
最高のZ値=(39-21.27)/5.78=3.06...
300から900にスケーリングするってんだが、結果
平均557.5標準偏差74.21最高890
最高のZ値=(890-557.5)/74.21=4.48...???
英米のこの手の換算かなり見たけど
おおざっぱではあってもほぼ線形
Z値ほぼ変わらない
しかし
この結果
いったいどういうスケーリングしたんだろ?
まったく想像できない

0954132人目の素数さん2020/08/11(火) 18:24:30.58ID:FOYNfiZF
>>953
少なくとも、線形でスケーリングするなんて今時どこもやっていない。
たまたま数字が合っただけかと。

0955132人目の素数さん2020/08/11(火) 19:26:42.80ID:vIooQgP1
偏差値は?
平均50
標準偏差10
線形スケーリング

0956132人目の素数さん2020/08/11(火) 19:31:57.65ID:vIooQgP1
https://collegedunia.com/exams/toeic/results
上と下はあやしいが
ほぼ線形
英米ってなんでこうすんだろう
SATとかIQテストもこういうの多い
変換後5とか10きざみ
ある程度以上だと変換後スコア同じ
ある程度以下だと変換後スコア同じ
ってのがよくある

0957132人目の素数さん2020/08/12(水) 17:14:06.82ID:981ZzhAP
選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる

0958132人目の素数さん2020/08/12(水) 17:14:07.29ID:981ZzhAP
選択式なのでたとえば4択40問ならわからなくても平均10
これより下はわかってないとして0にスケーリング
最高のZは高くなる

0959132人目の素数さん2020/08/22(土) 00:20:07.51ID:PIye8TW8
そうなんだ

0960132人目の素数さん2020/08/24(月) 05:50:54.16ID:KEAGmUNo
この問題分からないから誰か教えてくれ


不偏推定量と有効推定量についての問題

母平均μ(≠0)が分からない母集団分布から無作為抽出された標本X(1)、X(2)、X(3)、X(4)をとる。母分散は12である。

(1)母平均μの3つの推定量
T(1)=(X(1)+X(2)+X(3)X(4))/4
T(2)=(X(1)+2X(2)+2X(3)X(4))/6
T(3) =(X(1)+X(2)+X(3)X(4))/3
の中でどの推定量が不偏推定量であるか

(2)3つの推定量の中でどれが最も有効な推定量であるか

0961132人目の素数さん2020/08/24(月) 06:27:12.57ID:ByIpMOCk
>>960
誤字ってないか
X(3)とX(4)の間に+がないとどれも不偏推定量にならん気が

0962132人目の素数さん2020/08/24(月) 06:38:02.95ID:KEAGmUNo
>>961
誤字ってました。すいません

T(1)=(X(1)+X(2)+X(3)+X(4))/4
T(2)=(X(1)+2X(2)+2X(3)+X(4))/6
T(3) =(X(1)+X(2)+X(3)+X(4))/3

ですね

0963132人目の素数さん2020/08/24(月) 07:34:13.35ID:ByIpMOCk
一括してT=aX(1)+bX(2)+cX(3)+dX(4)とおいて計算する
T(1)のとき、a=1/4,b=1/4,c=1/4,d=1/4
T(2)のとき、a=1/6,b=2/6,c=2/6,d=1/6
T(3)のとき、a=1/3,b=1/3,c=1/3,d=1/3
X(i)の期待値はE[X(i)]=μ
X(i)X(j)(i≠j)の期待値はE[X(i)X(j)]=E[X(i)]E[X(j)]=μ^2
X(i)^2の期待値はE[X(i)^2]=σ^2+μ^2=12+μ^2
である
(1)
Tがμの不偏推定量であるためにはTの期待値E[T]がμと一致しなければならない
E[T]=E[aX(1)+bX(2)+cX(3)+dX(4)]
=aE[X(1)]+bE[X(2)]+cE[X(3)]+dE[X(4)]
=aμ+bμ+cμ+dμ=(a+b+c+d)μ
よって(a+b+c+d)=1となっているT(1)とT(2)が不偏推定量である
(2)
Tが最も有効となるのはTが不偏かつその分散E[(T-E[T])^2]が最も小さくなるときである
E[(T-E[T])^2]=E[T^2]-E[T]^2
= E[(aX(1)+bX(2)+cX(3)+dX(4))^2]-((a+b+c+d)μ)^2
=a^2E[X(1)^2]+b^2E[X(2)^2]+c^2E[X(3)^2]+d^2E[X(4)^2]2abE[X(1)X(2)]+…+2cdE[X(3)X(4)]-((a+b+c+d)μ)^2
=(a^2+b^2+c^2+d^2)σ^2
=12(a^2+b^2+c^2+d^2)
となるので、結局a〜dの平方和が最も小さいものが最も有効となる
この平方和はT(1)では1/4、T(2)では5/18となる
よって、T(1)がこの中で最も有効である

0964132人目の素数さん2020/08/24(月) 07:47:11.91ID:KEAGmUNo
>>963
本当にありがとうございます。感謝しかないです。

0965132人目の素数さん2020/08/25(火) 02:12:44.78ID:N98fFl99
カシオのWebアプリClassPad.net
https://youtu.be/HOESVQ4TzV0

手書きの図をきれいに出力してくれたり
ユーザー定義関数を使えるのがいいね

0966132人目の素数さん2020/08/25(火) 18:47:05.05ID:LqiSh/C2
よいですね

0967132人目の素数さん2020/08/26(水) 10:35:32.62ID:8ae+cQFx
統計は教養ですね

0968132人目の素数さん2020/08/26(水) 14:04:21.29ID:Ocbo+ot2
質問なのですが、最近GNIの統計を調べていたんですが、国連の統計で2018年の2年前までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、GNIの統計データが2017年になっていて、なるほど2年前のデータです。
なぜ1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。

0969132人目の素数さん2020/08/26(水) 14:06:18.71ID:Ocbo+ot2
質問なのですが、最近GNIの統計を調べていたのですが、国連の統計で2年前の2018年までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、載っているGNIの統計データが2017年になっていて、なるほど2年前のデータです。
1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか?
教えてください。
(日本語がおかしかったので修正しました)

0970132人目の素数さん2020/09/01(火) 19:28:27.43ID:2qjbTlF5
2830
学コン・宿題ボイコット実行委員会@gakkon_boycott 9月1日
#拡散希望
#みんなで学コン・宿題をボイコットしよう
雑誌「大学への数学」の誌上で毎月開催されている学力コンテスト(学コン)と宿題は、添削が雑で採点ミスが多く、訂正をお願いしても応じてもらえない悪質なコンテストです。(私も7月号の宿題でその被害に遭いました。)このようなコンテストに参加するのは時間と努力の無駄であり、参加する価値はありません。そこで私は、これ以上の被害者を出さないようにするため、また、出版社に反省と改善を促すために、学コン・宿題のボイコットを呼び掛けることにしました。少しでも多くの方がこの活動にご賛同頂き、このツイートを拡散して頂ければ幸いです。
https://twitter.com/gakkon_boycott/status/1300459618326388737
https://twitter.com/5chan_nel (5ch newer account)

0971132人目の素数さん2020/09/11(金) 22:16:44.90ID:TPAXeVgK
2.0 4.9
12.7 28.4
0.7 2.3
5.4 11.9
0.9 8.9
3.9 13.9
6.2 26.5
31.3 47.2
26.5 37.0
9.2 26.4
10.1 27.3
5.7 19.8
21.9 ?

左の列の数字の時に右の列の数字が出るとして、
?が30以上になる確率を求める方法が知りたいです。
エクセルのFORECAST関数で36.67くらいになりそうだということまでは分かったのですが。
(左が予備校生のうち試験で成績が悪かった人の割合%、
右が試験受験者全体のうち試験で成績が悪かった人の割合%です。
予備校生のデータから未発表の全体の割合が30%を超える確率が知りたいです。)

0972132人目の素数さん2020/09/16(水) 17:43:09.30ID:FMyxTy7q
ExcelのMINVERSEって
内部でやってるのはLU分解でしょうか?

0973132人目の素数さん2020/10/06(火) 01:59:45.02ID:lsvBhfOa
逆行列を返すからLU分解してんのかもな
途中の処理を知ってどうするの?

0974132人目の素数さん2020/10/12(月) 17:31:41.82ID:8cn/otD4
こちらの論文をもとにサンプルサイズを計算したいのですが、式5(ミュー>0
のとき)を使って計算しても再現できないのです。この論文の式、間違っていると思われるのですが、正しい式わかりました(導出できる方いました)ら、お教え下さい。

https://www.degruyter.com/configurable/contentpage/journals$002fijb$002f12$002f2$002farticle-20150039.xml

0975132人目の素数さん2020/10/16(金) 10:31:52.88ID:qga+Q3cK
統計学の初心者です。
セミコロンの意味について教えてください。
最尤推定量の説明の中に、
L(Θ;x) = f(x;Θ)という説明がでてきたのですが、
数学において(少なくともピュアマスでは)
セミコロンがこのような場所で使われたことを見たことがありません。
なので統計学特有の使い方と思いますが、
説明がありません。
(統計学者にとっては常識???)
どういう意味かわかるかたいましたら教えてください。

0976132人目の素数さん2020/10/16(金) 12:51:32.85ID:kt7nYwS3
条件付き確率の事だと思うけど
|を使う書き方と同じじゃないかな?
違いがあるのかな?

0977132人目の素数さん2020/10/16(金) 16:02:36.64ID:ujcxTA5a
統計では普通に使う
単純にセミコロンの後はパラメータを書いているだけ

0978132人目の素数さん2020/10/16(金) 16:45:41.67ID:m+6utKvr
米国大統領戦で多くがバイデン勝利を予想していますが
こういった予想は可能なのでしょうか?

統計学者のネイトシルバーも前回の大統領選の予測は外していますが
有権者数に対してサンプル数が少なすぎる等の根本的な問題が有るような気がします。

0979132人目の素数さん2020/10/16(金) 19:07:09.77ID:kt7nYwS3
米国大統領選挙は州ごとに勝者全取りだから
大票田の州と少ない州もあるし
選挙制度によって予測方法も変わると思う

0980132人目の素数さん2020/10/17(土) 03:28:22.42ID:8rSS6k+v
>>976
> |を使う書き方と同じじゃないかな?

条件付き確率ということですか?

>>977
> 統計では普通に使う
> 単純にセミコロンの後はパラメータを書いているだけ

それが全く理解できないんですけど、
セミコロンの前も後ろもパラメータですよね?
統計学の人は、カンマのかわりにセミコロンを使うということですか?

0981132人目の素数さん2020/10/17(土) 03:33:27.25ID:8rSS6k+v
ぐぐって次のところを見つけました。

https://oshiete.goo.ne.jp/qa/144427.html


> f(x; a,b) = (x^a)e^(-x/b)
> なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> で、カンマとセミコロンを使い分けちゃったりすることがあります。

と書いてありました。
なるほど、統計学ってのは
汚い学問だとよく聞きますが、
なるほど汚いw(笑)

意味不明の記述をして
難しいことをしているらしく
見せかけているということですね。

了解できましたw

0982132人目の素数さん2020/10/17(土) 10:09:05.16ID:b9RsvhTl
数学的にはxもaもbも対等に見えるかも知れないがあくまで統計は現実世界を記述することが目的なので
どれが現実世界に直接現れるものでどれがハイパーパラメータかを区別するのは極めて重要

0983132人目の素数さん2020/10/17(土) 10:38:49.93ID:/dkWfRN/
>>981
> ぐぐって次のところを見つけました。
>
> https://oshiete.goo.ne.jp/qa/144427.html
>
>
> > f(x; a,b) = (x^a)e^(-x/b)
> > なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> > の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> > で、カンマとセミコロンを使い分けちゃったりすることがあります。
>
> と書いてありました。
> なるほど、統計学ってのは
> 汚い学問だとよく聞きますが、
> なるほど汚いw(笑)
>
> 意味不明の記述をして
> 難しいことをしているらしく
> 見せかけているということですね。
>
> 了解できましたw

カンマとセミコロンの使い分けは単に英文法でしょ。

0984132人目の素数さん2020/10/17(土) 11:19:20.64ID:wbkx6lR+
>>981
a, bの条件付きでの確率変数xの関数
みたいに解釈している

0985132人目の素数さん2020/10/22(木) 16:33:51.46ID:Fw5i0Sy8
数理に基づいた学問でも工学や物理学を始めとして分野によってどこまで明確に精確に数学を用いるかは違うしな

0986132人目の素数さん2020/10/27(火) 14:09:43.11ID:nDFw66Bi
統一しろや

0987132人目の素数さん2020/10/31(土) 08:10:39.76ID:SRqhoG/2
>>981
別に数学でも、セミコロン使うだろ
君何年生?

0988132人目の素数さん2020/12/15(火) 12:28:09.26ID:+saPgY7R
初心者がここで質問してよろしいでしょうか?
ある業務の、1つの案件に対する作業時間をプロットしてヒストグラムを作成して、X軸を対数変換したら、綺麗な正規分布になりました。

これは対数正規分布だと思うのですが、それであれば作業時間合計(残業時間)の予想(信頼区間を出す)ことが可能だと考えました。

仮に、20件の案件がある場合には、@ 標本平均とt値、標準偏差から、信頼区間を出します。
A 次に、信頼区間上限・下限をe乗してあげると、対数変換を戻した時の標本平均の信頼区間が出ます。
B 最後に、信頼区間を20倍してあげると、作業時間合計の信頼区間が出ます。

以上の手順ですが、自分でやっていて正しい計算とは思えません。
試しに、実際のデータから20件の標本平均を、100回抽出して、ヒストグラムを作成することを何度かやってみましたが、信頼区間の上限を超えて、信頼区間の下限はほとんど超えないという結果になりました。

どなたか正しい計算をお教えいただくことはできないでしょうか。

よろしくお願いします。

0989132人目の素数さん2020/12/17(木) 04:00:55.26ID:IoIBMAoa
>>988
確率変数を20倍したものと
20個の確率変数を足したものの分布は違うと思う

確率変数の和の分布の平均と分散は計算出来る
https://bellcurve.jp/statistics/course/18592.html

20の和の確率変数の平均と分散を使って信頼区間を求めたら良いと思う

0990132人目の素数さん2020/12/17(木) 04:03:38.53ID:IoIBMAoa
>>988
別の方法はブートストラップ法で分布を求める方法
20のデータを100回取り出して分布を作ったのを
もっと多く1万回とかにして分布を作って
その平均や分散を計算して推定値とする

0991132人目の素数さん2020/12/18(金) 19:59:14.36ID:Psb7CDOJ
>>990
ありがとうございます
信頼区間の導出の仕方をもう少し勉強してからやってみようと思います

ブートストラップ法はExcelで手作業でやるには難しそうでした
今日、コルモゴロフ=スミルノフ検定をしたところ(計算の仕方が合っているかは分かりませんが)正規分布ではありませんでした。

また、E(ln(X))と、ln(E(X))は、異なる値になることも知りました。
E(ln(X))は、ln(相乗平均(X))と対応しているようです。

また整理できたら質問させていただくかもしれません

0992132人目の素数さん2020/12/19(土) 01:56:48.73ID:Y5VNLcGt
いいってことよ

0993132人目の素数さん2020/12/19(土) 06:29:38.32ID:68CAEKuu
>>991
作業時間データを行方向に書く
その範囲の行番号を乱数で発生させて
index関数でデータを取り出す
列方向に20個ランダムサンプリングしたデータの和を列に追加する
行方向にコピーして1万行同様の計算をする
1万行21列の和を計算した列からヒストグラム、平均、分散を計算する

0994132人目の素数さん2020/12/21(月) 23:31:32.80ID:X15I1tLx
頭いい人しかおらんのか…全くわからん

0995132人目の素数さん2021/01/11(月) 20:58:38.09ID:oZQgW4jU
NHKの高校数学(ベーシック数学)を見ていたんだが、
事前確立と事後確率の説明が間違っているんだが、
三流役者のお笑いの部分ばかり多くて
大事な説明が間違っているとは、なさけないぞNHK!!!

0996132人目の素数さん2021/01/12(火) 21:31:29.28ID:CKZDqn7z
NHKのその番組は、他の回もしばしばひどい

0997132人目の素数さん2021/01/18(月) 15:10:24.59ID:vhuxYGIA
最近NHKの教育はそういうのは多い

0998132人目の素数さん2021/02/02(火) 23:14:25.03ID:0uhvIcHZ
残レスが僅かのときに恐縮ですが、検定について質問させてください

商品について金額基準の故障率を考えています
たとえば1千円の商品が5個、2千円の商品が5個あるとき、2千円のものが1個故障したときの故障率は、
個数で見たときは1/10=0.10ですが、金額で見たときは2/(1*5+2*5)=0.13になります

このとき、全ての商品の金額・個数・故障件数を基に計算した金額故障率と、
特定の層に販売した商品についての金額故障率とを比較して、
全体平均よりも故障率が大きいかどうか判断するために検定を行おうと考えています

率同士の比較という事で安直に、全体を母集団、特定層をサンプルとした母比率の検定を考えたのですが、
取る値が01でないためかうまくいきません
なにかよいアイデアはないでしょうか
よろしくお願いします

0999132人目の素数さん2021/02/03(水) 00:04:23.57ID:1LrlfGJ1
>>998
何年分かの1月毎とか1週毎の故障率を集めて分布、ヒストグラムを全体と特定層向けの両方作る

故障率を確率変数とした分布になると思うから
その2つの分布が同じ分布かどうかを適合度検定するとか

1000132人目の素数さん2021/02/04(木) 09:06:51.73ID:0AiLVZp3
次スレ

統計学Part18 [無断転載禁止]
https://rio2016.2ch.net/test/read.cgi/math/1612397167/

10011001Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1546日 6時間 32分 33秒

10021002Over 1000Thread
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php

レス数が1000を超えています。これ以上書き込みはできません。