統計学Part17 [無断転載禁止]©2ch.net

**１３２人目の素数さん** · 2016/11/11(金) 02:34:18.63

前スレ

統計学Part16
http://rio2016.2ch.net/test/read.cgi/math/1410263098/

統計学なんでもスレッド14
http://uni.2ch.net/test/read.cgi/math/1326471964/

**１３２人目の素数さん** · 2020/08/11(火) 02:43:32.23

検定やら回帰分析は統計学でカバーしているが,
機械学習はクラスタリングや決定木とか、統計学の範囲を超えた部分もあるので,
そこらへんは機械学習使わんといかんと思います。

**１３２人目の素数さん** · 2020/08/11(火) 12:57:02.48

誰かわかる？
TOEICみたいな英米の選択式試験て素点をスケーリングしてスコアにすることがほとんどだけど
英医学部適性試験UCATの資料みると
昨年の試験のある部分
素点平均21.27標準偏差5.78最高39
最高のZ値=(39-21.27)/5.78=3.06...
300から900にスケーリングするってんだが、結果
平均557.5標準偏差74.21最高890
最高のZ値=(890-557.5)/74.21=4.48...???
英米のこの手の換算かなり見たけど
おおざっぱではあってもほぼ線形
Z値ほぼ変わらない
しかし
この結果
いったいどういうスケーリングしたんだろ？
まったく想像できない

**１３２人目の素数さん** · 2020/08/11(火) 18:24:30.58

>>953
少なくとも、線形でスケーリングするなんて今時どこもやっていない。
たまたま数字が合っただけかと。

**１３２人目の素数さん** · 2020/08/11(火) 19:26:42.80

偏差値は？
平均50
標準偏差10
線形スケーリング

**１３２人目の素数さん** · 2020/08/11(火) 19:31:57.65

https://collegedunia.com/exams/toeic/results
上と下はあやしいが
ほぼ線形
英米ってなんでこうすんだろう
SATとかIQテストもこういうの多い
変換後５とか10きざみ
ある程度以上だと変換後スコア同じ
ある程度以下だと変換後スコア同じ
ってのがよくある

**１３２人目の素数さん** · 2020/08/12(水) 17:14:06.82

選択式なのでたとえば４択40問ならわからなくても平均10
これより下はわかってないとして０にスケーリング
最高のZは高くなる

**１３２人目の素数さん** · 2020/08/12(水) 17:14:07.29

選択式なのでたとえば４択40問ならわからなくても平均10
これより下はわかってないとして０にスケーリング
最高のZは高くなる

**１３２人目の素数さん** · 2020/08/22(土) 00:20:07.51

そうなんだ

**１３２人目の素数さん** · 2020/08/24(月) 05:50:54.16

この問題分からないから誰か教えてくれ

不偏推定量と有効推定量についての問題

母平均μ(≠0)が分からない母集団分布から無作為抽出された標本X(1)、X(2)、X(3)、X(4)をとる。母分散は12である。

（１）母平均μの3つの推定量
T(1)=(X(1)+X(2)+X(3)X(4))/4
T(2)=(X(1)+2X(2)+2X(3)X(4))/6
T(3) =(X(1)+X(2)+X(3)X(4))/3
の中でどの推定量が不偏推定量であるか

（２）3つの推定量の中でどれが最も有効な推定量であるか

**１３２人目の素数さん** · 2020/08/24(月) 06:27:12.57

>>960
誤字ってないか
X(3)とX(4)の間に+がないとどれも不偏推定量にならん気が

**１３２人目の素数さん** · 2020/08/24(月) 06:38:02.95

>>961
誤字ってました。すいません

T(1)=(X(1)+X(2)+X(3)+X(4))/4
T(2)=(X(1)+2X(2)+2X(3)+X(4))/6
T(3) =(X(1)+X(2)+X(3)+X(4))/3

ですね

**１３２人目の素数さん** · 2020/08/24(月) 07:34:13.35

一括してT=aX(1)+bX(2)+cX(3)+dX(4)とおいて計算する
T(1)のとき、a=1/4,b=1/4,c=1/4,d=1/4
T(2)のとき、a=1/6,b=2/6,c=2/6,d=1/6
T(3)のとき、a=1/3,b=1/3,c=1/3,d=1/3
X(i)の期待値はE[X(i)]=μ
X(i)X(j)(i≠j)の期待値はE[X(i)X(j)]=E[X(i)]E[X(j)]=μ^2
X(i)^2の期待値はE[X(i)^2]=σ^2+μ^2=12+μ^2
である
(1)
Tがμの不偏推定量であるためにはTの期待値E[T]がμと一致しなければならない
E[T]=E[aX(1)+bX(2)+cX(3)+dX(4)]
=aE[X(1)]+bE[X(2)]+cE[X(3)]+dE[X(4)]
=aμ+bμ+cμ+dμ=(a+b+c+d)μ
よって(a+b+c+d)=1となっているT(1)とT(2)が不偏推定量である
(2)
Tが最も有効となるのはTが不偏かつその分散E[(T-E[T])^2]が最も小さくなるときである
E[(T-E[T])^2]=E[T^2]-E[T]^2
= E[(aX(1)+bX(2)+cX(3)+dX(4))^2]-((a+b+c+d)μ)^2
=a^2E[X(1)^2]+b^2E[X(2)^2]+c^2E[X(3)^2]+d^2E[X(4)^2]2abE[X(1)X(2)]+…+2cdE[X(3)X(4)]-((a+b+c+d)μ)^2
=(a^2+b^2+c^2+d^2)σ^2
=12(a^2+b^2+c^2+d^2)
となるので、結局a～dの平方和が最も小さいものが最も有効となる
この平方和はT(1)では1/4、T(2)では5/18となる
よって、T(1)がこの中で最も有効である

**１３２人目の素数さん** · 2020/08/24(月) 07:47:11.91

>>963
本当にありがとうございます。感謝しかないです。

**１３２人目の素数さん** · 2020/08/25(火) 02:12:44.78

カシオのWebアプリClassPad.net
https://youtu.be/HOESVQ4TzV0

手書きの図をきれいに出力してくれたり
ユーザー定義関数を使えるのがいいね

**１３２人目の素数さん** · 2020/08/25(火) 18:47:05.05

よいですね

**１３２人目の素数さん** · 2020/08/26(水) 10:35:32.62

統計は教養ですね

**１３２人目の素数さん** · 2020/08/26(水) 14:04:21.29

質問なのですが、最近GNIの統計を調べていたんですが、国連の統計で2018年の2年前までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、GNIの統計データが2017年になっていて、なるほど2年前のデータです。
なぜ1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか？
教えてください。

**１３２人目の素数さん** · 2020/08/26(水) 14:06:18.71

質問なのですが、最近GNIの統計を調べていたのですが、国連の統計で2年前の2018年までしか調べられません。
それを鑑みると、データブック2020は2019/12の発売で、載っているGNIの統計データが2017年になっていて、なるほど2年前のデータです。
1年のラグは分かりますが、なぜ2年のラグが生じるのでしょうか？
教えてください。
（日本語がおかしかったので修正しました）

**１３２人目の素数さん** · 2020/09/01(火) 19:28:27.43

2830
学コン・宿題ボイコット実行委員会@gakkon_boycott 9月1日
#拡散希望
#みんなで学コン・宿題をボイコットしよう
雑誌「大学への数学」の誌上で毎月開催されている学力コンテスト(学コン)と宿題は、添削が雑で採点ミスが多く、訂正をお願いしても応じてもらえない悪質なコンテストです。(私も7月号の宿題でその被害に遭いました。)このようなコンテストに参加するのは時間と努力の無駄であり、参加する価値はありません。そこで私は、これ以上の被害者を出さないようにするため、また、出版社に反省と改善を促すために、学コン・宿題のボイコットを呼び掛けることにしました。少しでも多くの方がこの活動にご賛同頂き、このツイートを拡散して頂ければ幸いです。
https://twitter.com/gakkon_boycott/status/1300459618326388737
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2020/09/11(金) 22:16:44.90

2.0 4.9
12.7 28.4
0.7 2.3
5.4 11.9
0.9 8.9
3.9 13.9
6.2 26.5
31.3 47.2
26.5 37.0
9.2 26.4
10.1 27.3
5.7 19.8
21.9 ？

左の列の数字の時に右の列の数字が出るとして、
？が30以上になる確率を求める方法が知りたいです。
エクセルのFORECAST関数で36.67くらいになりそうだということまでは分かったのですが。
(左が予備校生のうち試験で成績が悪かった人の割合%、
右が試験受験者全体のうち試験で成績が悪かった人の割合%です。
予備校生のデータから未発表の全体の割合が30%を超える確率が知りたいです。)

**１３２人目の素数さん** · 2020/09/16(水) 17:43:09.30

ExcelのMINVERSEって
内部でやってるのはLU分解でしょうか？

**１３２人目の素数さん** · 2020/10/06(火) 01:59:45.02

逆行列を返すからLU分解してんのかもな
途中の処理を知ってどうするの？

**１３２人目の素数さん** · 2020/10/12(月) 17:31:41.82

こちらの論文をもとにサンプルサイズを計算したいのですが、式5(ミュー＞0
のとき)を使って計算しても再現できないのです。この論文の式、間違っていると思われるのですが、正しい式わかりました(導出できる方いました)ら、お教え下さい。

https://www.degruyter.com/configurable/contentpage/journals$002fijb$002f12$002f2$002farticle-20150039.xml

**１３２人目の素数さん** · 2020/10/16(金) 10:31:52.88

統計学の初心者です。
セミコロンの意味について教えてください。
最尤推定量の説明の中に、
L(Θ;x) = f(x;Θ)という説明がでてきたのですが、
数学において（少なくともピュアマスでは）
セミコロンがこのような場所で使われたことを見たことがありません。
なので統計学特有の使い方と思いますが、
説明がありません。
（統計学者にとっては常識？？？）
どういう意味かわかるかたいましたら教えてください。

**１３２人目の素数さん** · 2020/10/16(金) 12:51:32.85

条件付き確率の事だと思うけど
|を使う書き方と同じじゃないかな？
違いがあるのかな？

**１３２人目の素数さん** · 2020/10/16(金) 16:02:36.64

統計では普通に使う
単純にセミコロンの後はパラメータを書いているだけ

**１３２人目の素数さん** · 2020/10/16(金) 16:45:41.67

米国大統領戦で多くがバイデン勝利を予想していますが
こういった予想は可能なのでしょうか？

統計学者のネイトシルバーも前回の大統領選の予測は外していますが
有権者数に対してサンプル数が少なすぎる等の根本的な問題が有るような気がします。

**１３２人目の素数さん** · 2020/10/16(金) 19:07:09.77

米国大統領選挙は州ごとに勝者全取りだから
大票田の州と少ない州もあるし
選挙制度によって予測方法も変わると思う

**１３２人目の素数さん** · 2020/10/17(土) 03:28:22.42

>>976
＞　|を使う書き方と同じじゃないかな？

条件付き確率ということですか？

>>977
＞　統計では普通に使う
＞　単純にセミコロンの後はパラメータを書いているだけ

それが全く理解できないんですけど、
セミコロンの前も後ろもパラメータですよね？
統計学の人は、カンマのかわりにセミコロンを使うということですか？

**１３２人目の素数さん** · 2020/10/17(土) 03:33:27.25

ぐぐって次のところを見つけました。

https://oshiete.goo.ne.jp/qa/144427.html

＞　f(x; a,b) = (x^a)e^(-x/b)
＞　なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
＞　の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
＞　で、カンマとセミコロンを使い分けちゃったりすることがあります。

と書いてありました。
なるほど、統計学ってのは
汚い学問だとよく聞きますが、
なるほど汚いｗ(笑)

意味不明の記述をして
難しいことをしているらしく
見せかけているということですね。

了解できましたｗ

**１３２人目の素数さん** · 2020/10/17(土) 10:09:05.16

数学的にはxもaもbも対等に見えるかも知れないがあくまで統計は現実世界を記述することが目的なので
どれが現実世界に直接現れるものでどれがハイパーパラメータかを区別するのは極めて重要

**１３２人目の素数さん** · 2020/10/17(土) 10:38:49.93

>>981
> ぐぐって次のところを見つけました。
>
> https://oshiete.goo.ne.jp/qa/144427.html
>
>
> ＞　f(x; a,b) = (x^a)e^(-x/b)
> ＞　なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> ＞　の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> ＞　で、カンマとセミコロンを使い分けちゃったりすることがあります。
>
> と書いてありました。
> なるほど、統計学ってのは
> 汚い学問だとよく聞きますが、
> なるほど汚いｗ(笑)
>
> 意味不明の記述をして
> 難しいことをしているらしく
> 見せかけているということですね。
>
> 了解できましたｗ

カンマとセミコロンの使い分けは単に英文法でしょ。

**１３２人目の素数さん** · 2020/10/17(土) 11:19:20.64

>>981
a, bの条件付きでの確率変数xの関数
みたいに解釈している

**１３２人目の素数さん** · 2020/10/22(木) 16:33:51.46

数理に基づいた学問でも工学や物理学を始めとして分野によってどこまで明確に精確に数学を用いるかは違うしな

**１３２人目の素数さん** · 2020/10/27(火) 14:09:43.11

統一しろや

**１３２人目の素数さん** · 2020/10/31(土) 08:10:39.76

>>981
別に数学でも、セミコロン使うだろ
君何年生？

**１３２人目の素数さん** · 2020/12/15(火) 12:28:09.26

初心者がここで質問してよろしいでしょうか？
ある業務の、1つの案件に対する作業時間をプロットしてヒストグラムを作成して、X軸を対数変換したら、綺麗な正規分布になりました。

これは対数正規分布だと思うのですが、それであれば作業時間合計(残業時間)の予想(信頼区間を出す)ことが可能だと考えました。

仮に、20件の案件がある場合には、① 標本平均とt値、標準偏差から、信頼区間を出します。
② 次に、信頼区間上限・下限をe乗してあげると、対数変換を戻した時の標本平均の信頼区間が出ます。
③ 最後に、信頼区間を20倍してあげると、作業時間合計の信頼区間が出ます。

以上の手順ですが、自分でやっていて正しい計算とは思えません。
試しに、実際のデータから20件の標本平均を、100回抽出して、ヒストグラムを作成することを何度かやってみましたが、信頼区間の上限を超えて、信頼区間の下限はほとんど超えないという結果になりました。

どなたか正しい計算をお教えいただくことはできないでしょうか。

よろしくお願いします。

**１３２人目の素数さん** · 2020/12/17(木) 04:00:55.26

>>988
確率変数を20倍したものと
20個の確率変数を足したものの分布は違うと思う

確率変数の和の分布の平均と分散は計算出来る
https://bellcurve.jp/statistics/course/18592.html

20の和の確率変数の平均と分散を使って信頼区間を求めたら良いと思う

**１３２人目の素数さん** · 2020/12/17(木) 04:03:38.53

>>988
別の方法はブートストラップ法で分布を求める方法
20のデータを100回取り出して分布を作ったのを
もっと多く1万回とかにして分布を作って
その平均や分散を計算して推定値とする

**１３２人目の素数さん** · 2020/12/18(金) 19:59:14.36

>>990
ありがとうございます
信頼区間の導出の仕方をもう少し勉強してからやってみようと思います

ブートストラップ法はExcelで手作業でやるには難しそうでした
今日、コルモゴロフ=スミルノフ検定をしたところ（計算の仕方が合っているかは分かりませんが）正規分布ではありませんでした。

また、E(ln(X))と、ln(E(X))は、異なる値になることも知りました。
E(ln(X))は、ln(相乗平均(X))と対応しているようです。

また整理できたら質問させていただくかもしれません

**１３２人目の素数さん** · 2020/12/19(土) 01:56:48.73

いいってことよ

**１３２人目の素数さん** · 2020/12/19(土) 06:29:38.32

>>991
作業時間データを行方向に書く
その範囲の行番号を乱数で発生させて
index関数でデータを取り出す
列方向に20個ランダムサンプリングしたデータの和を列に追加する
行方向にコピーして1万行同様の計算をする
1万行21列の和を計算した列からヒストグラム、平均、分散を計算する

**１３２人目の素数さん** · 2020/12/21(月) 23:31:32.80

頭いい人しかおらんのか…全くわからん

**１３２人目の素数さん** · 2021/01/11(月) 20:58:38.09

NHKの高校数学（ベーシック数学）を見ていたんだが、
事前確立と事後確率の説明が間違っているんだが、
三流役者のお笑いの部分ばかり多くて
大事な説明が間違っているとは、なさけないぞNHK！！！

**１３２人目の素数さん** · 2021/01/12(火) 21:31:29.28

NHKのその番組は、他の回もしばしばひどい

**１３２人目の素数さん** · 2021/01/18(月) 15:10:24.59

最近NHKの教育はそういうのは多い

**１３２人目の素数さん** · 2021/02/02(火) 23:14:25.03

残レスが僅かのときに恐縮ですが、検定について質問させてください

商品について金額基準の故障率を考えています
たとえば1千円の商品が5個、2千円の商品が5個あるとき、2千円のものが1個故障したときの故障率は、
個数で見たときは1/10=0.10ですが、金額で見たときは2/(1*5+2*5)=0.13になります

このとき、全ての商品の金額・個数・故障件数を基に計算した金額故障率と、
特定の層に販売した商品についての金額故障率とを比較して、
全体平均よりも故障率が大きいかどうか判断するために検定を行おうと考えています

率同士の比較という事で安直に、全体を母集団、特定層をサンプルとした母比率の検定を考えたのですが、
取る値が01でないためかうまくいきません
なにかよいアイデアはないでしょうか
よろしくお願いします

**１３２人目の素数さん** · 2021/02/03(水) 00:04:23.57

>>998
何年分かの1月毎とか1週毎の故障率を集めて分布、ヒストグラムを全体と特定層向けの両方作る

故障率を確率変数とした分布になると思うから
その2つの分布が同じ分布かどうかを適合度検定するとか

**１３２人目の素数さん** · 2021/02/04(木) 09:06:51.73

**1001** · Over 1000

このスレッドは１０００を超えました。
新しいスレッドを立ててください。
life time: 1546日 6時間 32分 33秒

**1002** · Over 1000

5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。

───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php