X



トップページ数学
1002コメント299KB
統計学Part17 [無断転載禁止]©2ch.net
レス数が1000を超えています。これ以上書き込みはできません。
0980132人目の素数さん
垢版 |
2020/10/17(土) 03:28:22.42ID:8rSS6k+v
>>976
> |を使う書き方と同じじゃないかな?

条件付き確率ということですか?

>>977
> 統計では普通に使う
> 単純にセミコロンの後はパラメータを書いているだけ

それが全く理解できないんですけど、
セミコロンの前も後ろもパラメータですよね?
統計学の人は、カンマのかわりにセミコロンを使うということですか?
0981132人目の素数さん
垢版 |
2020/10/17(土) 03:33:27.25ID:8rSS6k+v
ぐぐって次のところを見つけました。

https://oshiete.goo.ne.jp/qa/144427.html


> f(x; a,b) = (x^a)e^(-x/b)
> なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> で、カンマとセミコロンを使い分けちゃったりすることがあります。

と書いてありました。
なるほど、統計学ってのは
汚い学問だとよく聞きますが、
なるほど汚いw(笑)

意味不明の記述をして
難しいことをしているらしく
見せかけているということですね。

了解できましたw
0982132人目の素数さん
垢版 |
2020/10/17(土) 10:09:05.16ID:b9RsvhTl
数学的にはxもaもbも対等に見えるかも知れないがあくまで統計は現実世界を記述することが目的なので
どれが現実世界に直接現れるものでどれがハイパーパラメータかを区別するのは極めて重要
0983132人目の素数さん
垢版 |
2020/10/17(土) 10:38:49.93ID:/dkWfRN/
>>981
> ぐぐって次のところを見つけました。
>
> https://oshiete.goo.ne.jp/qa/144427.html
>
>
> > f(x; a,b) = (x^a)e^(-x/b)
> > なんて書いて、「fはx,a,bによって値が決まる関数だけど、a,bは係数として
> > の性格が強くて、a,bを固定してxの関数と見なすことが多い」てなニュアンス
> > で、カンマとセミコロンを使い分けちゃったりすることがあります。
>
> と書いてありました。
> なるほど、統計学ってのは
> 汚い学問だとよく聞きますが、
> なるほど汚いw(笑)
>
> 意味不明の記述をして
> 難しいことをしているらしく
> 見せかけているということですね。
>
> 了解できましたw

カンマとセミコロンの使い分けは単に英文法でしょ。
0985132人目の素数さん
垢版 |
2020/10/22(木) 16:33:51.46ID:Fw5i0Sy8
数理に基づいた学問でも工学や物理学を始めとして分野によってどこまで明確に精確に数学を用いるかは違うしな
0987132人目の素数さん
垢版 |
2020/10/31(土) 08:10:39.76ID:SRqhoG/2
>>981
別に数学でも、セミコロン使うだろ
君何年生?
0988132人目の素数さん
垢版 |
2020/12/15(火) 12:28:09.26ID:+saPgY7R
初心者がここで質問してよろしいでしょうか?
ある業務の、1つの案件に対する作業時間をプロットしてヒストグラムを作成して、X軸を対数変換したら、綺麗な正規分布になりました。

これは対数正規分布だと思うのですが、それであれば作業時間合計(残業時間)の予想(信頼区間を出す)ことが可能だと考えました。

仮に、20件の案件がある場合には、@ 標本平均とt値、標準偏差から、信頼区間を出します。
A 次に、信頼区間上限・下限をe乗してあげると、対数変換を戻した時の標本平均の信頼区間が出ます。
B 最後に、信頼区間を20倍してあげると、作業時間合計の信頼区間が出ます。

以上の手順ですが、自分でやっていて正しい計算とは思えません。
試しに、実際のデータから20件の標本平均を、100回抽出して、ヒストグラムを作成することを何度かやってみましたが、信頼区間の上限を超えて、信頼区間の下限はほとんど超えないという結果になりました。

どなたか正しい計算をお教えいただくことはできないでしょうか。

よろしくお願いします。
0990132人目の素数さん
垢版 |
2020/12/17(木) 04:03:38.53ID:IoIBMAoa
>>988
別の方法はブートストラップ法で分布を求める方法
20のデータを100回取り出して分布を作ったのを
もっと多く1万回とかにして分布を作って
その平均や分散を計算して推定値とする
0991132人目の素数さん
垢版 |
2020/12/18(金) 19:59:14.36ID:Psb7CDOJ
>>990
ありがとうございます
信頼区間の導出の仕方をもう少し勉強してからやってみようと思います

ブートストラップ法はExcelで手作業でやるには難しそうでした
今日、コルモゴロフ=スミルノフ検定をしたところ(計算の仕方が合っているかは分かりませんが)正規分布ではありませんでした。

また、E(ln(X))と、ln(E(X))は、異なる値になることも知りました。
E(ln(X))は、ln(相乗平均(X))と対応しているようです。

また整理できたら質問させていただくかもしれません
0993132人目の素数さん
垢版 |
2020/12/19(土) 06:29:38.32ID:68CAEKuu
>>991
作業時間データを行方向に書く
その範囲の行番号を乱数で発生させて
index関数でデータを取り出す
列方向に20個ランダムサンプリングしたデータの和を列に追加する
行方向にコピーして1万行同様の計算をする
1万行21列の和を計算した列からヒストグラム、平均、分散を計算する
0995132人目の素数さん
垢版 |
2021/01/11(月) 20:58:38.09ID:oZQgW4jU
NHKの高校数学(ベーシック数学)を見ていたんだが、
事前確立と事後確率の説明が間違っているんだが、
三流役者のお笑いの部分ばかり多くて
大事な説明が間違っているとは、なさけないぞNHK!!!
0996132人目の素数さん
垢版 |
2021/01/12(火) 21:31:29.28ID:CKZDqn7z
NHKのその番組は、他の回もしばしばひどい
0998132人目の素数さん
垢版 |
2021/02/02(火) 23:14:25.03ID:0uhvIcHZ
残レスが僅かのときに恐縮ですが、検定について質問させてください

商品について金額基準の故障率を考えています
たとえば1千円の商品が5個、2千円の商品が5個あるとき、2千円のものが1個故障したときの故障率は、
個数で見たときは1/10=0.10ですが、金額で見たときは2/(1*5+2*5)=0.13になります

このとき、全ての商品の金額・個数・故障件数を基に計算した金額故障率と、
特定の層に販売した商品についての金額故障率とを比較して、
全体平均よりも故障率が大きいかどうか判断するために検定を行おうと考えています

率同士の比較という事で安直に、全体を母集団、特定層をサンプルとした母比率の検定を考えたのですが、
取る値が01でないためかうまくいきません
なにかよいアイデアはないでしょうか
よろしくお願いします
0999132人目の素数さん
垢版 |
2021/02/03(水) 00:04:23.57ID:1LrlfGJ1
>>998
何年分かの1月毎とか1週毎の故障率を集めて分布、ヒストグラムを全体と特定層向けの両方作る

故障率を確率変数とした分布になると思うから
その2つの分布が同じ分布かどうかを適合度検定するとか
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 1546日 6時間 32分 33秒
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況