数学統計に詳しい人が語るコロナウイルス

**１３２人目の素数さん** · 2020/02/29(土) 02:18:41.53

東大数学科卒の元官僚はこう分析してるが、お前らはどうなると思う？

http://www.zakzak.co.jp/soc/news/200220/dom2002200003-n2.html

中国国外感染者の中国国内との比率をみると、
１月２０日の数字公表以降は、０・８～２・６％で比較的安定している。
これは、新型肺炎の感染者のほとんどは中国国内、それも湖北省に集中しているからだ。
ちなみに中国国外での感染者数は、中国国内の１・１％だ（２月１６日現在）。
本コラムで紹介したが、現時点では、最終的な中国国内の感染者数は２０万人超と筆者は推計している。
となると、中国国外の感染者は数千人程度になるだろう。
中国国外のうち日本の比率は１割弱なので、日本の感染者数は数百人程度であろう。
その場合、死者も数人から１０人程度になるだろう。

こうした推計をすると、今の感染者は氷山の一角だと思われるが、今後の増加ペースはどうなるだろうか。
新型コロナウイルスの検査は簡単に行えるので、今後、日本での感染者数は増えていくだろう。
ある時点ではそれがネズミ算的に増えるかのように思える局面もあるだろうが、
筆者の推計が正しければ、現時点ではせいぜい数百人が一つのメドだ。

**１３２人目の素数さん** · 2020/05/14(木) 14:10:15.04

upper_boundの制限を外して

data {
// int<lower = K> upper_bound;
int upper_bound;

再生数の平均値を以下の出すブロックを加えて走らせてみた。
transformed parameters{
real mean_Rt;
real mean_Rt_adj;
mean_Rt = mean(Rt);
mean_Rt_adj = mean(Rt_adj);
}

その結果、
Inference for Stan model: fit_infection.
2 chains, each with iter=10000; warmup=2000; thin=5;
post-warmup draws per chain=1600, total post-warmup draws=3200.

mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat
mean_Rt 1.79 0 0.07 1.66 1.74 1.79 1.83 1.92 3122 1
mean_Rt_adj 1.79 0 0.07 1.66 1.74 1.79 1.84 1.93 3123 1

**１３２人目の素数さん** · 2020/05/14(木) 16:35:35.75

再生算数を０～１０人の一様分布にすると、収束しない。

> print(fit_u)
Inference for Stan model: fit_infection_u.
4 chains, each with iter=10000; warmup=5000; thin=5;
post-warmup draws per chain=1000, total post-warmup draws=4000.

mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat
mean_Rt 2.15 0.05 0.10 1.98 2.06 2.16 2.23 2.30 3 1.99
mean_Rt_adj 2.13 0.07 0.11 1.93 2.06 2.13 2.21 2.36 3 2.27
lp__ -789.19 7.18 14.43 -820.19 -797.69 -787.44 -779.42 -762.53 4 1.89

traceplotやchainの分布はこんな感じ、
https://i.imgur.com/z0RL1KW.png
https://i.imgur.com/VRrrsKw.png

**１３２人目の素数さん** · 2020/05/14(木) 17:00:26.74

>>501
否定できないけど実証もできないことになるのでは？
単純なモデルだと現実の問題を解決できない事もあるし

**１３２人目の素数さん** · 2020/05/14(木) 17:23:23.34

>>494
モデルで再生産数の事前分布は　平均2.5　標準偏差2.0の正規分布に設定されていたので
平均と標準偏差を変化させて、再生産数の事後分布を描出してみた。
かなり、事前分布の影響を受けるみたい。
https://i.imgur.com/OwqsFC1.png

**１３２人目の素数さん** · 2020/05/14(木) 17:26:03.64

どうも、こういう境地だなぁ。

断定的な結論は出せないということを数字で確認しているだけｗ

**１３２人目の素数さん** · 2020/05/14(木) 17:30:34.30

基本再生算数はウイルスの特徴で決まるもので
実行再生算数は更に環境や人の行動の影響で変化するものだと理解している
実行再生算数を減らすようにするには
どう行動したらいいか
かつ経済活動を出来るだけ下げずに

**１３２人目の素数さん** · 2020/05/14(木) 18:25:32.93

西浦モデル、一度感染日ごとの人数を最尤法で確定して、そこからベイズを回してRtを求めてるんだよなあ。
本来は、日々の感染者数も確率的に揺れがあるはず。だからRtの誤差幅は発表よりも多く見積もるべきかもしれん。

**１３２人目の素数さん** · 2020/05/14(木) 18:39:49.71

コードを解説してる人
http://mikuhatsune.hatenadiary.com/entry/2020/05/13/205824

**１３２人目の素数さん** · 2020/05/14(木) 19:09:54.44

再生産数の事前分布を色々かえて事後分布を出してみた。

https://i.imgur.com/CT2TRbg.png

**１３２人目の素数さん** · 2020/05/15(金) 08:46:23.06

>>504
切断分布だと収束しないみたいなので、
一様分布[0,10]に近そうな正規分布[5,3]
https://i.imgur.com/h8vMZUM.png
を事前分布にして走らせてみた。

https://i.imgur.com/O5s0Y8a.png

**１３２人目の素数さん** · 2020/05/15(金) 09:56:20.25

【新型コロナ】東京0.6％、東北6県0.4％陽性・・・抗体検査1000人実施 [影のたけし軍団★]
https://asahi.5ch.net/test/read.cgi/newsplus/1589502801/

複数の検査キットの性能評価と感染状況の確認が目的でしたが、東京都で献血した500人のうち3人、
東北6県で献血した500人のうち2人がいずれかの検査キットで陽性と判定されました。

満員電車など人との接触の多い東京とそうでない東北で陽性率に有意差はあるか？

**１３２人目の素数さん** · 2020/05/15(金) 12:23:12.21

>>513
検査キットの特異度が99.5%以上あることが検証されました。
ってだけの話じゃね？

まぁ、東北６県と東京が同じってことは、特異度はそれより
高くはないってことだろうね。

**１３２人目の素数さん** · 2020/05/15(金) 12:26:48.61

言い換えると、真の陽性率はわかりません、ってこと。

**１３２人目の素数さん** · 2020/05/15(金) 16:53:27.25

>>513
陽性率の確率分布を一様分布にすると事後分布は

https://i.imgur.com/YF6m869.png

なるけど、重なりの部分の面積が差がないことの度合いを示していると考えていいかな？

**１３２人目の素数さん** · 2020/05/15(金) 18:43:40.23

これは、味気がないな。

> Epi::twoby2(x)
2 by 2 table analysis:
------------------------------------------------------
Outcome : Col 1
Comparing : Row 1 vs. Row 2

Col 1 Col 2 P(Col 1) 95% conf. interval
Row 1 3 497 0.006 0.0019 0.0184
Row 2 2 498 0.004 0.0010 0.0158

95% conf. interval
Relative Risk: 1.5000 0.2517 8.9384
Sample Odds Ratio: 1.5030 0.2501 9.0339
Conditional MLE Odds Ratio: 1.5024 0.1713 18.0536
Probability difference: 0.0020 -0.0092 0.0139

Exact P-value: 1.0000
Asymptotic P-value: 0.6561
------------------------------------------------------

**１３２人目の素数さん** · 2020/05/16(土) 07:59:05.74

再生産数を計算するRのプログラムあったんだな

https://www.rdocumentation.org/packages/EpiEstim/versions/2.2-1/topics/estimate_R

**１３２人目の素数さん** · 2020/05/16(土) 08:16:33.25

>>509
後者の分析、RStan本の訳者が今やっているようだ。

https://twitter.com/hankagosa/status/1261430169283125248
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2020/05/16(土) 08:17:55.95

>>519

https://twitter.com/hankagosa/status/1261426113374416897
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2020/05/16(土) 08:36:22.07

>>520
アヒル本の著者だね。俺も読んだ。

**１３２人目の素数さん** · 2020/05/16(土) 12:36:46.54

4/2の時点で感染者数を６０００くらいと見積もってるね。＞アヒル本の人
実数の三倍程度。いい線かもしれない。

**１３２人目の素数さん** · 2020/05/16(土) 13:39:32.79

https://github.com/contactmodel/COVID19-Japan-Reff/blob/master/nishiura_Rt%E4%BC%9A%E8%AD%B0_12May2020.pdf

**１３２人目の素数さん** · 2020/05/16(土) 14:29:29.30

int<lower = K> upper_bound;

↓

int　upper_bound;

にしてもエラーがでる。

stan_dataで
upper_bound = 147 にすると動くけど、何をやってんのか自分でもよくわからん。

**１３２人目の素数さん** · 2020/05/16(土) 16:47:14.63

アヒル本ってなんですか？

**１３２人目の素数さん** · 2020/05/16(土) 17:55:00.91

>>525
名著として名高いStanの入門書

StanとRでベイズ統計モデリング (Wonderful R) (日本語) 単行本 ? 2016/10/25

表紙の色がアヒルのくちばしの色に似ているかららしい。

**１３２人目の素数さん** · 2020/05/16(土) 17:56:04.47

>>524
自己解決
select
↓
dplyr::select
でちゃんと動作した

**１３２人目の素数さん** · 2020/05/16(土) 19:16:41.12

>>526
thx

**１３２人目の素数さん** · 2020/05/16(土) 19:28:52.51

R に　EpiEstimというパッケージがあって、再生産数を算出する関数が搭載されている。
結局、infecterとinfecteeが発症するまでの期間serial intervalの分布をどう設定するかで結果が変わるみたいだなぁ。

Rのヘルプファイルを解読中。
Rのヘルプファイルは不親切設計で有名（理解できている人の備忘録みたいな性格だから）。

**１３２人目の素数さん** · 2020/05/16(土) 20:49:50.96

ここに居る人達って何者なの
学部の知識超えてるよね
統計でご飯食べてる人たち？

**１３２人目の素数さん** · 2020/05/16(土) 21:03:16.59

しかし、なんでも揃ってるなRって

**１３２人目の素数さん** · 2020/05/16(土) 22:57:43.46

>>529
Stanでの西浦モデルではinfecterとinfecteeが発症するまでの期間serial intervalの分布に

## Serial interval [Nishiura et al 2020 - only certain cases]
param1_SI = 2.305,
param2_SI = 5.452,

// serial interval
vector[K] gt = pweibull(param1_SI, param2_SI, K);

として使われているので、平均値などを出してみた。
乱数発生と理論値

> x=rweibull(1e5,param1_SI,param2_SI)
> mean(x) ; param2_SI*gamma(1+1/param1_SI)
[1] 4.829273
[1] 4.830129
> var(x) ; param2_SI^2*(gamma(1+2/param1_SI)-(gamma(1+1/param1_SI))^2)
[1] 4.907755
[1] 4.940682
> median(x) ; param2_SI*(log(2)^(1/param1_SI))
[1] 4.655777
[1] 4.6505
> density(x)$x[which.max(density(x)$y)] ; param2_SI*(1-1/param1_SI)^(1/param1_SI)
[1] 4.116837
[1] 4.259624
> optimise(function(x) dweibull(x,param1_SI,param2_SI),c(0,10),maximum = T)$max
[1] 4.259623

グラフにしてみた。
https://i.imgur.com/9vvCJuZ.png
正規分布で近似してもよさそうな感じだな。

**１３２人目の素数さん** · 2020/05/17(日) 00:04:44.72

>>532
ワイブル分布の平均 4.830129と標準偏差2.222765をそのまま正規分布のパラメータに使って、グラフを重ねてみる。
https://i.imgur.com/TnzGwWx.png

ワイブル分布で発生させた乱数をワイブルでフィットさせてAICを出してみた
Goodness-of-fit criteria
1-mle-weibull
Akaike's Information Criterion 438377.2
Bayesian Information Criterion 438396.2

ワイブル分布で発生させた乱数を正規分布でフィットさせてAICを出してみた。
Goodness-of-fit criteria
1-mle-norm
Akaike's Information Criterion 444280.9
Bayesian Information Criterion 444299.9

まぁ、許容範囲。

これで、
library(EpiEstim)の例にある、　mean_si std_siが求まった

## Estimate R with assumptions on serial interval
res <- estimate_R(incid, method = "parametric_si",
config = make_config(list(
mean_si = 4.83, std_si = 2.22)))

domestic ,　imported, unobserved の分類がよくわからんが、全部足してグラフを描いてみた。

https://i.imgur.com/rKBeWgq.png

**１３２人目の素数さん** · 2020/05/17(日) 00:18:59.61

別の論文だと対数正規分布がフィットすると西浦氏は記載している。

serila interval : infector と infecteeの発症間隔

https://www.ijidonline.com/article/S1201-9712(20)30119-3/pdf
その分布が平均4.7　標準偏差2.9の対数正規分布が最もフィットするのはいいんだが、
その分布を与えるパラメータの記述がほしい。
最小二乗法で求めてみた。　
$par
[1] 1.3862713 0.5679836

ワイブル分布にも似るとか書いてあるがパラメータ記載なし
この対数正規分布をワイブル分布で近似してみる。
Fitting of the distribution ' weibull ' by maximum likelihood
Parameters:
estimate Std. Error
shape 1.757488 0.00392072
scale 5.316986 0.01014664

https://i.imgur.com/Uzg6u84.png
点線が2項分布で実線がワイブル分布

**１３２人目の素数さん** · 2020/05/17(日) 07:09:05.66

“頭脳王”東大生・河野玄斗

基本的な数学でコロナウイルス検査を全員にしても意味がないことを証明してみた

https://www.youtube.com/watch?v=jMIScCb04qs

**１３２人目の素数さん** · 2020/05/17(日) 07:28:25.69

実効再生産数を感染者数の推移から推定する数理的原理をキチンと解説した本、または論文誰か知りませんか？
勉強してみたい。

**１３２人目の素数さん** · 2020/05/17(日) 07:33:35.81

>>536
RのEpiEstimの著書の論文なんかどうでしょう？

A New Framework and Software to Estimate Time-Varying Reproduction Numbers During Epidemics

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3816335/

**１３２人目の素数さん** · 2020/05/17(日) 07:55:41.34

Rで引数なしで関数を実行させようとすると、ソースが表示される。
その関数が呼び出した関数のソースを次々に辿っていけば内部計算がわかるので、そこから原理がつかめるかも（俺には無理なのでしないけど）

内部関数のときは:が3つとか、パッケージ名:::関数、パッケージ名:::関数.default（例、ｔ検定のソース表示は　stats:::t.test.default　）で表示される。

EpiEstim::estimate_R
EpiEstim:::process_si_data
EpiEstim:::process_config_si_from_data
coarseDataTools::dic.fit.mcmc

**１３２人目の素数さん** · 2020/05/17(日) 08:10:41.41

>>529
感染者に０が続くと再生産数の信頼区間幅がどんどん広くなってくる。
まあ、疫病用のソフトウェアと理解しておこう。

https://i.imgur.com/QbwNydN.png

infected=c(0,1,1,1,0,0,0,2,0,3,2,3,1,1,1,1,3,0,1,0,0,0,0,0,1,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
## Estimate R with assumptions on serial interval
res <- estimate_R(infected, method = "parametric_si",
config = make_config(list(
mean_si = 4.83, std_si = 2.22)))

**１３２人目の素数さん** · 2020/05/17(日) 09:00:46.50

>>539
ちゃんと、記載されていた　：P

the precision of these estimates
depends directly on the number of incident cases in the time
window [t ? τ + 1; t]. This allows us to control the precision
by adjusting the window size.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3816335/pdf/kwt133.pdf

**１３２人目の素数さん** · 2020/05/17(日) 09:34:29.22

基本コンセプトはこれだろうな。
Therefore, in practice, we apply our method to data consisting of daily counts of onset of symptoms where the infectivity profile ws is approximated by the distribution of the serial interval.

公表された感染者数で計算するために発症から診断/公表までの時間も考慮した点が西浦モデルの優れた点ではないかと感じている。

**１３２人目の素数さん** · 2020/05/17(日) 12:07:27.73

>>537
ありがとう。
読んでみます。
でも"a new frame work"っていうならもっと大本のこの道の研究者なら「Rtの推定はコレ」みたいな標準的なものがあるんですかね？
どなたかご存知ないですか？

**１３２人目の素数さん** · 2020/05/17(日) 12:11:01.42

>>540
おぉ、こっちがRで採用されてる推定法なんですね。
読んでみます。

**１３２人目の素数さん** · 2020/05/17(日) 12:16:27.82

と思ったら>>537と>>540は同じかorz

**１３２人目の素数さん** · 2020/05/17(日) 15:31:13.14

結局、これが核心部分

Rt =I t (number of new infections generated at time t) / Σ[s=1,t] I t-s * Ws ( = total infectiousness of infected individuals at time t)

Ws : an infectivity profile given by a probability distribution ws, dependent on time since infection of the case, s, but independent of calendar time, t.

E[I t] = Rt Σ[s=1,t] I t-s * Ws

Σ[s=1,t] I t-s * Wsの部分が畳み込み積分で

Ws ∝　serial interval　　ガンマ分布で近似するのが定石らしい。

**１３２人目の素数さん** · 2020/05/17(日) 20:41:31.22

>>545
それはそのモデルでのRtの定義ですね、
ではなく例えば4/1～4/30までのデータx1,x2,‥,x30までが与えられた時、各日付のCIをどう定義してるのかがわからないんです。
統計量Xが一つあってその観測値xが一つある時そのレベルλのレベルλのCIがIであるとは

P(X<x|θ)>(1-λ)/2 & P(X>x|θ)>(1-λ)/2 ⇔ θ∈I

(θがIに入らないときはxが小さすぎてそんな観測値が得られる確率が(1-λ)/2以下になるか、xが大きすぎてそんな事が起こる確率が(1-λ)/2以下になってほとんど起こり得ない)

となりますが、統計量が複数になるとこの大きすぎて、小さすぎてと二つのハズレ領域を考えるだけでは済まなくなります。
ハズレ領域の設定の仕方は色々考えられるけど統計の問題なので自分で俺様流の領域を設定するわけにもいかないのでpublicにはどう処理してるのだろうと。
しかし疫学の教科書わざわざ買うほどには興味もないしw
知ってる人いたら教えてもらおうと。
まだ論文読んでないので書いてあるかもですけど。

**１３２人目の素数さん** · 2020/05/18(月) 05:56:32.65

>>546
>523氏が挙げてくれた
実効再生産数とその周辺　に　記述があったが、publicと呼べるのかどうかは門外漢なので知らない。

https://github.com/contactmodel/COVID19-Japan-Reff/blob/master/nishiura_Rt%E4%BC%9A%E8%AD%B0_12May2020.pdf

こんな記述があった
>>
Several non mathematical definitions.
A:
あるカレンダー時刻 t で起こっている 2 次感染数の 1 人あたり平均値
B:
あるカレンダー時刻 t で感染した 1 人がその後の経過で生み出す 2 次感染者数の平均値
C:
罹患率有病割合比などから推定される 1 人あたりの 2 次感染者数（ actual reproduction number とか）
D:
予防接種など流行対策下での 1 人当たりが生み出す 2次感染者数
<<
と定義は一義的ではないみたいだが、

西浦モデルでのR1(t) R2(t)は　>540の論文では　Rt　Rct　（ｃはcohortの頭文字)として言及されているから、まあ、理論疫学者の間ではcommonな定義なんだろうと思う。

**１３２人目の素数さん** · 2020/05/18(月) 06:16:59.93

>>546
>4/1～4/30までのデータx1,x2,‥,x30
x1,...,x30が感染者数なら非負整数で与えられるから、CIを考える必要があるかな？
集計ミスで19人が117人とかあったらしいから、信頼区間を考える必要があるのかもしれないとは思うけど。

確かに、発症日に関してはファジーな部分があるとは思う。
いつから熱がありましたか？味がわからなくなりましたか？と問われても１～３日位の幅はでるだろう。

RのEpiEstim::estimate_Rをヘルプファイルの実例を使って走らせてみた。
serial intervalの分布をデータから推定させるのに
　infecterの発症日の下限・上限
　infecteeの発症日の下限・上限
を設定する項目が(EL,ER,SL,SR)があった。
このデータに合致する分布関数(ガンマ、ワイブル、対数正規分布が指定可能）のパラメータを算出して計算させているみたい。

西浦モデルではワイブル分布で固定。
潜伏期間にも変動があるから、誰がinfecterで誰がinfecteeかを決定するのも難しいだろうとは思う。
後から発症した人間が感染源というのもありうるし。

**１３２人目の素数さん** · 2020/05/18(月) 11:15:46.73

>>548
統計データから真の罹患日を推定する方法もあるようですが
そこではないんです。
しりたいのはCIのハズレ領域の設定です。
1変数の場合、母数θに対して分布Fθが定まっている場合、レベルλに対して[0,1]の部分集合J(λ)が決まって、観測値xに対する信頼区間I(λ,x)は

θ∈I(λ,x)⇔Fθ(x)∈J(λ)

を満たす区間として定まります。
上の方でI(λ)が上下対称に取らないのはなぜという話題がありましたが、コレがその理由です。
J(λ)の方は上下の(1-λ)/2を削って((1-λ)/2,1-(1-λ)/2)をとり、上下対称に“ハズレ領域”をとりますが、それをもとに計算されるI(λ,x)は対称とはならないからです。
問題は観測値が2変数以上ある場合“ハズレ領域”をどう設定するものかわからないのです。
私が大学で勉強した時はそこまでやらなかったので。
普通に考えればI^3の中の立方体の体積がλになるように真ん中にとるんだろうなぁと思うんですけど。

**１３２人目の素数さん** · 2020/05/18(月) 13:21:08.42

職場でも最初に発症した人が感染源のように扱われるけど
潜伏期間の分布を考えたら断定はできない。

COVID19の潜伏期間の論文
https://www.nejm.org/doi/full/10.1056/NEJMoa2001316
から、

潜伏期間は対数正規分布で近似できてそのパラメータは
#--- incubation period ---
# from Li et al NEJM 2020
# lognormal mean = 5.2
ln.par1 = 1.434065
ln.par2 = 0.6612
という。

ある人物Xが新型コロナ肺炎に罹患したとする。
行動調査によって発症前にキャバクラに行っており接客したキャバ嬢がX発症の２日後に発症していたことがわかった。
Xがキャバ嬢から移された確率を求めよ。

**１３２人目の素数さん** · 2020/05/18(月) 13:25:20.46

>>549
Highest Density Probability Intervalを求めればいいんじゃないの？

**１３２人目の素数さん** · 2020/05/18(月) 14:04:29.41

>>551
何ですかそれは？

**１３２人目の素数さん** · 2020/05/18(月) 14:08:09.39

>>550
正確にはキャバ嬢がXより先に感染していた確率だな。

**１３２人目の素数さん** · 2020/05/18(月) 14:08:59.46

>>552
確率分布が対称じゃないときの信頼区間

**１３２人目の素数さん** · 2020/05/18(月) 14:13:34.68

>>554
こんな感じ。https://i.imgur.com/C8jOPlx.jpg

**１３２人目の素数さん** · 2020/05/18(月) 14:26:48.33

>>554
ただ、それだとそもそもモードに近いとこをやってます。
信頼区間は密度関数を横に切るのではなく両裾を縦に切ってハズレ部分が1-λになるようにするので少しイメージが違うしきがします。
モードなのかメジアンなのかの違いです。
いずれにせよ、こうやればいいという拡張のための俺様ルールを設定するのはいくらでもできますが、統計の話なのでそんな俺様ルールについて語っても意味ありません。

**１３２人目の素数さん** · 2020/05/18(月) 15:34:14.71

>>556
単峰性の場合、信頼区間幅が最小になるのがHighest Density Interval

>550なら
HDI
> HDInterval::hdi(x)[1:2]
lower upper
0.5822687 12.5635525

分位数
> quantile(x,c(0.025,0.975))
2.5% 97.5%
1.148711 15.334698

HDIの方が幅が小さい。

**１３２人目の素数さん** · 2020/05/18(月) 15:36:39.83

>>557
？？？

**１３２人目の素数さん** · 2020/05/18(月) 15:44:16.03

ああ、わかった。HDIやCIの意味を誤解してませんか？
HDIでググって調べたらコレ↓ですよ。

https://rindalog.blogspot.com/2015/10/hdi-highest-density-interval.html?m=1

**１３２人目の素数さん** · 2020/05/18(月) 19:32:28.41

>>179
単にお勉強ができただけ。
頭が良くないのさ。
自分の頭で物事を考えるってことができない。

**１３２人目の素数さん** · 2020/05/18(月) 19:34:11.31

>>181
その通り。
具体的には理学部の数学科と物理学科。
工学部にも時々もの凄いのがいる。

**１３２人目の素数さん** · 2020/05/18(月) 19:49:54.23

>>559
いや、Rのパッケージ　HDIntervalで計算しているから誤解していないと思う。
内部の処理コードをみると信頼区間幅が最小になるのを最尤法で出しているね。

**１３２人目の素数さん** · 2020/05/18(月) 19:51:25.60

>>561
ほんとうに頭のいい人は医学部でなく理学部か工学部に行く。
ほんとうに頭の悪い奴は底辺シリツ医大に行く。
シリツ医大には手先の器用な人もいるが、頭が器用な奴をみたことがない。

**１３２人目の素数さん** · 2020/05/18(月) 20:05:42.34

>>550(自答)
#
# 人物ｄが発症してdelay日後に濃厚接触したキャバ嬢ｃが発症
# ｃの感染がｄより先行していた確率は？
rm(list=ls())
stancode=
"
data{
real onset_delay;
real ln_par1;
real ln_par2;
}
parameters{
real <lower=0> d_incubation;
real <lower=0> c_incubation;
}
transformed parameters{
real infection_delay = onset_delay + d_incubation - c_incubation;
}
model{
d_incubation ~ lognormal(ln_par1,ln_par2);
c_incubation ~ lognormal(ln_par1,ln_par2);
}

"
model=stan_model(model_code = stancode)
#--- incubation period ---
# from Li et al NEJM 2020
# lognormal mean = 5.2
ln_par1 = 1.434065
ln_par2 = 0.6612
fn.stan <- function(delay, print=FALSE, ...){
dataList=list(onset_delay=delay,ln_par1=ln_par1,ln_par2=ln_par2)
fit=sampling(model,data=dataList, ...)
ms=rstan::extract(fit)
if(print) BEST::plotPost(ms$infection_delay,compVal=0,xlab='infection delay')
mean(ms$infection_delay < 0)
}
fn.stan(2,print=T,iter=5000,warmup=1000)
onset_delays=0:20
y=sapply(onset_delays,fn.stan)
plot(onset_delays,y, ylab='Pr[ Infected Later ])')

２日後の発症だと
> fn.stan(2,print=T,iter=5000,warmup=1000)
[1] 0.2945
３割くらいはあとから発症した方が先に感染していた可能性がある。

**１３２人目の素数さん** · 2020/05/18(月) 20:48:18.33

Temporal dynamics in viral shedding and transmissibility of COVID-19
https://www.nature.com/articles/s41591-020-0869-5
のRのコード
https://github.com/ehylau/COVID-19/blob/master/Fig1c_Rscript.R
と
西浦モデルのコード
https://nbviewer.jupyter.org/github/contactmodel/COVID19-Japan-Reff/blob/master/scripts/C.%20Calculating%20the%20Rt%20in%20Stan.ipynb

から発症間時間(serial interval)の分布を重ねてみた。

https://i.imgur.com/vrnra5F.png

**１３２人目の素数さん** · 2020/05/18(月) 21:01:41.77

>>563
一方的で申し訳ないが私立大医学部は金持ちのバカ息子が行くイメージ。

**１３２人目の素数さん** · 2020/05/18(月) 21:02:26.04

西浦さんはさんざん適当なことを言って世論を煽ってどう責任を取るのかな？

**１３２人目の素数さん** · 2020/05/18(月) 21:18:52.42

>>567
少なくとも西浦氏は算出コードを公開しているだけでも好感が持てる。

**１３２人目の素数さん** · 2020/05/18(月) 21:20:19.41

>>566
それは正しい認識。

凄いのはド底辺シリツ医の馬鹿さ加減だよ。
裏口バカと呼ばれるのがよくわかる。

http://imagizer.imageshack.com/img923/2715/RosCsf.jpg
http://i.imgur.com/XBFnEcU.jpg

馬鹿だという自覚がないので救いようがない。

ICU Bookの最終章の冒頭で著者がこう書いている。

In clinical matters, ignorance can be dangerous,
but ignorance of ignorance can be fatal.

「叱られないと勉強しない」の対偶を「勉強すると叱られる」
と答えるのはignorance can be dangerousの範疇だが、

ドヤ顔で
>対偶をとれば意味が逆になる例文。
というのは、まさに
ignorance of ignorance can be fatal.

**１３２人目の素数さん** · 2020/05/21(木) 11:39:47.57

西浦モデルの再生算数の事前分布を変化させてグラフにしてみた。

西浦モデルでのデフォルト
https://i.imgur.com/G1wVYgI.png

事前分布を一様分布(0,10)近似の正規分布で近似させた場合
https://i.imgur.com/doS5LEu.png

再生算数の平均０、標準偏差１の場合
https://i.imgur.com/doS5LEu.png

印象としては、西浦モデルは頑強性robustnessのあるモデルとは言えない。
事前分布に大きく影響されるモデルだと思う。

**１３２人目の素数さん** · 2020/05/21(木) 11:42:59.41

（url訂正)

西浦モデルの再生算数の事前分布を変化させてグラフにしてみた。

西浦モデルでのデフォルト
https://i.imgur.com/G1wVYgI.png

事前分布を一様分布(0,10)近似の正規分布で近似させた場合
https://i.imgur.com/doS5LEu.png

再生算数の平均０、標準偏差１の場合
https://i.imgur.com/0J1RpDa.png

印象としては、西浦モデルは頑強性robustnessのあるモデルとは言えない。
事前分布に大きく影響されるモデルだと思う。

**１３２人目の素数さん** · 2020/05/21(木) 11:59:00.68

>>571
誤解されるのは不本意なの追記するけど、ソースを公開する西浦先生の姿勢は高く評価している。
隠蔽・改竄・破棄する安倍とは大違い。

**１３２人目の素数さん** · 2020/05/21(木) 12:04:41.13

だからベイズ推定が統計学の世界でメジャーにならんのだろ？
論理的根拠のない“事前分布”なるもので答えがひょいひょい変わるのでは社会的な影響が大きい防疫政策の決定には使えない。
普通の統計学の検定なら理論的に根拠のある数字、推論しか使わない。
計算は大変だけど。

**１３２人目の素数さん** · 2020/05/21(木) 12:36:51.92

>>573
成人の平均身長を１～２ｍに事前分布にするのは納得できるし、
生まれる子供が男子である確率は０．４～０．６というのも俺は納得できる。
PCRの感度が３０～７０％として計算するのも納得できるからその設定で階層ベイズモデルを組むことには異論はないな。

**１３２人目の素数さん** · 2020/05/21(木) 12:43:16.10

こういう問題

あるタクシー会社のタクシーには１から通し番号がふられている。
タクシー会社の規模から保有タクシー台数は１００台以下とわかっている（弱情報事前分布）。
この会社のタクシーを５台みかけた。最大の番号が６０であった。
この会社の保有するタクシー台数の期待値と９５％信用区間(信頼区間)を求めよ。

をベイズで解くときは、
６０台～１００台である確率を一様分布として処理しているから
これに異論があるのは理解できるけど

日本人成人の平均身長を推定に１～２ｍを事前分布に想定するのには俺は異論はないね。
一様分布ではなくてガンマ分布にすべきだというのは議論になるとは思うけど。

**１３２人目の素数さん** · 2020/05/21(木) 13:00:03.35

>>573
ベイズ信奉者から、ベイズ論者を採用したGAFA(Google等）が成長したと教わった。
迷惑メールのフィルタリングとか雑音の除去とか日常的に役立っているというぞ。

**１３２人目の素数さん** · 2020/05/21(木) 13:04:49.04

>普通の統計学の検定なら理論的に根拠のある数字、推論しか使わない。
>計算は大変だけど。

普通の統計学こそ、無理やり既知の分布に当てはめようとするんだよね。
MCMCの方の方が応用が広い。

**１３２人目の素数さん** · 2020/05/21(木) 13:12:59.01

プロ野球選手の打率は？と問われたら選手次第で異なる、と誰でもわかるのに
確定不能の平均値が存在していると妄想して計算を始めるのが古典主義統計。
つまり、値は存在するけど確定できないという信仰の世界。

昨今の新コロナでいえば、PCRの検査の感度・特異度が一定と考えるのが古典主義。
プロ野球選手の打率と同じでそんなのは場面場面で変化するよ、と考えて計算するのがベイズ。

**１３２人目の素数さん** · 2020/05/21(木) 13:16:04.83

>>576
もちろん推定の有力な方法であるにせよ、元の仮定に何の根拠もないわけだからそれから得られる結論には論理的根拠はない、ないが、数学的に伝統的な手法で与えるた結論と大差ない事がなんらかの保証があるなら、有力になる。
それが論理的に“大差ない結論が得られる”事が示されてるなら単なる計算手法に過ぎないし、示されていなくても経験的に“よい結果ぎ得られる事が多い”ならそのジャンルではそこそこ信頼するに値するんだろう。
しかしなんらかのモデルでは答えが一意に定まらず、事前分布の選び方により大きく答えが違ってしまう場合があっても不思議はないし、そのような場合ではやはり、“ではどう計算するのが正しいかのか”の論証を待たなければ信頼するのは危険になる。

**１３２人目の素数さん** · 2020/05/21(木) 13:19:12.39

古典的（頻度主義）統計信者って、この計算はどうやるんだ？
俺は乱数発生させて計算できるけど、
そればベイズなのかどうかは知らんが、条件付き確率なのでベイズなんだろうな。
（開業医スレに投稿したけど、回答できるやつは０）

COVID19の潜伏期間の論文

https://www.nejm.org/doi/full/10.1056/NEJMoa2001316

結論は
#--- incubation period ---
# from Li et al NEJM 2020
# lognormal mean = 5.2
ln.par1 = 1.434065
ln.par2 = 0.6612

ある開業医が新型コロナ肺炎に罹患したとする。
行動調査によって発症前にキャバクラに行っており接客したキャバ嬢が開業医発症の２日後に発症していたことがわかった。
キャバ嬢は開業医から移されたと主張して１億円の賠償を求めている。
潜伏期間には幅がありキャバ嬢から移された可能性もあると主張してその確率を計算して賠償金を値切りたい。
いくら値切れるか計算せよ。

**１３２人目の素数さん** · 2020/05/21(木) 13:31:57.01

>>580
潜伏期間なんて数学的に決定できるハズないやん？
数学がやるのは例えば感染日と実際発症した日が確定できるような症例がある程度以上あって、それが従うと病理学的に信頼できる分布の族があって、その中からデータに最も“沿う”分布を選び出すことしかできない。
それは何件も実際の患者のウイルス量の統計をとったり、ウイルスが体内でどのように増えていくのかの病理学的研究データがあって初めて可能になる。

**１３２人目の素数さん** · 2020/05/21(木) 17:20:41.64

>>571
よく理解できていないので質問ですけど
事前分布とは具体的に何の分布ですか？
基本再生算数の推定値の分布？
実行再生算数の推定値の分布？

実行再生算数の事前分布は基本再生算数の分布としたらいいのかなと思いますけど

**１３２人目の素数さん** · 2020/05/21(木) 17:26:10.57

まぁこのスレは用語がめちゃくちゃだからなぁ。

**１３２人目の素数さん** · 2020/05/21(木) 17:58:56.26

モデル前提での計算できないアホ発見！

**１３２人目の素数さん** · 2020/05/21(木) 18:22:49.17

潜伏期は病原体と罹患者のパワーバランスで決まるだろうから
定数でなくてばらつきはあると思うね。

**１３２人目の素数さん** · 2020/05/21(木) 18:25:39.76

>>572
>隠蔽・改竄・破棄する安倍とは大違い。
安倍ちゃんがやってるわけじゃないだろ。
指示もされてねーのに、官僚がやってんだよ。

そんなこともわからんようでは、あんたの解析もあてにならんな。

**１３２人目の素数さん** · 2020/05/21(木) 18:26:26.25

>>582
西浦のソースだと　Rt　~ normal(2.4 ,2)

**１３２人目の素数さん** · 2020/05/21(木) 18:28:21.45

>>586
安倍じゃなければ官僚もまともだったんじゃねえの？
安倍らの集団に組み込まれると東大卒も馬鹿になるようだぞ。

**１３２人目の素数さん** · 2020/05/21(木) 18:31:24.22

>>581
その通り。
結局、そういう本質的なデータや理論抜きでは、ベイズ推定やったって
限界があるし、結果の説得力もない。
まあ、適用限界ってものがあるのは何やっても同じだけど。

**１３２人目の素数さん** · 2020/05/21(木) 18:32:55.80

>>588
>安倍らの集団に組み込まれると東大卒も馬鹿になるようだぞ。

統計的に確認してみれば？ベイズ推定でもっともらしい結果が出るんじゃね？ｗ

**１３２人目の素数さん** · 2020/05/21(木) 18:33:59.08

>>590
今は2/2かなｗ
加藤と西村

**１３２人目の素数さん** · 2020/05/21(木) 18:40:02.83

>>590
馬鹿になる事後確率分布はこんな結果になりました。

https://i.imgur.com/ZhpWJdo.png

**１３２人目の素数さん** · 2020/05/21(木) 18:41:26.76

95%　CI は　0.5005265 1

**１３２人目の素数さん** · 2020/05/21(木) 18:46:18.61

>>592
ちなみに事前分布は一様分布に設定。

**１３２人目の素数さん** · 2020/05/21(木) 18:53:16.25

結局、統計ってこういう道楽なんだよなぁ。

**１３２人目の素数さん** · 2020/05/21(木) 19:01:50.90

>>581
いやウイルスの振る舞いも素粒子の振る舞いもばらつきがあるんじゃないの？
存在も位置も確率的にしかわからない、という議論になると思う。

**１３２人目の素数さん** · 2020/05/21(木) 21:14:17.00

>>571
最初の２つでは頑強と言えそう。
平均身長のたとえだと
事前分布に1～２ｍを選んでも１～１０ｍを選んでも同様の結果だが、０～１ｍを選ぶと現実離れした結果が返ってくるという感じだな。

**１３２人目の素数さん** · 2020/05/21(木) 21:27:14.41

次のおもちゃ

しばらく、これで遊べそう。

臨床所見からロジスティック回帰でCOVID19の確率を出すペーパーがでるだろうなと思っていた。

Real-time tracking of self-reported symptoms to predict potential COVID-19

https://www.nature.com/articles/s41591-020-0916-2

**１３２人目の素数さん** · 2020/05/22(金) 01:26:24.95

>>591
馬鹿の定義は？単なるお前の主観じゃねーかｗ

ベイズ統計にのめり込むと馬鹿になる事後確率分布でも求めてろ。

**１３２人目の素数さん** · 2020/05/22(金) 04:53:19.66

こういうのも興味ある人多い？感染してからの日数とPCR陰性になる確率の関係。

https://twitter.com/AdamJKucharski/status/1260839061318705152
https://twitter.com/5chan_nel (5ch newer account)

**１３２人目の素数さん** · 2020/05/22(金) 05:39:46.28

各国のロックダウンの度合いを数値化してるところ。色々と分析に使えるかも。
https://ourworldindata.org/grapher/covid-stringency-index?tab=chart&;year=2020-05-07&country=JPN+NOR+SWE+USA

**１３２人目の素数さん** · 2020/05/22(金) 08:35:38.57

>>599
あれ3/3になったのか。
それだと、95％CrIは0.5559329 1
事前分布にはJeffereysで計算