1002コメント566KB

数学統計に詳しい人が語るコロナウイルス

■ このスレッドは過去ログ倉庫に格納されています

1１３２人目の素数さん

2020/02/29(土) 02:18:41.53ID:twdO677Q

東大数学科卒の元官僚はこう分析してるが、お前らはどうなると思う？

http://www.zakzak.co.jp/soc/news/200220/dom2002200003-n2.html

中国国外感染者の中国国内との比率をみると、
１月２０日の数字公表以降は、０・８～２・６％で比較的安定している。
これは、新型肺炎の感染者のほとんどは中国国内、それも湖北省に集中しているからだ。
ちなみに中国国外での感染者数は、中国国内の１・１％だ（２月１６日現在）。
本コラムで紹介したが、現時点では、最終的な中国国内の感染者数は２０万人超と筆者は推計している。
となると、中国国外の感染者は数千人程度になるだろう。
中国国外のうち日本の比率は１割弱なので、日本の感染者数は数百人程度であろう。
その場合、死者も数人から１０人程度になるだろう。

こうした推計をすると、今の感染者は氷山の一角だと思われるが、今後の増加ペースはどうなるだろうか。
新型コロナウイルスの検査は簡単に行えるので、今後、日本での感染者数は増えていくだろう。
ある時点ではそれがネズミ算的に増えるかのように思える局面もあるだろうが、
筆者の推計が正しければ、現時点ではせいぜい数百人が一つのメドだ。

202１３２人目の素数さん

2020/04/02(木) 09:26:20.10ID:mzm7EAoV

市中感染率が増加の時はもちろんそうだが、一定、あるいは、減少傾向であっても、
経過日数が多くなれば、感染者数は多くなる。

例えば、十日に一人有名人の感染が報告されるというのが継続されていたなら、感染率は一定と
考えられるが、それが、一週間に一人　→　五日に一人　→　三日に一人　→　ほぼ毎日　→．．．
のように、報告されるペースに変化があると、感染率も変化していると考えられる。

203１３２人目の素数さん

2020/04/02(木) 09:30:08.05ID:mzm7EAoV

補足だが、あまりにも、有名人感染の報告頻度が多くなると、ニュースとしての価値が低くなり、
以前であったら報告されていたであろうケースが報告されなくなるということもあるので、
その辺も考慮して考える必要はある。

204１３２人目の素数さん

2020/04/03(金) 11:52:46.56ID:cch/ocoF

横浜市立大学データサイエンス学部佐藤彰洋教授のCOVID-19（新型肺炎）の感染拡大抑止に関する研究・検討資料内容を共有するページ
https://www.fttsus.jp/covinfo/#Tokyo

矢原徹一：九州大学理学研究院教授の試算
https://jbpress.ismedia.jp/articles/-/59942

205１３２人目の素数さん

2020/04/04(土) 11:37:34.81ID:ZFu90Xbq

SEIR MODEL

dS(t)/dt = mu*(N-S) - b*S(t)*I(t)/N - nu*S(t)
dE(t)/dt = b*S(t)I(t)/N - (mu+sig)*E(t)
dI(t)/dt = sig*E(t) - (mu+g)*I(t)
dR(t)/dt = g*I(t) - mu*R + nu*S(t)
mu:自然死亡率 b:感染率(S->I)
nu:ワクチン有効率(S->R) sig:発症率(E->I),g:回復率(I->R)

の微分方程式の数値解を使ってシミュレーション

対策しない（外出を控えず、マスクもしない）方が患者や死者は増えるけど早く収束するな。
contacｔ_rate と　trannsmission_probabilityを変化させてグラフにしてみた。

https://i.imgur.com/6OgJkDb.png

206１３２人目の素数さん

2020/04/04(土) 15:28:24.87ID:zerwqPau

一次産業ごと消滅していいならそうかもな

207１３２人目の素数さん

2020/04/05(日) 09:54:53.42ID:fV/kgtmE

オリンピック延期決定以後の東京都の行政PCR検査での陽性率をグラフにすると
https://i.imgur.com/XMKErLV.png
（陽性数より検査件数の公表は２～３日遅れる）

PCR検査は感度60％、特異度90％くらいなので検査を受けた集団の有病率はもっと多いはず。
感度(最頻値0.6 標準偏差0.1)、特異度（最頻値0.9 標準偏差0.05)のベータ分布に設定、有病率は(0,1)の一様分布でMCMCしたみた。
https://i.imgur.com/1ZkOk33.png

有病率40％くらいありそうだな。　　　

208１３２人目の素数さん

2020/04/05(日) 23:57:53.16ID:fV/kgtmE

新型コロナ肺炎に再感染があるとして流行具合をシミュレーションしてみた。
赤が感染者

上：再感染率０％
中：再感染率１％
下：再感染１％に治癒確率を5倍にする治療薬がある場合

https://i.imgur.com/nhCe0aZ.png

209１３２人目の素数さん

2020/04/06(月) 00:03:24.55ID:xOX4/rO7

>>208
準拠したモデルはこれ

SEIRS MODEL
dS(t)/dt = mu*(N-S) - b*S(t)*I(t)/N - nu*S(t) + rho*R(t)
dE(t)/dt = b*S(t)I(t)/N - (mu+sig)*E(t)
dI(t)/dt = sig*E(t) - (mu+g)*I(t)
dR(t)/dt = g*I(t) - mu*R(t) + nu*S(t) - rho*R(t)
mu:自然死亡率 b:感染率(S->I)
nu:ワクチン有効率(S->R) sig:発症率(E->I),g:回復率(I->R)
rho:再感染率(R->S)

Rのスクリプトはここに置いた
https://egg.5ch.net/test/read.cgi/hosp/1584050953/417-420

210１３２人目の素数さん

2020/04/06(月) 01:00:30.67ID:taqqH9Ce

>>207
疑い例だけに絞って検査してるんだから、有病率が高いのは当たり前。
検査を拡大すれば感染者数は増えるが、有病率はぐっと下がるだろう。

211１３２人目の素数さん

2020/04/06(月) 05:54:28.61ID:xOX4/rO7

>>210
検査を受けた集団の有病率の事前分布を(0,0.2)に設定して実行すると

https://i.imgur.com/QSd9OAj.png

MCMCで感度や特異度の事後分布が出せるのが面白い。

212１３２人目の素数さん

2020/04/06(月) 08:06:29.84ID:xOX4/rO7

>>209
基本的に鎖国しているモデルだから、
入国者や出国者による人口増減とその保菌率・感染率を組み込んだモデルにしないと実態にそぐわないな。
昨今、輸入されているコロナの発症率・回復率などが異なるとすると益々、複雑なモデルになっちゃう。

213１３２人目の素数さん

2020/04/06(月) 16:39:50.15ID:taqqH9Ce

死者数が少ないのは注目すべきことだけど、それもいつまで続くか、、、

発症から集中治療室に入るまで２週間弱。死ぬまでがさらに一週間。
ってことは、この２週間での感染者激増が死者数に反映するまで、
あと一週間かかるってこと。

重症者の激増もそろそろ始まることだと思われる。

検査数とか感染者数、重症者数etc.を可視化したデータってここくらいか？
https://toyokeizai.net/sp/visual/tko/covid19/

214１３２人目の素数さん

2020/04/06(月) 17:50:09.18ID:taqqH9Ce

韓国は46万件の検査で感染者が1万人。
感染かどうかをどう確定したのか知らないけど、有病率が2%だと
すれば、特異度がよほど高くないと、陽性者のかなりの割合が
偽陽性ってことになりそう。

215１３２人目の素数さん

2020/04/06(月) 22:07:12.60ID:Sgr4CLg/

>>207
東京都は陽性者数は公表しても検査人数を迅速に公表しないのでRのパッケージAmeliaを使って多重代入法による欠測データ処理してみる。

#
subjects=c(74,95,87,143,244,330,41,145,164,469,NA,NA,NA)
positives=c(17,41,47,40,63,68,13,78,66,97,89,117,143)
(dataset=data.frame(subjects,positives))

# 検査実施人数を欠測データとしてAmeliaで推定
library(Amelia)
na.idx=which(is.na(subjects))
M=1000
set.seed(1234) ; a.out=amelia(dataset,m=M)
imp=a.out$imputations
NAsubject=NULL
for(i in 1:M){
NAsubject=rbind(NAsubject,imp[[i]][na.idx,1])
}
missing.data=round(apply(NAsubject,2,mean))
subjects[na.idx]=missing.data
PCRs3(subjects,positives,iter=10000,warmup=1000,verbose=TRUE)

行政検査例の有病率と95％信頼区間
mean lower upper
0.3745734 0.1048757 0.6575508

https://i.imgur.com/DxVNXad.png

216１３２人目の素数さん

2020/04/07(火) 07:24:45.67ID:TwUCHcsI

4月5日の陽性者数が検査人数より多いのは単純ミス？

https://stopcovid19.metro.tokyo.lg.jp/

Ameliaでの欠測推測を確認しようと思ったのにもとのデータがあてにならない。

217１３２人目の素数さん

2020/04/07(火) 07:48:06.64ID:TwUCHcsI

晋型コロナ肺炎に感度0.9，特異度0.9の迅速検査が開発されたと仮定する。
日本人1億2595万人からX人を無作為抽出して有病率を推定したい。
有病率の99%信頼区間幅を1%以内で検定したい。
何人を抽出すれば十分といえるか？

218１３２人目の素数さん

2020/04/07(火) 08:24:28.18ID:TwUCHcsI

>>76
感度0.6　特異度0.9として1000人検査したときはの有病率の99%信頼区間幅は何%以内におさまるか？

219１３２人目の素数さん

2020/04/07(火) 10:09:26.39ID:/UNISUK0

>>216
検査結果の集計日と、対応する検査数の集計日が揃ってないからかもね。
データがあてにならないのはその通りかも。

220１３２人目の素数さん

2020/04/07(火) 20:47:10.10ID:/iaYsYaQ

https://imgur.com/3TTYKk8
スプレッドシートのgrowthで予測してみると、9月には人類滅亡しそうです。
元データは
https://www.worldometers.info/coronavirus/coronavirus-death-toll/

221１３２人目の素数さん

2020/04/07(火) 21:10:10.27ID:TwUCHcsI

ソース不明な数字だけど

"名前：名無しさん＠１周年[sage] 投稿日：2020/04/07(火) 20:29:49.57 ID:GcsEpAfR0 (PC)
他国の総感染者数が今の日本と同程度の時の死者数

イタリア,　感染3089人　死者107人
スペイン,　感染2965人　死者 84人
アメリカ,　感染3499人　死者 64人
イラン　 , 感染3513人　死者107人
フランス,　感染3661人　死者 79人
日本　　 , 感染3123人　死者 77人
"
country=c('イタリア','スペイン','アメリカ','イラン','フランス','日本')
infected=c(3089,2965,3499,3513,3661,3123)
dead=c(107,84,64,107,79,77)

df=data.frame(country,dead,infected)
df
re.lm=lm(dead~infected,data=df)
summary(re.lm)
chisq.test(dead,infected)
names(infected)=country
names(dead)=country
pairwise.prop.test(dead,infected)

> chisq.test(dead,infected)

Pearson's Chi-squared test

data: dead and infected
X-squared = 24, df = 20, p-value = 0.2424

Warning message:
In chisq.test(dead, infected) : Chi-squared approximation may be incorrect
> pairwise.prop.test(dead,infected)

Pairwise comparisons using Pairwise comparison of proportions

data: dead out of infected

イタリアスペインアメリカイランフランス
スペイン 1.00000 - - - -
アメリカ 0.00066 0.11005 - - -
イラン 1.00000 1.00000 0.01762 - -
フランス 0.01843 0.79242 1.00000 0.24130 -
日本 0.24724 1.00000 0.79242 1.00000 1.00000

P value adjustment method: holm

222１３２人目の素数さん

2020/04/08(水) 00:23:04.14ID:KlmY0AUa

アメリカの致死率高くない？

現時点での死者数と感染者数からだと３％くらいなんだが、これは
見かけ上の数値で、実際には発症から死亡まで２週間以上かかかる
から、１０日くらい前の感染者数を分母にしないと見誤る。

で、このタイムラグを考慮にいれると少なくとも10%くらいの致死率
になりそ。日本の２，３倍になる計算だ。

223１３２人目の素数さん

2020/04/08(水) 00:27:12.88ID:KlmY0AUa

>>221
その数字もタイムラグを考慮に入れないと致死率を見誤るよ。
感染者の増大率が大きいところでは、死者数を過小評価する。

たとえば２週間後の死者数で比較すべき。

224１３２人目の素数さん

2020/04/08(水) 19:19:57.90ID:gX6rmgSD

>>223
感染から死亡までの期間は一定でないからどうだろね。

225１３２人目の素数さん

2020/04/08(水) 19:24:23.22ID:gX6rmgSD

SEIRモデルに再感染(免疫を失ってR からSへの変遷）があるとしてグラフ化してみた。

1万人に1人の感染者と9人の保菌者がいるとして、

再感染率０％のとき
https://i.imgur.com/XWzQN7I.png

再感染率０．１％（１０００人に１人の割合で免疫を失う）場合
https://i.imgur.com/EdxIhMT.png

再感染率０．１％で外出自粛等で接触が８割減になった場合
https://i.imgur.com/sDppUfY.png

226１３２人目の素数さん

2020/04/09(木) 01:14:30.66ID:m5ECJkjO

>>224
まあ、発症してすぐ感染が発覚するわけでもないから、
症状がある程度続いてから陽性判定されるとすれば、
１０日前後のディレイかな。しかも、どのくらいの分散
かわかんないけど、正規分布で畳み込んだ感じで。

227１３２人目の素数さん

2020/04/09(木) 02:02:32.53ID:m5ECJkjO

英国もフランスも致死率高いな。
のきなみ１０％越え。

228１３２人目の素数さん

2020/04/09(木) 02:09:10.50ID:NyLklR2N

英国とフランスは医療崩壊してるの？

229１３２人目の素数さん

2020/04/09(木) 09:37:43.05ID:m5ECJkjO

しらんがな

230１３２人目の素数さん

2020/04/09(木) 11:57:57.57ID:cpUiyQfM

これこそ、国を守るってことだな。

キューバ政府は2020年3月24日（火）以降、外国人観光客の入国を認めないと発表しました。
キューバに入国できるのは居住者のみで、これには出張で短期または長期滞在する外国人も含まれます。
加えて、キューバに入国する人は全員14日間隔離されます。
商業活動は維持されますが、商船や航空機の乗務員の移動は制限されます。キューバの領空は封鎖されません。
今回の制限措置は30日間有効で、状況に応じて延長される可能性もあります。

231１３２人目の素数さん

2020/04/09(木) 12:26:32.60ID:cpUiyQfM

>>216
オリンピック延期決定以降のデータで検討

陽性人数が検査人数を上回るデータは検査人数を欠測データ(NA)として計算する。

dates subjects positives
1 2020-03-24 74 17
2 2020-03-25 95 41
3 2020-03-26 87 47
4 2020-03-27 143 40
5 2020-03-28 244 63
6 2020-03-29 330 68
7 2020-03-30 41 13
8 2020-03-31 145 78
9 2020-04-01 164 66
10 2020-04-02 469 97
11 2020-04-03 551 89
12 2020-04-04 NA 117
13 2020-04-05 NA 143
14 2020-04-06 356 83
15 2020-04-07 271 79
16 2020-04-08 NA 144

その設定で
# LittleのMCAR検定　データが MCAR または MAR であるという帰無仮説のもとで検定
library(BaylorEdPsych)
LittleMCAR(dataset)$p.value

LittleMCAR(dataset)$p.value
this could take a while[1] 0.004907289

有意差がでて出鼻をくじかれた

232１３２人目の素数さん

2020/04/09(木) 14:54:07.49ID:pa+n/S2z

https://twitter.com/koheikana/status/1248093870287499264
https://twitter.com/5chan_nel (5ch newer account)

233１３２人目の素数さん

2020/04/10(金) 00:25:10.35ID:EjAtBG4Z

日本もすでに欧州同様指数関数ラインにのってる模様、
https://i.imgur.com/qAJa2Ty.png
欧州並になるのは文字通り時間の問題かと
日本のコロナ感染発覚者数
3月24日 1193
3月25日 1307
3月26日 1387
3月27日 1499
3月28日 1693
3月29日 1866
3月30日 1953
3月31日 2178
4月 1日 2384
4月 2日 2617
4月 3日 2935
4月 4日 3139
4月 5日 3654
4月 6日 3906
4月 7日 4257
4月 8日 4667
オリンピック延期決定した3月24日をDay1として線形回帰すると
https://i.imgur.com/Q45Xo8V.png
y=c(1193,1307,1387,1499,1693,1866,1953,2178,2384,2617,2935,3139,3654,3906,4257,4667)
z=as.Date("2020-03-24")+ 0:(length(y)-1)
plot(z,y,bty='l',pch=19)
x=1:length(y)
plot(x,y,bty='l')
(re.lm=lm(log(y)~x))
b0=re.lm$coef[1]
b1=re.lm$coef[2]
names(b0)=''
f <- function(x) exp(b0)*exp(b1*x) # 1059.063*exp(0.09231543*x)
curve(f(x),add=T)
n=1:50
plot(n,f(n),bty='l')

f1 <- function(y) print(log(y*exp(-b0))/b1 + as.Date("2020-03-24"),quote=F)
f1(c(5000,1e4,5e4,1e5,5e5,1e6,1e7,1e8,1.2595e8))

感染者が５千、１万、５万、１０万、５０万、百万、１千万、１億、１億２５９５万人に達する日は
> f1(c(5000,1e4,5e4,1e5,5e5,1e6,1e7,1e8,1.2595e8))
[1] 2020-04-09 2020-04-17 2020-05-04 2020-05-12 2020-05-29
[6] 2020-06-06 2020-07-01 2020-07-26 2020-07-28

234１３２人目の素数さん

2020/04/10(金) 06:57:42.69ID:EjAtBG4Z

>>233
１日ずれていた。

> f1(c(5000,1e4,5e4,1e5,5e5,1e6,1e7,1e8,1.2595e8,77e8))
[1] 2020-04-10 2020-04-17 2020-05-04 2020-05-12 2020-05-29
[6] 2020-06-06 2020-07-01 2020-07-26 2020-07-28 2020-09-10

世界の人口７７億人にたっするのは９月１０日となった。

235１３２人目の素数さん

2020/04/10(金) 07:03:11.67ID:EjAtBG4Z

>>216
行政検査人数と医療機関の行った検査も含めて、陽性者数を公表しているだけみたいだな。
これじゃぁ、陽性率も有病率も何の解析もできない。

236１３２人目の素数さん

2020/04/10(金) 07:18:35.21ID:EjAtBG4Z

https://toyokeizai.net/sp/visual/tko/covid19/
のデータ使って
全国と東京の線形回帰の係数を比べると

全国
Call:
lm(formula = log(y) ~ x)

Coefficients:
(Intercept) x
6.84962 0.09253

東京
Coefficients:
(Intercept) x
5.1707 0.1332

東京の方が感染者増加速度が速いね。

東京都の人口13,951,636（令和2年1月1日現在）に達する日は
> f1(13951636)

2020-06-15
となった。

237１３２人目の素数さん

2020/04/10(金) 07:23:05.91ID:EjAtBG4Z

今日の東京の感染者予想人数は

> d2i("2020-4-10")
daily total
241.1515 1934.2759

238１３２人目の素数さん

2020/04/10(金) 11:19:37.42ID:oS02oOtl

https://pbs.twimg.com/media/EVKznQlUEAEJpgl?format=jpg&;name=900x900

このグラフを見ろ

239１３２人目の素数さん

2020/04/10(金) 11:22:37.55ID:wWOTJ0FB

>>238
だから何なの？

240１３２人目の素数さん

2020/04/10(金) 11:47:04.58ID:EjAtBG4Z

感染者数の増加は直線より指数関数の方がフィットするな。

https://i.imgur.com/EeGBVJW.png

241１３２人目の素数さん

2020/04/10(金) 12:02:00.39ID:K2O0fmDQ

>>238
エクセルのグラフって、マークと曲線がちょっとずれるよね。
ってか、凡例までそうなってて、すっごく気持ち悪い。

なんでだろ？

242１３２人目の素数さん

2020/04/10(金) 12:04:52.16ID:K2O0fmDQ

有名人の感染がボチボチ出てくるってことは、市中感染率も
それなりに高いんだろうな。0.1%は超えてそう。

243１３２人目の素数さん

2020/04/10(金) 14:27:39.01ID:XjWf1V4z

>>242
120万人罹患してるってこと？
発症者が5000人いってないのに？
発症率0.4%しかない雑魚ウィルスならサイトカインストームなんて起こさないでしょ？
これウィルスが強すぎて免疫系が異常に発動して起こるもんらしいから。

244１３２人目の素数さん

2020/04/10(金) 14:29:22.80ID:XjWf1V4z

あ、0.1%か。
12万人で発症率4%。
どのみちないだろな。

245１３２人目の素数さん

2020/04/10(金) 14:58:22.90ID:K2O0fmDQ

>>244
0.1%ってのはあくまで都内や大阪を想定した推測ね。

246１３２人目の素数さん

2020/04/10(金) 15:52:37.05ID:Qxo2/Tvi

>>216
これひどいよなぁ
陽性率隠しの一環にしか見えない
そもそも陽性者数と検査数って普通に検査してりゃ一対一で対応するだろ
各検査機関がそれらを普通に出せば足し合わせるだけでいい

247１３２人目の素数さん

2020/04/11(土) 01:01:52.46ID:g/e7gi/j

そういうミスは統計資料にはつきもの。それでもデータさえ
多ければ大勢に影響なし。

248１３２人目の素数さん

2020/04/11(土) 06:07:34.88ID:Dikmq831

>>8
優秀ですね

249１３２人目の素数さん

2020/04/11(土) 13:47:45.91ID:mKhDXvLi

東京都のこのデータを使って
https://stopcovid19.metro.tokyo.lg.jp/data/130001_tokyo_covid19_patients.csv
オリンピック延期決定前後で陽性者の増え方に違いがあるかをグラフにしてみた。

https://i.imgur.com/DG2Kohu.png

黒塗り丸が延期決定前で黒線がその回帰曲線1日毎に1.078594 倍に増加
赤丸が延期決定後で赤線がその回帰曲線　1日毎に1.136801 倍に増加

青は全体での回帰曲線 1日毎に1.088687 倍に増加

250１３２人目の素数さん

2020/04/11(土) 15:33:13.43ID:mKhDXvLi

>>247
集計ミスじゃなくて、集計デザインそのものに問題があるよ。
陽性数は東京都全部の集計なのに、検査数は行政検査だけで指定医療機関での検査を除外している集計している。
これじゃ陽性率から有病率を推測するのも不可能。

251１３２人目の素数さん

2020/04/11(土) 17:18:33.74ID:HlGO5aHy

風邪ひいたみたい。感染予防には抜かりはないのに、

252１３２人目の素数さん

2020/04/11(土) 21:40:53.17ID:vjB1aI8B

ランダムに検査して、感染者数を推定してほしいんだけな

253１３２人目の素数さん

2020/04/12(日) 09:01:25.70ID:uhjyERyF

オーストリアがやったらしいよ。

それによりますと、全体のおよそ0.3％が陽性と判定され、分析の結果、この時期に少なくとも１万200人、最大で６万7400人が感染していた可能性があることがわかったということです。

オーストリアの人口はおよそ890万人で、政府は最も可能性が高い数字として、この時期におよそ２万8500人が感染していたと推定しています。

254１３２人目の素数さん

2020/04/12(日) 09:56:34.10ID:uhjyERyF

>>253
コピペしそこなったけど、検査は1533人に施したそうだ。
感度100%、特異度100%の完璧な検査だったと仮定して、サンプルサイズ1500と
サンプル比率0.3%で、信頼度95%で推定すると母集団での比率は0.12%～0.7%
くらいだと推定できるから、オーストリア政府発表と一致するね。そういう
単純な計算なのかねぇ？

255１３２人目の素数さん

2020/04/12(日) 10:02:10.44ID:uhjyERyF

もひとつコピペし忘れた、判明している感染者数は12,200人ね。
特異度が100%って考えにくいから、まあ、結構な捕捉率じゃねーの？

>当時医療機関などで確認されていた感染者はおよそ１万2200人だったことから、
>政府は、実際に感染していた人は公表の２倍以上に上るとみられるとしています。

256１３２人目の素数さん

2020/04/12(日) 12:34:54.53ID:QLYmTD4y

>>254
1533*0.3/100=4.6だけど陽性は５人？

257１３２人目の素数さん

2020/04/12(日) 12:40:40.53ID:+MLUgV1E

>>254
95％信頼区間も計算方法がいくつかあるよね。

> binom::binom.confint(5,1533)
method x n mean lower upper
1 agresti-coull 5 1533 0.003261579 0.0011557601 0.007850672
2 asymptotic 5 1533 0.003261579 0.0004073974 0.006115760
3 bayes 5 1533 0.003585398 0.0009655853 0.006611832
4 cloglog 5 1533 0.003261579 0.0012670654 0.007342721
5 exact 5 1533 0.003261579 0.0010598477 0.007594894
6 logit 5 1533 0.003261579 0.0013582045 0.007811457
7 probit 5 1533 0.003261579 0.0013079622 0.007530462
8 profile 5 1533 0.003261579 0.0011715789 0.006997012
9 lrt 5 1533 0.003261579 0.0011411357 0.006992346
10 prop.test 5 1533 0.003261579 0.0012013872 0.008065116
11 wilson 5 1533 0.003261579 0.0013939315 0.007612501

258１３２人目の素数さん

2020/04/12(日) 13:03:50.97ID:+MLUgV1E

有病率：一様分布
感度：最頻値0.6標準偏差0.1のベータ分布
特異度：最頻値0.9標準偏差0.05のベータ分布
として検査陽性数は有病率＊感度＋（１－有病率）＊（１－特異度）の確率に従う二項分布

というモデルでMCMCすると

https://i.imgur.com/Ay0I4Wx.png

有病率
mean lower upper
0.002678327 0.000029215 0.005582318

感染者数
> c(0.002678327, 0.000029215, 0.005582318)*8900000
[1] 23837.11 260.01 49682.63

という結果になった。

検査陽性数が少ないから信頼区間幅が広くなるなぁ。
エントリーに5以下があると正規分布での近似が悪くなると習ったような記憶がある。

259１３２人目の素数さん

2020/04/12(日) 17:10:06.91ID:uhjyERyF

>>256
それは書いてないけど、そうなるよね。陽性は4人か5人だろうね。

260１３２人目の素数さん

2020/04/12(日) 17:23:55.74ID:uhjyERyF

>>258
意外と特異度が高いんだよねぇ。99%をゆうにこえるとは...。
ってことは、検査数を増やしても偽陽性に惑わされる心配はあまりないってことか。

この調査から言えることは、検査の特異度がかなり高いってことと、有病率の上限
が1%には届かないと見積もれることかな？

261１３２人目の素数さん

2020/04/12(日) 20:15:06.93ID:NHP4603i

最終的に陽性と判断されたのは、1500件中、4,5件だと思われるが、
これは、PCR検査機器の性能チェックじゃ無く、有病率の調査なんだから、
陽性とでた場合には、PCR機器をもう一度回したかもしれないし、
その人を呼んで、再度検体を採取してチェックしたのではないか？

具体的には、一次検査では、1500件中150件ほど陽性が出る。
この150人に対し、再調査を指示して、20件ほど陽性が出る。
この20人に対し、三次検査、四次検査を行って、最終的に4件程が陽性だと判断したと。

検査機器自体の特異度が高いのではなく、運用による効果だと考える方が無難では？

262１３２人目の素数さん

2020/04/12(日) 20:37:37.97ID:t0enBOyQ

ドメイン知識ゼロ感

263１３２人目の素数さん

2020/04/12(日) 21:48:49.76ID:+MLUgV1E

>>260
特異度の事前分布を最頻値0.9標準偏差0.05にした影響かと思って

特異度の事前分布を最頻値0.5 標準偏差0.2にしてMCMCしても同様の結果だった。（感度は最頻値0.6標準偏差0.1で同じ設定）

PCRs2(1533,5,SEN=0.6,SPC=0.5,SD1=0.1,SD2=0.2)$fit
Inference for Stan model: model3.
4 chains, each with iter=2000; warmup=1000; thin=1;
post-warmup draws per chain=1000, total post-warmup draws=4000.

mean se_mean sd 2.5% 50% 97.5% n_eff Rhat
prev 0.00273 0.00005 0.00249 0.00010 0.00200 0.00912 2406 1.0011
sen 0.57489 0.00205 0.10047 0.37477 0.57377 0.76629 2403 1.0009
spc 0.99592 0.00004 0.00182 0.99181 0.99613 0.99882 2203 1.0007
p 0.00559 0.00003 0.00185 0.00258 0.00539 0.00975 3191 1.0000
lp__ -72.11408 0.03392 1.22437 -75.33316 -71.80596 -70.68418 1303 1.0048

prev:prevalence 有病率
sen : sensitivity 感度
spc : specificity 特異度

264１３２人目の素数さん

2020/04/12(日) 23:37:41.01ID:NHP4603i

以前、>>188　で

>>せめて　有病率は、 1-特異度　と同じオーダーか、1-特異度より大きくないと、扱えない。

と指摘したことがあります。>>260や、>>263の結果は、将にこれを実証したといえそうですね。

主語を、特異度に変えると、
「特異度は　1-有病率　と同じオーダーか、1-有病率　より大きくないと、扱えない。」となります。

265１３２人目の素数さん

2020/04/12(日) 23:39:41.01ID:NHP4603i

上の　260へのリンクは、>>258の間違いです。

266１３２人目の素数さん

2020/04/12(日) 23:59:37.30ID:NHP4603i

>>264　さらに訂正
誤：「特異度は　1-有病率　と同じオーダーか、1-有病率　より大きくないと、扱えない。」
正：「1-特異度は　有病率　と同じオーダーか、有病率　より小さくないと、扱えない。」

267１３２人目の素数さん

2020/04/13(月) 05:55:48.12ID:qYuv8ZQx

1－特異度＝偽陽性率

268１３２人目の素数さん

2020/04/13(月) 05:58:17.03ID:qYuv8ZQx

HIV検査などは有病率＜偽陽性率だが、だからといって扱えないわけではない。

269１３２人目の素数さん

2020/04/13(月) 06:14:55.51ID:qYuv8ZQx

陽性（陰性）的中率や精度は有病率に左右されるけど、陽性（陰性）尤度比や診断的オッズ比は有病率には左右されない。
ただ、これだけの話。

270１３２人目の素数さん

2020/04/13(月) 06:56:13.98ID:qYuv8ZQx

臨床の世界では、陽性尤度比が１０以上、陰性尤度比が０．１以下なら有用な検査とされる。
５以上、０．５以下なら、参考にはなるという程度だな。

Evidence-Based Physical Diagnosis, 4e　だと３以上、０．３以下としている。

271１３２人目の素数さん

2020/04/13(月) 09:47:52.02ID:5wetDrgQ

>>268

>>188などの書き込みは、>>180の問いに対する流れで書かれたものであって、
そこで書かれた「扱えない」は、「有病率の調査として誤差が大きすぎて使えない」という意味。

「検査自体が無意味」等というような意味で使っていたかのような誤解を与えかねない268の書き込みは、
話のすり替えであり、不適当であることを指摘しておく。

272１３２人目の素数さん

2020/04/13(月) 10:35:51.38ID:LCm4R7zM

>>269
思うに、臨床の場では陽性が疑わしい患者をみるから、
「市中での」有病率はあまり関係ないってことなんじゃ
ないかな？

陽性かどうか五分五分という状況で検査すると思えば、
事前確率が50%という仮定（有病率50%に対応）になって、
陽性判定が真の陽性である確率と偽の陽性である確率との
比は感度/(1-特異度）になる。これが陽性尤度比だよね？

273１３２人目の素数さん

2020/04/13(月) 15:30:20.28ID:SYLNYopk

感度0.6　特異度0.9の検査で1533人検査して3例陽性であった、有病率を計算せよ
という問題をやってみるといいね。
解答不能になる。

274１３２人目の素数さん

2020/04/13(月) 15:39:19.68ID:SYLNYopk

1533例中5例陽性のとき、弱情報事前分布を以下のように
有病率：一様分布
感度：最頻値0.6標準偏差0.1のベータ分布
特異度：最頻値0.5標準偏差0.2のベータ分布
として検査陽性数は有病率＊感度＋（１－有病率）＊（１－特異度）の確率に従う二項分布
としてJAGSでMCMCしてみた。的中率・精度・尤度比・診断的オッズ比の分布も出してみた。

https://i.imgur.com/GvruV3M.png
https://i.imgur.com/XXOqQGr.png

275１３２人目の素数さん

2020/04/13(月) 17:12:33.46ID:SYLNYopk

>>273
>253の数字だと陽性数は5人なので1533人検査して5人陽性とする。
有病者の人数をｘとすると　0.6x+(1-0.9)(1533-x)=5を解くとありえない数値になるね。
感度0.6特異度0.9という前提が間違っていると考えると、どんな値が尤もらしい値なのかを探求したくなる。
MCMCはその手段を与えてくれる。

276１３２人目の素数さん

2020/04/13(月) 19:03:16.60ID:LCm4R7zM

>>275
よくわかんないのは、たとえサンプル集団の有病者が０でも、特異度が
99.5％なら陽性判定は７人出るはずなので、陽性５人だとXは解無しに
なるんじゃね？それでも特異度が99.5%である確率はゼロではないって
なんか不思議。

277１３２人目の素数さん

2020/04/13(月) 19:05:13.40ID:LCm4R7zM

>>276
あ、わかった、そのサンプルではたまたま特異度が99.7%より高い
試行にあたったと考えりゃいいわけね。
スマソ。

278１３２人目の素数さん

2020/04/14(火) 02:28:37.10ID:s2XHPXPF

>>277
なんでもかんでも確率変数にして
実測値から確率分布がどう変化するかをみるのがベイズだと思っている。
件の話では感度も特異度も定数とは考えないで話を進めちゃう。

犬三匹本のKruscke 曰く
The role of data is to re-allocate credibitity across possibilities.
We reallocte credibitility to paramete values that are consistent with the data.

ｐ値ですら確率分布を考えうる。
p<0.05だから有意差あり、とドヤ顔で言っている奴にｐ値の95%信頼区間はどれくらいですかと聞くと唖然するね。
（アホ扱いされないように自分で計算してからすべき質問）

なんでも確率変数と考えるとこんなのもあり。

平均100 標準偏差15で定義される知能指数で
　標準大学の新入生の知能指数の平均が100
　裏口医大の新入生の知能指数の平均が85であったとする。
どちらも新入生は100人として各大学から1/10を無作為抽出して知能指数をｔ検定したときのｐ値の期待値、中央値を求めよ。
また、ｐ値が0.05以上になって裏口医大の新入生の知能指数は統計的に有意差はないと主張できる確率はいくらか？

知能指数が正規分布するとして乱数発生させてシミュレーションしたら
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000002 0.0092459 0.0388977 0.1082749 0.1295300 0.9942922
とう結果が得られた。

279１３２人目の素数さん

2020/04/14(火) 06:19:07.84ID:s2XHPXPF

typo　修正

We reallocate credibitility to parameter values that are consistent with the data.

280１３２人目の素数さん

2020/04/14(火) 09:48:43.56ID:RnKKsh7J

>>278
なるほどね。

>なんでもかんでも確率変数にして
でも、それぞれの確率変数がどういう意味を持つのか
いちいち考えないと気がすまないのが物理屋。

281１３２人目の素数さん

2020/04/14(火) 09:58:00.50ID:RnKKsh7J

たとえば、定数であることだけは既知であるが、その値が
分からないという場合、確率変数にしちゃって問題ないのか
って気はする。
検査の感度や特異度は確かに定数とは限らんからいいけど
（一回一回の検査ごとに違っててもいい）。

282１３２人目の素数さん

2020/04/14(火) 11:28:35.78ID:zYa8gAY0

p値が確率変数なのはベイズじゃなくても当たり前というか、そう考えないと理論が組み立てられんだろw

283１３２人目の素数さん

2020/04/14(火) 13:11:38.28ID:s2XHPXPF

>>282
でもｐ値の分布とかは、頻度主義統計では考えていないのじゃないかな？

284１３２人目の素数さん

2020/04/14(火) 13:14:47.35ID:s2XHPXPF

まあ、円周率の１億桁目がわからんから、０～９の一様分布とするのはどうかとは思うが、

こういう問題

あるタクシー会社のタクシーには１から通し番号がふられている。
タクシー会社の規模から保有タクシー台数は１００台以下とわかっている（弱情報事前分布）。
この会社のタクシーを５台みかけた。最大の番号が６０であった。
この会社の保有するタクシー台数の期待値と９５％信用区間(信頼区間)を求めよ。

をベイズで解くときは、
６０台～１００台である確率を一様分布として処理している。

285１３２人目の素数さん

2020/04/14(火) 16:41:03.54ID:RnKKsh7J

＞弱情報事前分布

これが情弱事前分布に見えてしょうがないｗ

286１３２人目の素数さん

2020/04/15(水) 04:24:36.65ID:wTXTja96

>>283
もちろんその通り

287１３２人目の素数さん

2020/04/15(水) 07:19:52.90ID:RDFXoUEv

>>283
教科書には載ってないだけで、ちゃんと研究はされてるぞ。

288１３２人目の素数さん

2020/04/15(水) 10:03:34.39ID:W3U2j8/d

https://youtu.be/67FGN9RKmqw
この人が言っていることって正しいの？

条件付き確率なんて持ち出さなくても
疑わしい人を選んで検査したほうが
無作為に検査するよりも陽性の頻度が高まるのは
当たり前の話だと思うんだけど。

289１３２人目の素数さん

2020/04/15(水) 10:10:56.88ID:RDFXoUEv

＞疑わしい人を選んで検査したほうが
＞無作為に検査するよりも陽性の頻度が高まるのは
＞当たり前

その考え方がまさに条件付き確率だよ。

290１３２人目の素数さん

2020/04/15(水) 10:37:28.37ID:xqPpULBp

>>289
だーから、大層に数学的権威を持ち出さなくても
小学生にだって直感で分かることなのに。

で、それをもってどう検査数を疑わしいサンプルだけに絞ったほうが
その検査が持つ本来の精度が上がるという理屈は論理的に正しいの？

291１３２人目の素数さん

2020/04/15(水) 11:01:07.91ID:9c33QMeg

>>290
何をもって精度が上がるというのかによるけど、陽性と判定された
人が確かに陽性である可能性は高くなる。絞らないと、陽性だと言
われた人の中に相当数陰性の人が交じる可能性が高い。

ただし、陰性と言われた人が確かに陰性である可能性は低くなる。

292１３２人目の素数さん

2020/04/15(水) 12:10:24.29ID:hQN0z2GO

【コロナ訃報】英数学者ジョン・ホートン・コンウェイ氏、コロナで死亡　８２歳　ライフゲーム考案、超現実数の発明などで知られる

293１３２人目の素数さん

2020/04/15(水) 12:14:29.71ID:tBvL+zz3

> だーから、大層に数学的権威を持ち出さなくても
> 小学生にだって直感で分かることなのに。
ﾜﾛﾀ

294１３２人目の素数さん

2020/04/15(水) 12:20:37.56ID:9c33QMeg

検査した場合、次の４パターンが考えられる。
（１）陽性判定（ほんとに感染者）　
　　　　→隔離され、しばらく様子見（症状に応じて治療）→治れば解放

（２）陽性判定（実は感染してない）
　　　　→隔離され、しばらく様子見→そこで他の感染者から感染

（３）陰性判定（ほんとに感染してない）
　　　　→自主隔離で自宅で２週間程度様子見

（４）陰性判定（実は、感染）
　　　　→自主隔離で自宅で様子見→状態が悪くなって再検査or自然治癒

疑い例に絞らず、市中感染率がいまのように低い状況で検査をすると、
（２）の割合が増えてかえって感染者を増やす可能性が高い。
疑い例に絞ると（４）の割合が相対的に増えるが、疑い例に絞らずに検査
した場合より実数として増えるわけではないので、問題ない。

295１３２人目の素数さん

2020/04/15(水) 12:38:37.69ID:xqPpULBp

>>291
> 何をもって精度が上がるというのかによるけど、

当然、PCR検査の対象者を陽性らしい人だけに絞れば
PCR検査が本来持つ精度そのものが上がるのかってことだよ。
直感的に考えたら上がらない。
条件確率を用いるとなぜ「PCR検査それ事態の性能が上がる」と
結論できるのか、それを説明できる人がいる？

296１３２人目の素数さん

2020/04/15(水) 12:43:43.28ID:xqPpULBp

>>293
実際そうでしょう。小学生にその質問をしてみるといいよ。

風邪っぽい症状がある人だけを集めたグループAと
そうじゃない人を当てずっぽうに集めたグループBがあって、
どっちの検査をしたほうが陽性の人がたくさん見つかるのかって。

ほとんどの小学生が計算なんかしなくてもグループAだと答えるでしょう。

297１３２人目の素数さん

2020/04/15(水) 15:42:48.56ID:9c33QMeg

>>295
精度の定義はなんなのかってこと。精度とか性能をきちんと
定義して考えないと、小学生の思考からは抜け出せないよ。
ってか、>>291に書いてあることは理解できたの？

298１３２人目の素数さん

2020/04/15(水) 15:45:17.00ID:9c33QMeg

>>296
やっぱり>>291に書いてあることが理解できてないみたいね。
ある人が陽性だと判定されたときに、その検査結果がどのくらい
信用できるかってことだよ。

299１３２人目の素数さん

2020/04/15(水) 17:32:31.63ID:Bshpjqmp

検査の目的は、感染者をできるだけ発見すること。
そうすることで感染経路を追跡して虱潰しにできる。
それができると感染者が増えるのを抑制でき、肺炎で重篤化する患者も減らせる。
望ましくないのは、発見できていない感染者がどんどん増えること。

検査を手当たり次第にすれば偽陽性も含めて追跡できる。
感染しているのに追跡できない人が市中に増える確率は下がるはず。
偽陽性かどうかは他の症状や検査を繰り返すことでその不確実性を低減できるはず。

偽陰性の場合も他の症状との兼ね合いで不確実性を低減できるはず。
一度の検査を絶対視せず、それを重要な手がかりの一つと考えれば手がかりが増えることに貢献する。

このことから検査をしないほうが利得が高いとする根拠がどう見出されるのか疑問。

300１３２人目の素数さん

2020/04/15(水) 17:32:31.73ID:Bshpjqmp

301１３２人目の素数さん

2020/04/15(水) 18:59:26.56ID:9c33QMeg

>>300
検査をしない、じゃなくて、疑いがある場合だけに検査を絞るべきってこと。
その理由は >>294に書いてある。理解できなきゃ、自分の無能を嘆きなさい。

市中感染率が1％にも満たない世界で、無節操な検査を有効化するには、陽性
だろうが陰性だろうが軽症者は自宅隔離するという方法をとらないと駄目。
それでも、感染者が一定の割合で陰性判定されちゃうから、感染経路の
虱潰しなんてことは到底不可能。

302１３２人目の素数さん

2020/04/15(水) 19:02:16.82ID:9c33QMeg

>>300
>偽陰性の場合も他の症状との兼ね合い

無症状者も１割以上いるんじゃないか？

スレをまとめに
5ch即うp → gzo.ai

■ このスレッドは過去ログ倉庫に格納されています

数学 統計に詳しい人が語るコロナウイルス

数学統計に詳しい人が語るコロナウイルス