栏目分类
热点资讯
伊人情人网综合 设备临床预测模子的样本量估算(附R代码)
发布日期:2024-08-15 08:20 点击次数:104
一、近况与问题伊人情人网综合
样本量估算是医学联系盘考必不成少的一个关节,临床预测模子盘考也不例外。那么如何计算临床预测模子设备样本量呢?
据我检索,国内许多预测模子盘考沿用了一些样本量估算训导递次,其中最为常用的递次即是确保每个预测参数至少有10个事件,也被称为稀疏之一法例,即10 EPV(Events per variable),即是说要确保每个预测参数(即挂念方程中的每个β项)至少有 10 个事件被探讨纳入预测模子方程中。
歌也色另外,孙振球讲明主编的《医学统计学(第四版)》也给出了一些常用的训导递次,比如:自变量个数的15~20倍(logistic挂念分析)、自变量个数的5~10倍(多元线性挂念)、自变量个数的15~20倍(Cox挂念)。个东说念主认为这些不错看作是10 EPV的彭胀。
然而,上述估算递次只是是训导作念法,只是探讨了最终纳入模子的变量个数(本体上探讨的是所有这个词β的个数),莫得探讨到多分类、交互作用、非线性关系等方面的影响,因此,最佳是使用每个候选预测因子参数的事件数(EPP)来进行预测。候选参数很遑急,因为模子过拟合的历程取决于所探讨的预测参数总和,而不单是是最终模子方程中包含的预测参数。
此外,本体所需的样本量取决于具体情况,不仅取决于事件数目与候选预测参数数目的关系(EPP),还取决于参与者总和、盘考东说念主群中的恶果比例(发生率)以及模子的预期预测性能。
二、更保举的递次
Richard D Riley等学者推出了一种专用于设备临床预测模子的样本量估算递次,并设备出了实用的计算器用,连年来被无为使用。该递次以论文的形状发表在2020年的BMJ杂志上,即:Calculating the sample size required for developing a clinical prediction model。
图片
具体是若何回事呢?咱们一说念学习下吧。
Richard D Riley等盘算了4个关节来估算预测模子的样本量,每个关节齐是根据特定的问题算得一个样本量,然后采选4个样本中最大者当作终末笃定的样本量,底下是4个关节的大致态状,仅列出关节1的公式图。
第1步:多大的样本量才能精确揣测总体恶果风险或平均恶果值?
图片
第2步:多大的样本量不错得到整个个体平均差错较小的预测值?
第3步:多大的样本量不错产生较小的所需预测效应收缩?
第4步:多大的样本量不错使模子拟合度达到较小的乐不雅历程?
这4个关节适用范围广,不管是勾搭、二元分类的结局方针,还是时刻到事件(time-to-event)的结局方针伊人情人网综合,齐不错用。
Richard D Riley等还盘算了一个锻真金不怕火的Stata和R包,名字就叫作念:pmsampsize。愚弄这个包,盘考者就不错在特定的盘考环境入彀算预测模子所需的最小样本量,该包的主义是最大罢休地裁汰模子过拟合的可能性,同期对要害参数进行精确揣测。
终末,Richard D Riley等学者在论文中给出了一些建议,我个东说念主合计很实用,共享给公共。
1、上述递次仅计算所需最小的样本量,本体上样本量越大,模子越可靠;
2、数据应具有充足的质地,并能代表标的东说念主群和应用环境,不然预测将不精确;
3、最佳使用整个可用数据进行模子设备(即幸免数据分割),并使用重采样递次(如bootstrap)进行里面考据。
4、采选机器学习设备预测模子不仅要计算样本量,何况样本量常常更大,数据少了很容易过拟合。
5、外部考据也不错用上述递次计算样本量,要是只波及模子小幅度更新,样本量不错更小。
诚然,该论文还态状了更多细节与实用的建议,要是公共感有趣的话,不错望望原论文。
三、用R讲话计算样本量
咱们来体验下R讲话版的pmsampsize包,先装置pmsampsize包,大开匡助文档,不错看到联系pmsampsize包的态状,我把它翻译了下:
pmsampsize可用于计算勾搭、二元或糊口(时刻到事件)恶果模子设备所需的最小样本量。Riley等东说念主建议了一系列样本量应满足的尺度。这些尺度旨在将过拟合降到最低,并确保预测模子中要害参数的精确揣测。
关于勾搭性恶果,有4个尺度:
1) 过拟合历程小,即预测效应预期放松10%或更小。(注:对应前边先容的关节3)
2) 模子的表不雅R方值和调遣R方值的十足差值小于0.05。(对应关节4)
3) 精确揣测残差尺度差。(对应关节2)
4) 精确揣测平均恶果值。(对应关节1)
样本量计算条目用户事先指定(举例,根据当年的凭证)模子的预期R方,以及联系东说念主群的平均恶果值和恶果值的尺度差。
关于二元或糊口(时刻到事件)恶果,有3个尺度:
1) 过拟合历程小,即预测效应的预期缩减不提高10%。(对应关节3)
2) 模子的表不雅R方值和调遣后的Nagelkerke's R方值十足差值小于0.05。(对应关节4)
3) 精确揣测(在 /- 0.05范围内)预测要害时刻点的东说念主群平均恶果风险。(对应关节1)
四、代码演示
1、二分类贵府(logistic挂念预测模子)
library(pmsampsize)pmsampsize(type = 'b', rsquared = 0.288, parameters = 24, prevalence = 0.174)解读:使用 24 个候选预测参数建立二元恶果多变量预测模子所需的最小样本量。根据以往的凭证,假定发生率瞻望为0.174(17.4%),现存预测模子的(取自现存预测模子的纠正Cox-Snell R方)R方值下限为0.288。
图片
还有另一种情况,假定咱们无法从现存的预测模子中得回Cox-Snell R深广揣测值,但有呈报称现存预测模子的C统计量为(0.89)。咱们不错使用这个 C 统计量和患病率,用 Riley 等东说念主(2020)的递次访佛计算 Cox-Snell R 深广。用法简便,使用cstatistic() 选项代替 rsquared() 选项即可。
pmsampsize(type = 'b', cstatistic = 0.89, parameters = 24, prevalence = 0.174)
图片
2、勾搭恶果(线性预测模子)
以勾搭变量为例,计算使用 20 个候选预测因子建立勾搭性恶果多变量预测模子所需的最小样本量。咱们假定该领域现存的预测模子的调遣R深广为0.9,东说念主群中该勾搭变量的平均值为26.7,SD为8.7。
pmsampsize(type = 'c', rsquared = 0.9, parameters = 20, intercept = 26.7,sd = 8.7)
图片
3、糊口分析(Cox预测模子)
计算使用30 个候选预测因子建立糊口恶果多变量预测模子所需的最小样本量。假定咱们知说念现存的同领域预测模子的调遣R深广为0.051。此外,在之前的盘录取,平均随访时刻为2.07年,总体事件发生率为0.065。咱们领受一个感有趣的时刻点,使用新设备的2年模子进行预测。
pmsampsize(type = 's', rsquared = 0.051, parameters = 30, rate = 0.065, timepoint = 2, meanfup = 2.07)
恶果就不贴了伊人情人网综合,这个包的用法挺简便,公共不错解放体验。
本站仅提供存储处事,整个内容均由用户发布,如发现存害或侵权内容,请点击举报。