上QQ阅读APP看书,第一时间看更新
1.2.3 数据集分类
临床预测模型建模和验证的数据集称为训练集和验证集。如果验证集是来自训练集来源的同一人群,则称为内部验证;如果验证集来自外部数据,则称为外部验证,如图1-12所示。
图1-12 预测模型数据集与验证区分
很多时候,我们对数据进行拆分,分为训练集和验证集,用训练集建模,然后用验证集进行验证,注意此时也是内部验证,因为验证集与训练集是同一批数据被拆分开的;同样在某单位搜集前2年的数据作为训练集,后1年的数据作为验证集,这种情况也属于内部验证,因为也是来自同一家机构的。外部验证是指验证集来自不同于训练集的数据,比如A医院建模,而采用B医院数据进行验证,这就属于外部验证。
另从统计分析方法上,同一数据进行拆分为训练集和验证集,与A医院数据建模,B医院数据验证,在统计实现方法上是一样的,均属于统计学上的外部验证;而对研究全部数据进行建模,然后采用Bootsrap或交叉验证的方法验证,都属于统计学上的内部验证。这个容易混淆,一个是统计学上的内部验证与外部验证,另一个是数据集上的内部验证与外部验证。