每年,全球大约有数以百万计的新生儿缺陷患者,原因包括遗传的、环境的、病毒性的,其中有高达25%以上的新生儿先天缺陷找不到明确的原因。虽然超声医学、分子遗传检测技术已经有长足的进步,但依然有8%左右的新生儿先天缺陷在世界某些地区找不到原因,葡萄牙医生用 数据挖掘 方法的解决方案对我们很有启发。
葡萄牙医生首先以全球各诊所新生儿出生记录数据为基础,包括出生年月日、性别、家庭住址三项基础统计数据,然后用空间地理信息做匹配关联分析,就是分析出生婴儿与空间地理位置的关联性,结果如图 1 所示。
图1 各大洲新生儿缺陷抽样分布数 资料来源:葡萄牙医生 2014 年全球各大洲新生儿缺陷抽样调查报告
这项研究采用了简单的单变量模型:变量是缺陷新生儿的出生地址,方法是采用全球抽样的均匀分布法,确保抽样数据的代表性。
抽样方法的正确性是指抽样的代表性和随机性,代表性反映样本与批质量的接近程度,而随机性反映检查批中单位产品被抽入样本纯属偶然,即由随机因素所决定。在对总体质量状况一无所知的情况下,显然不能以主观的限制条件去提高抽样的代表性,抽样应当是完全随机的,这时采用简单随机抽样为合理。在对总体质量构成有所了解的情况下,可以采用分层随机或系统随机抽样来提高抽样的代表性。在采用简单随机抽样有困难的情况下,可以采用代表性和随机性较差的分段随机抽样或整群随机抽样。这些抽样方法除简单随机抽样外,都是带有主观限制条件的随机抽样法。通常只要不是有意识地抽取质量好或坏的产品,尽量从批的各部分抽样,都可以近似地认为是随机抽样。
1. 单纯随机抽样(simplerandom sampling)将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。
优点:操作简单,均数、率及相应的标准误计算简单。 缺点:总体较大时,难以一一编号。
2. 系统抽样(systematicsampling)该方法又称机械抽样、等距抽样,即先将总体的观察单位按某一顺序号分成 n 个部分,再从第一部分随机抽取第 k 号观察单位,依次用相等间距,从每一部分各抽取一个观察单位组成样本。
优点:易于理解、简便易行。 缺点:总体有周期或增减趋势时,易产生偏性。
3. 整群抽样(clustersampling)总体分群,再随机抽取几个群组成样本,群内全部调查。
优点:便于组织、节省经费。 缺点:抽样误差大于单纯随机抽样。
4. 分层抽样(stratifiedsampling)先按对观察指标影响较大的某种特征,将总体分为若干类别;再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和优分配两种方案。
优点:样本代表性好,抽样误差减少。
以上四种基本抽样方法都属单阶段抽样,实际应用中常根据实际情况将整个抽样过程分为若干阶段来进行,称为多阶段抽样。
葡萄牙医生在本故事中采用了分群与分层抽样调查相结合的方法,按五大洲分群抽取,每个洲又按历史高发地区分层抽取。整群的聚类(cluster)是数据挖掘技术上一个很重要的概念,把某维度属性相近的实例聚类是数据技术基础的方法;聚类后,距离太远的数据就是异常值。对数据处理的常规方法第一步就是聚类,把某些属性相近似的数据聚类后就可以进一步分析它们之间的关系,数据的聚类可以做回归(预测),数据的离散可以做预警(异常值)。
如图2所示,数据之间的关系可以从图形上表示出来,因此数据挖掘完全可以可视化地表现出来。就是说数据之间是有空间分布关系与距离的,用空间分布关系来表示数与数之间的关系,是现代数学的重要特征。
图2 数据聚类图示效果
本故事中,葡萄牙医生的重要发现是:
① 欧洲大量新移民聚类中产生了新生儿缺陷高发的现象,这一数据甚至超过了传统落后地区非洲的新生儿出生缺陷率。
② 伊拉克战争、叙利亚战争、也门内战导致的难民大量涌入欧洲,人口的大规模迁徙改变了欧洲的新生儿人口健康状况。
就这样,葡萄牙医生用了一个简单的变量(婴儿出生地),代入了一个简单的分析框架——空间地理坐标与新生儿缺陷的关联性,用抽样方法获取数据,后导出了近年来欧洲新生儿缺陷增加的主要原因:大规模移民难民潮。其中一个典型调查发现西班牙边境地区一个废弃的化学工厂是外来移民长期居住后新生儿缺陷发生的重要原因。
这是一个用数据进行知识发现(Knowledge-Discoveryin Databases,KDD)的故事也是一个典型的流行病监测模型。数据库知识发现是数据挖掘核心的意义。计算机时代,大量的数据被存放在数据库中,而不管是关系型数据库还是非关系型数据库,大量数据存储的成本都非常高昂;尤其在中国的三甲医院中,每天都有大量的门诊与住院数据产生,其中 80%是图像数据。一个普通的三甲医院每年产生大约 15TB~20TB 的新数据,这些数据中包含着许许多多疾病的新规律与知识发现,而用传统的统计学方法,用传统的手工或计算机方法已经无法处理或者无法准确地处理。这就是现代大数据技术产生的背景,包括传统的统计学、计算机技术、优化分析技术、机器学习与人工智能、在线分析与检索技术。
|