生物信息学——数据挖掘
生物信息学以各种各样的生物学数据为研究材料,通过计算机处理后再进行结果解读,处理方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。当前主要的研究方向有:序列比对、序列组装、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及进化模型创建等。
生物信息学的兴起有赖于测序技术、生物样本库以及计算机科学等的高速发展。生物信息学的发展也衍生出了一系列组学研究,包括转录组学、基因组学、蛋白质组学、代谢组学和微生物组学等,所有这些组学都是由一个个小型或大型的数据库构成的。
数据挖掘的常见功能如下:
1.分类(classification)按照分析个体的属性状态分别加以区分,并建立类组
2.估计(estimation)根据已有的数量型变量和相关的分类变量,以获得某一属性的估计值和预测值
3.预测(prediction)根据个体属性的已有观测值来估计个体在某一属性上的预测值
4.关联分组(affinity grouping)从所有对象决定哪些相关对象应该放在一起
5.同质分组(clustering)将异质总体分成为同质性类别(clusters),即聚类分类,关联分组和同质分组即通过转录组,基因组或其他一些特征将不同的样本分成多个亚型,如乳腺癌的luminal和basal型,而估计和预测则是通过分析某个变量来预估另一个变量的变化情况,如高肿瘤突变负荷的患者更倾向于对免疫治疗有效,其生存时间更长等等。
数据挖掘的过程如下:
1.理解数据和数据的来源(understanding)
2.获取相关知识与技术(acquisition)
3.整合与检查数据(integration and checking)
4.去除错误或不一致的数据(data cleaning)
5.建立模型和假设(model and hypothesis development)
6.实际数据挖掘工作(data mining)
7.测试和验证挖掘结果(testing and verification)
8.解释和应用(interpretation and use)
生物信息数据挖掘越来越受到国家和科研工作者的重视,在未来临床医学方面数据挖掘是实现“精准医疗”的关键技术,因此生物信息数据挖掘会极大地推动了相应学科和临床的的发展。