生物信息—深度学习在IR筛选研究中的作用
已有发现表明IR与多种复杂疾病有关。例如,IR 参与了一种重要调控机制,并作为神经退行性疾病敏感且特异的诊断标志物。此外,也有研究发现IR在一系列癌症转录组中广泛存在,并被认为与抑癌基因失活有关。
但是IR识别和量化中有许多挑战面对,简而言之,识别和量化IR事件的风险因素主要包括DNA污染或未处理的pre-mRNA转录物引入的转录“噪音”(目前IR都是独立研究的偶然性发现,系统性筛选IR目前还无法实现)。
那么如何正确挖掘出在此过程中发挥重要作用的IR分子呢?本文将系统性的介绍如何应用生物信息学、深度学习等方法分析挖掘IR的变化规律和机制。
1、利用转录组测序技术观察IR表达变化
作为高通量测序的重要组成部分,转录组测序技术 (RNA-seq)是转录组学分析中的有用工具。RNA-seq 数据可用于分析转录组信息,例如基因表达和剪接位点分析。目前,可以使用专用于 IR 检测的工具。
比如,在一种疾病动物模型或者生物学特性改变的细胞模型中观察到IR的表达谱改变,常用的表现形式就是如下热图。当然,同时则需要观察IR相对应的基因的表达水平是否发生相对应的改变。这其中用到的工具,通常是StringTie,DESeq2, IRcall(一种排名策略)和 IRclassifier(随机森林分类器)等软件。
2、特定基因干预对IR的影响
其次,研究一个特定基因的干预是否影响了这种疾病或特性的进展/改变,通常这种基因属于剪接因子家族。更进一步的,这种关键基因的干预往往会引起其靶向基因整体性的发生IR增强或减弱。其中可能用到TopHat,MISO等软件工具。
3、筛选关键靶标并验证其变化
在做好前面的铺垫后,最重要的当然是要找到这个基因的靶标是什么,也就是它的调控机制。
一般来讲,筛选关键靶标需要参考多个筛选指标,比如存在结合位点(需要用到eCLIP数据库),伴随疾病进展有相应变化,在干预特定剪接因子后出现相应变化等。
选定靶标后主要可以使用IGV等工具形象显示其确实在内含子区域发生了显著改变,并通过实验手段再次验证其发生了变化。
4、利用多种机器学习方法预测IR
迄今为止也有研究提出利用多种机器学习方法来预测IR等差异剪接事件。例如,贝叶斯神经网络用于识别“剪接代码”,该方法由数百个 RNA 序列和结构特征(包括大量文献中描述的顺式元件)组成,并预测选择性剪接中的组织特异性变化。
5、利用深度神经网络方法预测可变剪接
另外,深度神经网络方法在预测可变剪接模式方面进一步实现了更强的性能。比如SpliceAI基于深度学习方法准确预测任意pre-mRNA 转录序列的剪接点,从而能够精确预测导致神秘剪接的非编码遗传变异,并在罕见遗传疾病中的发挥重要作用。
6、IR挖掘筛选方法总结
总的来说,目前的IR挖掘筛选方法可以通过整合先验知识、选择合适的参数阈值等来改进。先验知识包括诸如内含子长度、剪接调控元件的分布、剪接位点的规范或非规范状态以及剪接强度等特征均可以用作改进IR的检测能力。而参数阈值包括设计方法以结合内含子的序列特征和读取覆盖率变化以自适应地确定单个内含子特定的最佳参数阈值可能有助于IR 检测。
随着越来越深入的研究开展,IR作为一种重要的选择性剪接模式,有望从新的角度加深我们对基因表达调控和疾病的认识。而与此同时,系统全面的大数据、高效精准的生信分析挖掘算法和深厚独到的研究经验是这一领域能够快速发展的三驾马车,缺一不可。