当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

一种基于掩码语言模型的基因型补全方法及相关设备技术

技术编号：40488665 阅读：7 留言：0更新日期：2024-02-26 19:20

本发明专利技术公开了一种基于掩码语言模型的基因型补全方法及相关设备，所述方法包括：获取全基因组单倍体缺失序列以及对应的染色体位置序列，并对全基因组单倍体缺失序列进行映射处理，得到模型输入序列；根据模型输入序列和染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；获取目标全基因组单倍体缺失序列，并输入至基因型补全模型，得到目标缺失基因，并根据目标缺失基因对目标全基因组单倍体缺失序列中的缺失点位进行补全，得到补全后完整的基因序列。本发明专利技术能够提高全基因组单倍体序列，特别是低频率等位基因中缺失位点的基因补全准确度，同时也能够提升其基因补全效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种基于掩码语言模型的基因型补全方法、系统、终端及计算机可读存储介质。

技术介绍

1、基因是遗传物质的基本单位，控制生物体内各种生化过程和特征的遗传因子。对基因序列进行精准对测定具有重大的生物学和医学意义，可以帮助人类提前发现疾病并及时预防和治疗。基于高通量测序技术的发展提升了基因测序精度，但也存在着测序成本大幅增加的问题，如果降低全基因测序的成本，会带来更多的检测位点缺失，这就会导致样本中有没有被测序数据覆盖到的区域，基因型就属于未知的，将这些缺失的区域称为缺失位点。

2、但是当前一些基于深度学习的基因补全方法在低频率等位基因上补全性能较差，准确度相比于高频等位基因有很大的差距，这样的结果会影响后续全基因组关联性分析等工作。

3、因此，现有技术还有待于改进和发展。

技术实现思路

1、本专利技术的主要目的在于提供一种基于掩码语言模型的基因型补全方法、系统、终端及计算机可读存储介质，旨在解决现有技术中采用深度学习的基因补全方法在低频率等位基因上补全性能较差，准确度低的问题。

2、为实现上述目的，本专利技术提供一种基于掩码语言模型的基因型补全方法，所述基于掩码语言模型的基因型补全方法包括如下步骤：

3、获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列；

4、根据所述模型输入序列和所述染色体位置序列对掩码语言

5、获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。

6、可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，之前还包括：

7、获取原始全基因组单倍体序列，将所述原始全基因组单倍体序列中预设数量的原始基因位点进行缺失标记，得到所述全基因组单倍体缺失序列。

8、可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，具体包括：

9、获取所述全基因组单倍体缺失序列中每个基因位点在所属染色体中的位置，得到所述染色体位置序列；

10、根据预设词典中的对应关系对所述全基因组单倍体缺失序列中的每个基因位点进行映射处理，得到所述全基因组单倍体缺失序列中的每个基因位点对应的自然数值，并根据所述自然数值构建得到所述模型输入序列。

11、可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型，具体包括：

12、将所述模型输入序列和所述染色体位置序列输入至所述掩码语言模型的嵌入层中，并基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量；

13、将多个所述嵌入向量输入至所述掩码语言模型的编码层中，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量；

14、根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型。

15、可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述嵌入向量包括第一向量和第二向量；所述基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量，具体包括：

16、基于所述掩码语言模型中的嵌入层将所述模型输入序列中的每个元素映射到预设纬度空间，得到多个所述第一向量；

17、基于所述掩码语言模型中的嵌入层控制所述染色体位置序列对所述全基因组单倍体缺失序列中的每个基因位点进行正余弦编码，得到多个所述第二向量。

18、可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述将多个所述嵌入向量输入至所述掩码语言模型的编码层中，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量，具体包括：

19、将多个所述第一向量和多个所述第二向量进行加和处理，并输入至所述掩码语言模型的编码层，并基于所述编码层对多个所述第一向量和多个所述第二向量进行自注意计算，得到第三向量；

20、对所述第三向量进行归一化处理和线性转化处理，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量。

21、可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型，具体包括：

22、获取缺失标记位点在所述全基因组单倍体缺失序列中对应的所述概率向量，并将所述概率向量中最大值对应的基因位点作为所述缺失标记的基因对应的目标缺失基因；

23、获取所述原始全基因组单倍体序列中进行缺失标记的所述原始基因位点，将所述目标缺失基因与所述原始基因位点进行对比，得到对比结果，并根据所述对比结果对所述掩码语言模型进行训练和优化，得到所述基因型补全模型。

24、此外，为实现上述目的，本专利技术还提供一种基于掩码语言模型的基因型补全系统，其中，所述基于掩码语言模型的基因型补全系统包括：

25、样本突变序列生成模块，用于获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列；

26、基因型补全模型生成模块，用于根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；

27、缺失基因补全模块，用于获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。

28、此外，为实现上述目的，本专利技术还提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被所述处理器执行时实现如上所述的基于掩码语言模型的基因型补全方法的步骤。

29、此外，为实现上述目的，本专利技术还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被处理器执行时实现如上所述的基于掩码语言模型的基因型补全方法的步骤。<本文档来自技高网...

【技术保护点】

1.一种基于掩码语言模型的基因型补全方法，其特征在于，所述基于掩码语言模型的基因型补全方法包括：

2.根据权利要求1所述的基于掩码语言模型的基因型补全方法，其特征在于，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，之前还包括：

3.根据权利要求1所述的基于掩码语言模型的基因型补全方法，其特征在于，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，具体包括：

4.根据权利要求2所述的基于掩码语言模型的基因型补全方法，其特征在于，所述根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型，具体包括：

5.根据权利要求4所述的基于掩码语言模型的基因型补全方法，其特征在于，所述嵌入向量包括第一向量和第二向量；所述基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量，具体包括：

7.根据权利要求4所述的基于掩码语言模型的基因型补全方法，其特征在于，所述根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型，具体包括：

8.一种基于掩码语言模型的基因型补全系统，其特征在于，所述基于掩码语言模型的基因型补全系统包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被所述处理器执行时实现如权利要求1-7任一项所述的基于掩码语言模型的基因型补全方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被处理器执行时实现如权利要求1-7任一项所述的基于掩码语言模型的基因型补全方法的步骤。

...

【技术特征摘要】

1.一种基于掩码语言模型的基因型补全方法，其特征在于，所述基于掩码语言模型的基因型补全方法包括：

6.根据权利要求5所述的基于掩...

【专利技术属性】
技术研发人员：陈俊杰，梁世琦，
申请(专利权)人：哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人