一种基因关联程度确定方法及装置制造方法及图纸

技术编号:28126688 阅读:31 留言:0更新日期:2021-04-19 11:42
本发明专利技术公开了一种基因关联程度确定方法及装置,通过在各个预设关联数据库中确定疾病描述词条与多个基因的目标关联记录的记录数据,将该记录数据输入至预设词条

【技术实现步骤摘要】
一种基因关联程度确定方法及装置


[0001]本专利技术涉及基因关联
,特别是涉及一种基因关联程度确定方法及装置。

技术介绍

[0002]目前,随着医疗研究的不断深入,确定出与遗传性疾病有关的致病基因,将为相关人员对该遗传性疾病的研究以及后续处理提供重要的辅助作用。
[0003]遗传性疾病一般与多个致病基因有关。患有遗传性疾病的病人的病例描述文本中可能存在由疾病描述词条描述的多种临床表型信息。不同的临床表型信息关联的致病基因可能有一个或多个。不同的临床表型信息关联的致病基因可能相同,也可能不同。在当前确定的遗传性疾病有5181种,基因有15428种的情况下,如何快速确定病人的病例描述文本中的疾病描述词条与各基因的关联程度,成为相关人员急需解决的技术问题。

技术实现思路

[0004]鉴于上述问题,本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种基因关联程度确定方法及装置,技术方案如下:
[0005]一种基因关联程度确定方法,包括:
[0006]确定病例描述文本中的疾病描述词条;
[0007]对多个预设关联数据库:分别根据所述疾病描述词条与多个基因中各基因对应的基因标识,在该预设关联数据库中确定目标关联记录的记录数据,将所述记录数据输入至预设词条

基因关联矩阵中,确定所述疾病描述词条分别与所述多个基因中各基因在该预设关联数据库中的关联分数,其中,各预设关联数据库中均保存有所述疾病描述词条与所述多个基因中至少一个基因对应的基因标识的关联记录;
[0008]根据所述疾病描述词条与所述多个基因对应的基因标识分别在所述多个预设关联数据库中的关联分数,确定所述疾病描述词条分别与所述多个基因的关联程度。
[0009]可选的,所述分别根据所述疾病描述词条与多个基因中各基因对应的基因标识,在该预设关联数据库中确定目标关联记录的记录数据,包括:
[0010]对多个基因中的任一基因:分别确定所述疾病描述词条与该基因对应的基因标识在该预设关联数据库中的目标关联记录的记录数据,所述目标关联记录的记录数据包括:同时包括该基因的基因标识和所述疾病描述词条的关联记录的第一数量、包括所述疾病描述词条的关联记录的第二数量、包括该基因的基因标识的关联记录的第三数量以及该预设关联数据库中的关联记录的总数量。
[0011]可选的,所述预设词条

基因关联矩阵为:
[0012][0013]其中,M为在该预设信息

基因数据库中所述疾病描述词条与该基因对应的基因标
识的关联分数;T1为所述第一数量;T2为所述第二数量;T3为所述第三数量;T
S
为所述总数量。
[0014]可选的,所述根据所述疾病描述词条与所述多个基因对应的基因标识分别在所述多个预设关联数据库中的关联分数,确定所述疾病描述词条分别与所述多个基因的关联程度,包括:
[0015]对任一基因:将所述疾病描述词条与该基因对应的基因标识在所述多个预设信息

基因关联数据库中分别对应的关联分数进行加权处理,获得所述疾病描述词条与该基因的关联值;
[0016]根据所述关联值,确定所述疾病描述词条与该基因的关联程度。
[0017]可选的,所述根据所述关联值,确定所述疾病描述词条与该基因的关联程度,包括:
[0018]根据
[0019][0020]确定所述疾病描述词条与该基因的关联程度,其中,L为所述疾病描述词条与该基因的关联程度;e为自然常数;z为所述关联值。
[0021]可选的,所述预设词条

基因关联矩阵的训练过程包括:
[0022]将作为训练信息的多个疾病描述词条与所述多个基因对应的基因标识在所述多个预设信息

基因关联数据库中的目标关联记录的记录数据输入至当前的词条

基因关联训练矩阵中,确定所述训练信息与所述多个基因在各预设信息

基因数据库下分别对应的预测关联分数;
[0023]根据确定的各所述预测关联分数,分别确定所述多个疾病描述词条与所述多个基因的预测关联程度;
[0024]确定所述多个疾病描述词条与所述多个基因的真实关联程度与所述预测关联程度的误差;
[0025]判断所述误差是否处于预设误差阈值以下,如果是,则确定所述当前的词条

基因关联训练矩阵为所述词条

基因关联矩阵,如果不是,则通过梯度下降算法调整所述当前的词条

基因关联训练矩阵中的矩阵参数,将调整后的词条

基因关联训练矩阵作为当前的词条

基因关联训练矩阵,返回执行所述将作为训练信息的多个疾病描述词条与所述多个基因对应的基因标识在所述多个预设信息

基因关联数据库中的目标关联记录的记录数据输入至当前的词条

基因关联训练矩阵中,确定所述训练信息与所述多个基因在各预设信息

基因数据库下分别对应的预测关联分数的步骤。
[0026]一种基因关联程度确定装置,包括:疾病描述词条确定单元、关联分数确定单元以及关联程度确定单元,
[0027]所述疾病描述词条确定单元,用于确定病例描述文本中的疾病描述词条;
[0028]所述关联分数确定单元,用于对多个预设关联数据库:分别根据所述疾病描述词条与多个基因中各基因对应的基因标识,在该预设关联数据库中确定目标关联记录的记录数据,将所述记录数据输入至预设词条

基因关联矩阵中,确定所述疾病描述词条分别与所
述多个基因中各基因在该预设关联数据库中的关联分数,其中,各预设关联数据库中均保存有所述疾病描述词条与所述多个基因中至少一个基因对应的基因标识的关联记录;
[0029]所述关联程度确定单元,用于根据所述疾病描述词条与所述多个基因对应的基因标识分别在所述多个预设关联数据库中的关联分数,确定所述疾病描述词条分别与所述多个基因的关联程度。
[0030]可选的,所述关联分数确定单元,具体用于对多个基因中的任一基因:分别确定所述疾病描述词条与该基因对应的基因标识在该预设关联数据库中的目标关联记录的记录数据,所述目标关联记录的记录数据包括:同时包括该基因的基因标识和所述疾病描述词条的关联记录的第一数量、包括所述疾病描述词条的关联记录的第二数量、包括该基因的基因标识的关联记录的第三数量以及该预设关联数据库中的关联记录的总数量。
[0031]可选的,所述预设词条

基因关联矩阵为:
[0032][0033]其中,M为在该预设信息

基因数据库中所述疾病描述词条与该基因对应的基因标识的关联分数;T1为所述第一数量;T2为所述第二数量;T3为所述第三数量;T
S
为所述总数量。
[0034]可选的,所述关联程度确定单元包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因关联程度确定方法,其特征在于,包括:确定病例描述文本中的疾病描述词条;对多个预设关联数据库:分别根据所述疾病描述词条与多个基因中各基因对应的基因标识,在该预设关联数据库中确定目标关联记录的记录数据,将所述记录数据输入至预设词条

基因关联矩阵中,确定所述疾病描述词条分别与所述多个基因中各基因在该预设关联数据库中的关联分数,其中,各预设关联数据库中均保存有所述疾病描述词条与所述多个基因中至少一个基因对应的基因标识的关联记录;根据所述疾病描述词条与所述多个基因对应的基因标识分别在所述多个预设关联数据库中的关联分数,确定所述疾病描述词条分别与所述多个基因的关联程度。2.根据权利要求1所述的方法,其特征在于,所述分别根据所述疾病描述词条与多个基因中各基因对应的基因标识,在该预设关联数据库中确定目标关联记录的记录数据,包括:对多个基因中的任一基因:分别确定所述疾病描述词条与该基因对应的基因标识在该预设关联数据库中的目标关联记录的记录数据,所述目标关联记录的记录数据包括:同时包括该基因的基因标识和所述疾病描述词条的关联记录的第一数量、包括所述疾病描述词条的关联记录的第二数量、包括该基因的基因标识的关联记录的第三数量以及该预设关联数据库中的关联记录的总数量。3.根据权利要求2所述的方法,其特征在于,所述预设词条

基因关联矩阵为:其中,M为在该预设信息

基因数据库中所述疾病描述词条与该基因对应的基因标识的关联分数;T1为所述第一数量;T2为所述第二数量;T3为所述第三数量;T
S
为所述总数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述疾病描述词条与所述多个基因对应的基因标识分别在所述多个预设关联数据库中的关联分数,确定所述疾病描述词条分别与所述多个基因的关联程度,包括:对任一基因:将所述疾病描述词条与该基因对应的基因标识在所述多个预设信息

基因关联数据库中分别对应的关联分数进行加权处理,获得所述疾病描述词条与该基因的关联值;根据所述关联值,确定所述疾病描述词条与该基因的关联程度。5.根据权利要求4所述的方法,其特征在于,所述根据所述关联值,确定所述疾病描述词条与该基因的关联程度,包括:根据确定所述疾病描述词条与该基因的关联程度,其中,L为所述疾病描述词条与该基因的关联程度;e为自然常数;z为所述关联值。6.根据权利要求1所述的方法,其特征在于,所述预设词条

基因关联矩阵的训练过程包括:
将作为训练信息的多个疾病描述词条与所述多个基因对应的基因标识在所述多个预设信息

基因关联数据库中的目标关联记录的记录数据输入至当前的词条

基因关联训练矩阵中,确定所述训练信息与所述多个基因在各预设信息

基因数据库下分别对应的预测关联分数;根据确定的各所述预测关联分数,分别确定所述多个疾病描述词条与所述多个基因的预测关联程度;确定所述多个疾病描述词条与所述多个基因的真实关联程度与所述预测关联程度的误差;判断所述误差是否处于预设误差阈值以下,如果是,则确定所述当前的词条

基因关联训练矩阵为所述词条

基因关联矩阵,如果不是,则通过梯度下降算法调整所述当前的词条

基因关联训练矩阵中的矩阵参数,将调整后的词条

基因关联训练矩阵作为当前的词条

基因关联训练矩阵,返回执行所述将作为训练信息的多个疾病描述词条与所述多个基因对应的基因标识在所述多个预设信息

基因关联数据库中的目标关联记录的记录数据输入至当前的词条

基因关联训练矩阵中,确定所述训练信息与所述多个基因在各预设信息

基因数据库下分别对应的预测关联分数的步骤。7.一种基因关联程度确定装置,其特...

【专利技术属性】
技术研发人员:周戬孔令翔王今安贺增泉
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1