基于自训练文本纠错和文本匹配的医学直报方法及系统技术方案

技术编号:38348630 阅读:24 留言:0更新日期:2023-08-02 09:28
本发明专利技术涉及疾病预警技术领域,具体为基于自训练文本纠错和文本匹配的医学直报方法及系统;本方法包括基于原始病历数据构造文本纠错模型的训练数据,得到缺字补充模型和错字纠错模型,将新输入数据通过模型进行文本纠错处理,将纠错处理过后的数据,使用bm25算法和jaccard算法计算与已有疾病标准名称知识库的相似度,选择相似度综合评分最大的已有疾病标准名称作为该新输入数据映射的标准疾病名称,与危险传染疾病数据库中的传染疾病名称进行直接匹配检索,若存在相应的数据,则判断当前疾病为危险传染病,将该疾病直接上报给机构,完成危险病直报;实现数据标准化,使得直报系统可以准确识别病症,克服系统不准确的问题。克服系统不准确的问题。克服系统不准确的问题。

【技术实现步骤摘要】
基于自训练文本纠错和文本匹配的医学直报方法及系统


[0001]本专利技术涉及疾病预警
,具体为基于自训练文本纠错和文本匹配的医学直报方法及系统。

技术介绍

[0002]随着社会和自然环境的变化,传染病的病原体、传播途径、发病特点以及影响因素也发生很大变化,如何能早期识别到传染病突发公共卫生事件,及时发出警报,尽早采取相应的控制措施,将突发公共卫生事件造成的损失降到最低,是公共卫生领域长期以来关注的焦点,也是卫生应急工作的重要内容。传染病突发公共卫生事件预警是避免或减少传染病发生、流行,减少对公众健康、社会安全和经济发展造成影响的重要预防控制措施,也充分体现了卫生应急工作预防为主的基本方针。突发公共卫生事件预警,是通过对有关数据的收集,整理、分析和整合,运用计算机、网络、通讯等现代先进的技术,对事件的征兆进行监测、识别、诊断与评价,及时报警,告知有关部门和公众做好相关的应对和准备工作,及时采取有效的防控措施,尽可能阻止或减缓突发事件的发生或减少事件的危害。
[0003]随着诊疗数据信息化的发展,我们对数据治理的需求也随之提高,针对风本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自训练文本纠错和文本匹配的医学直报方法,其特征在于,包括:基于原始病历数据构造文本纠错模型的训练数据,文本纠错模型的训练数据包括缺少字符的训练数据和错别字的训练数据;使用所述缺少字符的训练数据和错别字的训练数据分别基于bert预训练模型训练缺字补充模型和错字纠错模型,得到缺字补充模型和错字纠错模型;将新输入数据通过所述缺字补充模型和错字纠错模型进行文本纠错处理;将纠错处理过后的数据,使用bm25算法和jaccard算法计算与已有疾病标准名称知识库的相似度;将bm25算法和jaccard算法计算的相似度进行相加,得出相似度综合评分;在所述已有疾病标准名称知识库中选择相似度综合评分最大的已有疾病标准名称作为该新输入数据映射的标准疾病名称;将所述映射的标准疾病名称与危险传染疾病数据库中的传染疾病名称进行直接匹配检索,若在危险传染病数据库中存在相应的数据,则判断当前疾病为危险传染病,将该疾病直接上报给负责机构,完成危险病直报。2.根据权利要求1所述的基于自训练文本纠错和文本匹配的医学直报方法,其特征在于,所述基于原始病历数据构造文本纠错模型的训练数据包括:在原始病历数据中的每句话中随机对句中的两个字符进行删除,并记录删除位置的字符索引和删除的字符信息,构造缺少字符的训练数据;在原始病历数据中的每句话中随机对句中的两个字符用其他字符替换,并记录替换位置的字符索引和替换前原始字符的信息,构造错别字的训练数据。3.根据权利要求1所述的基于自训练文本纠错和文本匹配的医学直报方法,其特征在于,所述bert预训练模型的结构包括:L1embedding层,通过embedding权重矩阵和输入数据映射的id进行矩阵相称,得出embedding词向量作为输入数据的embedding矩阵表示,向量维度为768维;L2多头注意力机制层,对embedding层输出的768维特征向量分别经过三个线性层做矩阵特征提取,经过矩阵乘法计算得出每个输入数据融合了注意力信息的768维向量表示;L3前向计算层,将多头注意力机制层每个输入经过两层线性层,并经过激活层激活后输出每个数据最终的768维向量表示;所述bert预训练模型的损失函数为:其中,p(x)为当前输入的真实标签label,q(x)为模型对每个标签label的预测值。4.根据权利要求1所述的基于自训练文本纠错和文本匹配的医学直报方法,其特征在于,所述将纠错处理过后的数据,使用bm25算法和jaccard算法计算与已有疾病标准名称知识库的相似度包括:使用bm25算法计算与已有疾病标准名称知识库的相似度:对于句子s1进行分词,生成词列表[w
i ],对于要与句子s1进行比较的句子s2,计算每个词w
i
与s2的相关性得分,最后将w
i
相对s2的相关性得分进行加权求和,计算公式如下:
其中,idf(w
i
)为词w
i
的idf值,f
i
为词w
i
在句子s2中出现的频率,k1与b为调节因子,分别为2和0.75,len(s2)为句s2的长度,avgsl是所有句子的平均长度。5.根据权利要求1所述的基于自训练文本纠错和文本匹配的医学直报方法,其特征在于,所述将纠错处理过后的数据,使用bm25算法和jaccard算法计算与已有疾病标准名称知识库的相似度包括:使用jaccard算法计算与已有疾病标准名称知识库的相似度:计算纠错处理过后的数据集合A与已有疾病标准名称知识库中的已有疾病标准名称集合B的Jaccard系数,计算公式如下:。6.一种基于自训练文本纠错和文本匹配的医学直报系统,其特征在于,包括训练数据构造模块、缺字补充模型和错字纠错模型构建模块、文本纠错模块、相似度计算模块、综合评分模块、映射标准疾病名称确定模块和直报...

【专利技术属性】
技术研发人员:刘硕杨雅婷白焜太宋佳祥许娟史文钊
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1