一种面向医学骨科文本的文本推理方法、系统及介质技术方案

技术编号：33884465 阅读：15 留言：0更新日期：2022-06-22 17:17

本发明专利技术公开了一种面向医学骨科文本的文本推理方法、系统及介质，本发明专利技术面向医学骨科文本的文本推理方法包括将医学骨科文本P输入面向医学骨科文本的文本推理模型获得文本推理结果，所述文本推理模型包含分词器、知识编码器以及文本整合器，所述分词器用于对输入的医学骨科文本P进行分词，所述知识编码器用于将分词结果提取得到具有专业背景知识和时间敏感的文本，所述文本整合器用于将具有专业背景知识和时间敏感的文本进行文本整合得到最终的文本推理结果。本发明专利技术能够利用大规模预训练模型里面学到的语法规则知识来辅助生成更加通顺的医学骨科文本表达，实现了一种可以捕获时间关联的文本信息，可实现更高的病人病历文本的诊断精度。文本的诊断精度。文本的诊断精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向医学骨科文本的文本推理方法、系统及介质

[0001]本专利技术涉及基于自然语言描述的医学骨科文本解析推理技术，具体涉及一种面向医学骨科文本的文本推理方法、系统及介质。

技术介绍

[0002]医学文本的解析推理作为一个自然语言处理领域的基础问题在研究领域中得到了日益增加的关注。通过一系列简短的病历文本叙述来描述病人的病情，并提出根据这些文本叙述材料进行解析推理得到一个合适的结论。近年来，基于深度学习方法的自然语言处理在医学骨科文本的研究受到越来越多的关注。电子的健康记录在医学领域上的应用越来越广泛，比如电子病历、电子版问诊记录等。医院里面每一天的电子文本记录包含了很多种类型的数据，包括医学编码、对话问诊、骨科CT文本报告记录等。其中，医学骨科文本作为追踪病人病情的重要手段之一，可以从不同时间点的骨科诊断文本数据来评估病人当前病情的情况，比如住院时间、骨头的愈合状况变化、病人复诊记录等。这些基于时间的医学骨科文本信息，可以为医学提供一种更加智能的辅助信息，帮助医生更好地判断病人的病情发展情况。
[0003]早期的研究主要集中在基于序列化(Seq2Seq)的模型上，这些基于序列化的方法旨在通过使用相关领域训练数据集从头开始训练端到端模型。一些研究侧重于开发基于手工提取的特征或者是基于规则的系统对医学骨科文本数据进行处理。近年来，因为深度学习的发展，该类问题得到了很大的进步。基于深度学习的方法利用端到端的深度神经网络的方法在图片、语音、文本等领域都获得了非常好的新效果。之前的方法大多是基于手工设计的特征来对不...

【技术保护点】

【技术特征摘要】
1.一种面向医学骨科文本的文本推理方法，其特征在于，包括将医学骨科文本P输入面向医学骨科文本的文本推理模型获得文本推理结果，所述文本推理模型包含分词器、知识编码器以及文本整合器，所述分词器用于对输入的医学骨科文本P进行分词，所述知识编码器用于将分词结果提取得到具有专业背景知识和时间敏感的文本，所述文本整合器用于将具有专业背景知识和时间敏感的文本进行文本整合得到最终的文本推理结果。2.根据权利要求1所述的面向医学骨科文本的文本推理方法，其特征在于，所述输入的医学骨科文本P的描述包含L个句子s
i
，每个句子包含T
i
个单词，从而得到任意第i个句子中的任意第t个单词W
it
，其中t∈[1,T]，T为第i个句子中的单词数量。3.根据权利要求1所述的面向医学骨科文本的文本推理方法，其特征在于，所述分词器对输入的医学骨科文本P进行分词的步骤包括：S1)对原始的医学骨科文本P进行分词；S2)对分词得到的所有词向量引入位置嵌入编码；S3)将对分词得到的所有词向量与对应的位置嵌入编码直接进行矩阵相加。4.根据权利要求3所述的面向医学骨科文本的文本推理方法，其特征在于，步骤S2)中引入位置嵌入编码是通过向每个嵌入位置添加一个正弦曲线来实现的，且引入的位置嵌入编码的函数表达式为：上式中，PE
(pos,2i)
表示引入位置嵌入编码，pos为该词向量的位置，i为该词向量的维度，d
text
为输入的文本特征的维度。5.根据权利要求1所述的面向医学骨科文本的文本推理方法，其特征在于，所述知识编码器为基于转换机结构的Roberta模型，所述基于转换机结构的Roberta模型被预先基于大型专业语料库OAI和MIMIC进行预训练以捕获隐性的专业医学知识，所述的知识编码器的编码步骤包括：S1)用WordPiece的工具包来标记一个输入的医学骨科文本描述，得到|Q|个令牌的序列；S2)将得到的上述|Q|个令牌的序列嵌入到完成预训练的Roberta模型中，并修改Roberta模型的位置编码，得到一系列d维的令牌表示；S3)将这些信息输入到基于转换机结构的预先训练的知识编码器中，在训练过程中对一系列的令牌表示进行微调；S4)对所有输出取平均，以得到组合隐式知识表示。6.根据权利要求1所述的面向医学骨科文本的文本推理方法，其特征在于，所述文本整合器包括依次相连的双向门控编码模块、注意力模块以及双向门控解码模块，所述文本整合器的处理步骤包括：S1)将多个病人的医学骨科文本合成一个矩阵；S2)采用双向门控编码模块对多个时间点的医学骨科文本进行编码，其函数表达式为：h
{1:m}
＝BiGRU
enc
(U
m
,h0)，
E
enc
＝ReLU(Uinear(E
U
))，上式中，h
{1:m}
表示第1个词到第m个词的隐层特征，表示所有T时刻{T}的第1个词到第m个词的隐层特征，BiGRU
enc
表示双向门控的循环单元，U
m
表示包含m个单词的文本特征矩阵，h0表示第0个词的隐层特征，为中间结果，d
{text}
...

【专利技术属性】
技术研发人员：张斌，关锦图，周杰，何秋月，李莹莹，陈健斌，
申请(专利权)人：佛山市中医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人