医学文本结构化方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26531431 阅读:23 留言:0更新日期:2020-12-01 14:12
本发明专利技术涉及一种人工智能技术,应用于医学文本处理领域,尤其公开一种医学文本结构化方法、装置、计算机设备及存储介质。所述方法包括:抓取非结构化医学知识文本;将非结构文本拆分成多个第一特征语句;将第一特征语句输入至预设语言识别模型后,获取语义特征向量;将所有的语义特征向量输入至预设文章语义识别模型后,获取输出的第二特征语句;调用出待处理医学源文本的第一代码文件,并在第一代码文件中与第二特征语句的待分割位置对应的位置插入分割符号之后,得到第二代码文件;运行第二代码文件,以在待处理医学源文本上展示与非结构化医学知识文本对应的结构化医学知识文本。通过本发明专利技术可以提高结构化医学知识文本的转换效率。

【技术实现步骤摘要】
医学文本结构化方法、装置、计算机设备及存储介质
本专利技术涉及人工智能中的智能决策领域,尤其涉及一种医学文本结构化方法、装置、计算机设备及存储介质。
技术介绍
目前,同一个医学源文本中包含大量的医学知识文本文本,且这些文本会涉及到医学领域中的多种医学知识,当需要在界面中展示这些医学知识文本时,需要人工对此类医学知识文本进行有效编辑以令其结构化而便于查看,但源文本中的医学知识文本的文本格式通常参差不齐,其中的大部分医学知识文本又是以非结构化的形式呈现,因此,很容易导致人工编辑出错,且编辑效率低、编辑花费时间多。尤其是在需要将一些新出现的医学知识文本(医疗领域新出的产品说明书等)向用户展示时,要求医学知识文本必须是具有结构化的特定格式,比如分段正确,缩进合理。如果通过人工手动编辑形成可以对外展示的结构化医学文本,但其做法既耗时又耗力。因本领域技术人员亟需寻找一种新的技术方案以解决上述的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种医学文本结构化方法、装置、计算机设备及存储介质,用于避免人工编辑的错误率高和人工编辑本文档来自技高网...

【技术保护点】
1.一种医学文本结构化方法,其特征在于,包括:/n抓取待处理医学源文本中整段的非结构化医学知识文本;/n识别所述非结构化医学知识文本中所有的标点符号,按照所述标点符号将所述非结构文本拆分成多个第一特征语句;/n将所述第一特征语句输入至预设语言识别模型后,获取与每一个所述第一特征语句对应的一个语义特征向量;/n将所有的所述语义特征向量输入至预设文章语义识别模型后,获取所述预设文章语义识别模型输出的第二特征语句;所述第二特征语句中包含所述预设文章语义识别模型根据所述非结构化医学知识文本的上下文关联关系确定的预设数量的待分割位置;/n调用出所述待处理医学源文本的第一代码文件,从所述第一代码文件中查询...

【技术特征摘要】
1.一种医学文本结构化方法,其特征在于,包括:
抓取待处理医学源文本中整段的非结构化医学知识文本;
识别所述非结构化医学知识文本中所有的标点符号,按照所述标点符号将所述非结构文本拆分成多个第一特征语句;
将所述第一特征语句输入至预设语言识别模型后,获取与每一个所述第一特征语句对应的一个语义特征向量;
将所有的所述语义特征向量输入至预设文章语义识别模型后,获取所述预设文章语义识别模型输出的第二特征语句;所述第二特征语句中包含所述预设文章语义识别模型根据所述非结构化医学知识文本的上下文关联关系确定的预设数量的待分割位置;
调用出所述待处理医学源文本的第一代码文件,从所述第一代码文件中查询所述第二特征语句,并在第一代码文件中与所述第二特征语句的待分割位置对应的位置插入分割符号之后,得到第二代码文件;
运行所述第二代码文件,以在所述待处理医学源文本上展示与所述非结构化医学知识文本对应的结构化医学知识文本。


2.根据权利要求1所述的医学文本结构化方法,其特征在于,所述抓取待处理医学源文本中整段的非结构化医学知识文本之后,还包括:
通过预设自然语言处理模型对所述非结构化医学知识文本进行检测,对所述非结构化中存在错误的词语进行标记并获取标记结果;
调用出所述待处理医学源文本的第一代码文件,根据所述标记结果对所述第一代码文件中存在错误的词语进行修正处理,得到第三代码文件,并对所述第三代码文件进行运行后,得到修正完成后的非结构化医学知识文本。


3.根据权利要求1所述的医学文本结构化方法,其特征在于,所述预设语言识别模型为bert模型;
所述将所述第一特征语句输入至预设语言识别模型后,获取与每一个所述第一特征语句对应的一个语义特征向量,包括:
将所述第一特征语句输入至所述bert模型后,通过所述bert模型查询所述第一特征语句中各个字的字向量;
通过所述bert模型中的Attention机制选取所述第一特征语句中一个所述字向量作为Query向量,并将所述第一特征语句其他所述字向量作为Key向量;
对所述Query向量与各个所述Key向量进行相似度计算后得到权重系数,并通过所述权重系数对所述Query向量和所述Key向量对应的Value值进行加权运算,得到所述Attention机制输出与所述Query向量对应的第一增强语义特征向量;
通过所述bert模型中的多个推叠TransformerEncoder对所述第一增强语义特征向量进行线性转换,得到第二增强语义特征向量;
将与所述第一特征语句中每个字的字向量所对应的第二增强语义特征向量进行组合后,得到与所述第一特征语句对应的所述语义特征向量。


4.根据权利要求1所述的医学文本结构化方法,其特征在于,所述在第一代码文件中与所述第二特征语句的待分割位置对应的位置插入分割符号,得到第二代码文件之后,还包括:
根据预设样式格式调用出对应的层叠样式表,并将所述层叠样式表嵌套至所述第二代码文件中。


5.根据权利要求1所述的医学文本结构化方法,其特征在于,所述预设文章语义识别模型为LSTM模型;
所述将所有的所述语义特征向量输入至预设文章语义识别模型之后,包括:
通过所述LSTM模型中的遗忘门限选择丢弃信息;
通过所述LSTM模型中的输入门限和所述丢弃信息从所述语义特征向量...

【专利技术属性】
技术研发人员:朱威何义龙
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1