胶囊内窥镜检查报告文本结构化方法、设备及介质技术

技术编号:23852096 阅读:19 留言:0更新日期:2020-04-18 09:10
本发明专利技术提供了一种胶囊内窥镜检查报告文本结构化方法、设备及介质,所述方法包括:S1、采用标注模型对报告文本进行标注;S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。本发明专利技术通过标注模型对胶囊内镜检查报告进行自动标注,并对不同信息量的参数采用不同的结构进行输出,对胶囊内镜检查过程及检查结果进行定量、精准的质量控制,为胶囊内窥镜的医疗信息电子化提供足够便利。

Method, equipment and media for text structure of capsule endoscopy report

【技术实现步骤摘要】
胶囊内窥镜检查报告文本结构化方法、设备及介质
本专利技术涉及医疗器械领域,尤其涉及一种胶囊内窥镜检查报告文本结构化方法、设备及介质。
技术介绍
胶囊内窥镜是一种医疗设备,胶囊内窥镜将摄像头、无线传输天线等核心器件集成于一个可被人体吞咽的胶囊内,在进行检查过程中,将胶囊内窥镜吞入体内,内窥镜在体内采集消化道图像并同步传送到体外,以根据获得的图像数据进行医疗检查。胶囊内窥镜检查完成以后,会生成一个检查报告,包含检查所见、诊断结果,以及建议等;由于每个医生的习惯不同,书写方式不同,导致每一份检查报告都有所不同;另外,消化道医生少,医生工作量大,可能存在漏写以及错写等;为了便于后续查阅及分析,通常需要将检查报告进行整理标注。现有技术中,通常采用人工标注的方式整理检查报告,浪费人力,增加标注成本,另外,经过标注后的报告文本仍然保持原始文本的排布方式,极大的占用存储空间,且不利于报告的查询。
技术实现思路
为解决上述技术问题,本专利技术的目的在于提供一种胶囊内窥镜检查报告文本结构化方法、设备及介质。为了实现上述专利技术目的之一,本专利技术一实施方式提供一种胶囊内窥镜检查报告文本结构化方法,所述方法包括:S1、采用标注模型对报告文本进行标注;S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对应报告文本中每一命名实体分类标签的命名类别;S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。作为本专利技术一实施方式的进一步改进,所述方法包括:S4、选择性输出树型结构图、异常结构面板表和时间参数面板表至少其中之一。作为本专利技术一实施方式的进一步改进,步骤S1中标注模型的获取方法具体包括:M1、采用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经网络大模型;初始的小模型和大模型具有相同的命名实体划分规则;分别采用小模型和大模型对当前的一组报告文本进行预标注;M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文本;M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。作为本专利技术一实施方式的进一步改进,步骤S1具体包括:S11、对报告文本进行预处理,以将报告文本整理形成可识别的报告文本;S12、解析可识别的报告文本,根据命名实体划分规则识别报告文本中的每一命名实体分类标签;S13、遍历可识别的报告文本,采用BIO标记方式对每一命名实体分类标签和区别于命名实体分类标签的文本进行标注。作为本专利技术一实施方式的进一步改进,步骤S11对报告文本进行预处理具体包括:基于预先设定的规则对原始的报告文本进行搜索,修正原始的报告文本中的错别字,中英文字符混用、大小写字符混用、标点符号错误、异常数值描述、无关字符、不规范描述。作为本专利技术一实施方式的进一步改进,步骤S12之前,所述方法还包括:建立命名实体划分规则;所述命名实体划分规则包括:建立命名实体分类标签和标注信息的对应关系,所述标注信息包括:器官,对应于器官的描述信息,对应于器官的异常结构,对应于异常结构的描述参数,以及时间参数标识。作为本专利技术一实施方式的进一步改进,步骤S13具体包括:将每一命名实体分类标签的首字符均采用第一前缀和标注信息结合的方式进行标注,将每一命名实体分类标签的非首字符均采用第二前缀和标注信息结合的方式进行标注,将未有标注信息的文本以第三前缀进行标注;所述第一前缀、第二前缀和第三前缀均不相同。作为本专利技术一实施方式的进一步改进,对每一组报告文本进行预标注过程中,所述方法还包括:通过标点符号断句将每一报告文本分割为多个短句,对于相同的短句采用去重处理保留一份进行预标注及审核校正。为了解决上述专利技术目的之一,本专利技术一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的胶囊内窥镜检查报告文本结构化方法中的步骤。为了解决上述专利技术目的之一,本专利技术一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的胶囊内窥镜检查报告文本结构化方法中的步骤。与现有技术相比,本专利技术的有益效果是:本专利技术的胶囊内窥镜检查报告文本结构化方法、设备及介质,通过标注模型对胶囊内镜检查报告进行自动标注,并对不同信息量的参数采用不同的结构进行输出,对胶囊内镜检查过程及检查结果进行定量、精准的质量控制,为胶囊内窥镜的医疗信息电子化提供足够便利。附图说明图1是本专利技术一实施方式提供的胶囊内窥镜检查报告文本结构化方法的流程示意图;图2是图1中标注模型的获取方法的流程示意图;图3是本专利技术一具体示例中短句去重处理的结构示意图;图4图1中步骤S1的具体实现流程示意图;图5是本专利技术一具体示例中采用BIO标记方式对报告文本进行标注的结构示意图;图6是本专利技术一具体示例形成的树型结构图;图7是本专利技术一具体示例形成的异常结构面板表;图8是本专利技术一具体示例形成的时间参数面板表。具体实施方式以下将结合附图所示的具体实施方式对本专利技术进行详细描述。但这些实施方式并不限制本专利技术,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本专利技术的保护范围内。如图1所示,本专利技术第一实施方式中提供一种胶囊内窥镜检查报告文本结构化方法,所述方法包括:S1、采用标注模型对报告文本进行标注;S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对应报告文本中每一命名实体分类标签的命名类别;S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。S4、选择性输出树型结构图、异常结构面板表和时间参数面板表至少其中之一。本专利技术具体实施方式中,基于模型部署性能考虑,采用BiLSTM+CRF结构的小模型方案识别报告文本命名实体;兼顾模型准确率,采用准确本文档来自技高网...

【技术保护点】
1.一种胶囊内窥镜检查报告文本结构化方法,其特征在于,所述方法包括:/nS1、采用标注模型对报告文本进行标注;/nS2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对应报告文本中每一命名实体分类标签的命名类别;/nS3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。/n

【技术特征摘要】
1.一种胶囊内窥镜检查报告文本结构化方法,其特征在于,所述方法包括:
S1、采用标注模型对报告文本进行标注;
S2、对报告文本标注完成后,按照标注信息对报告文本中的每一命名实体分类标签采用分级树型结构化的方式存储形成树型结构图;所述标注信息为对应报告文本中每一命名实体分类标签的命名类别;
S3、解析树型结构图,提取其中的异常结构数据和时间参数,并对异常结构数据和时间参数分别采用面板数据结构化的方式存储形成异常结构面板表和时间参数面板表。


2.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,所述方法包括:S4、选择性输出树型结构图、异常结构面板表和时间参数面板表至少其中之一。


3.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S1中标注模型的获取方法具体包括:
M1、采用BiLSTM+CRF结构构建神经网络小模型和采用BERT结构构建神经网络大模型;初始的小模型和大模型具有相同的命名实体划分规则;分别采用小模型和大模型对当前的一组报告文本进行预标注;
M2、并对大模型标注完成的当前报告文本进行审核校正,形成修正报告文本;
M3、以修正报告文本校验小模型,获取对应于小模型的对数似然损失函数;
M4、若对数似然损失函数不大于预设第一函数值,则采用当前获得的修正报告文本修订小模型对应的命名实体划分规则并训练小模型,并将训练后的小模型作为标注模型;若对数似然损失函数大于预设第一函数值,则进入步骤M5;
M5、采用当前获得的修正报告文本修订小模型和大模型对应的命名实体划分规则,并训练大模型和小模型,采用训练后的小模型和大模型同时对下一组报告文本进行预标注,任一下一组报告文本的数量均大于其之前的一组报告文本的数量;并循环执行步骤M2,直至训练后的小模型成为标注模型。


4.根据权利要求1所述的胶囊内窥镜检查报告文本结构化方法,其特征在于,步骤S1具体包括:
S11、对报告文本进行预处理,以将报告文本整理形成可识别的报告文本;
S12、解析可识别的报告文...

【专利技术属性】
技术研发人员:黄志威袁文金张皓张行
申请(专利权)人:安翰科技武汉股份有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1