一种生成医疗报告的方法及装置制造方法及图纸

技术编号:32118422 阅读:20 留言:0更新日期:2022-01-29 19:04
本申请公开了一种生成医疗报告的方法及装置,通过获取初始数据,对所述初始数据进行识别获取待生成报告文本;对所述待生成报告文本进行预处理获取预处理后的句子集合;对所述预处理后的句子集合进行处理获得重要句子集合;对所述重要句子集合进行命名实体识别获取实体属性集;获取报告模板,添加实体属性至报告模板中的对应位置,生成目标医疗报告,不仅可以提高效率,还能保证准确率,得到更加精准的报告。的报告。的报告。

【技术实现步骤摘要】
一种生成医疗报告的方法及装置


[0001]本申请涉及计算机
,尤其涉及一种生成医疗报告的方法及装置。

技术介绍

[0002]医疗平台的业务中包含在线医学教学、视频诊疗会议等,在完成以上业务后,需要对以上教学课程或者诊疗会议进行相关的总结,由于人工完成不仅需要撰写者具备一定的专业知识,还需要浪费大量的时间进行会议纪要和整理,所以提出一种根据患者信息、视频内容进行总结,最终得到一个专业的医疗报告的方法。使用计算机代替人进行工作,不仅可以提高效率,还能保证准确率。
[0003]目前报告生成的方式主要是根据指定的模板,提取关键字、关键词以及关键语句等,在按照其属性填充到指定的模板内,从而得到一份报告,也就是采用基于抽取式方法。但是该方法的关键字词等均得来自原文,较为笨拙。而且文本重要性语句提取的方案主要是基于词频或者基于图结构的关键词和句子抽取,每一篇文本都是独立提取的,然而在大量的医疗会议记录中,实际成批的同类型记录文本中,可能内嵌的主题是一致的,是具有一定关联性的,以上方法并没有考虑到这一点,因此提取文本中的重要性语句效果不甚理想。另外通过词频计算的方式获取关键词往往无法知道关键词的属性,因此无法使用更为准确的模板,得到更加精准的报告。

技术实现思路

[0004]本申请提供了一种生成医疗报告的方法及装置,以解决现有方法无法使用更为准确的模板,得到更加精准的报告的问题。
[0005]第一方面,为实现上述目的,本申请提供了一种生成医疗报告的方法,所述方法包括:
[0006]获取初始数据,对所述初始数据进行识别获取待生成报告文本;
[0007]对所述待生成报告文本进行预处理获取预处理后的句子集合;
[0008]对所述预处理后的句子集合进行处理获得重要句子集合;
[0009]对所述重要句子集合进行命名实体识别获取实体属性集;
[0010]获取报告模板,添加实体属性至报告模板中的对应位置,生成目标医疗报告。
[0011]进一步地,所述对所述待生成报告文本进行预处理获取预处理后的句子集合,包括:
[0012]对所述待生成报告文本进行分句、对所述待生成报告文本去除无用助词和\或对所述待生成报告文本中的医学专属名词进行纠正。
[0013]进一步地,所述对所述待生成报告文本进行分句,包括:
[0014]获取待生成报告文本中的标点符号及预设的分句最大长度;
[0015]根据标点符号对待生成报告文本进行切分,获取第一分句集;
[0016]遍历第一分句集,如果分句长度大于预设的分句最大长度,则对分句进行切分,获
取第二分句集。
[0017]进一步地,所述对所述预处理后的句子集合进行处理获得重要句子集合,包括:
[0018]将所述预处理后的句子集合输入训练好的LDA主题模型,获取对应的主题;
[0019]根据主题内词汇的概率分布,获取句子重要程度值;
[0020]通过将所述句子重要程度值与阈值比较后,提取句子重要程度值大于阈值的句子,获取重要句子合集。
[0021]进一步地,所述阈值为动态计算得到的数值。
[0022]第二方面,为实现上述目的,本申请提供了一种生成医疗报告的装置,所述装置包括:
[0023]文本获取单元,用于获取初始数据,对所述初始数据进行识别获取待生成报告文本;
[0024]预处理单元,用于对所述待生成报告文本进行预处理获取预处理后的句子集合;
[0025]重要句子抽取单元,用于对所述预处理后的句子集合进行处理获得重要句子集合;
[0026]命名实体识别单元,用于对所述重要句子集合进行命名实体识别获取实体属性集;
[0027]目标医疗报告生成单元,用于获取报告模板,添加实体属性至报告模板中的对应位置,生成目标医疗报告。
[0028]进一步地,所述预处理单元还用于:
[0029]对所述待生成报告文本进行分句、对所述待生成报告文本去除无用助词和\或对所述待生成报告文本中的医学专属名词进行纠正。
[0030]进一步地,所述预处理单元还用于:
[0031]获取待生成报告文本中的标点符号及预设的分句最大长度;
[0032]根据标点符号对待生成报告文本进行切分,获取第一分句集;
[0033]遍历第一分句集,如果分句长度大于预设的分句最大长度,则对分句进行切分,获取第二分句集。
[0034]进一步地,所述重要句子抽取单元还用于:
[0035]将所述预处理后的句子集合输入训练好的LDA主题模型,获取对应的主题;
[0036]根据主题内词汇的概率分布,获取句子重要程度值;
[0037]通过将所述句子重要程度值与阈值比较后,提取句子重要程度值大于阈值的句子,获取重要句子合集。
[0038]进一步地,所述阈值为动态计算得到的数值。
[0039]第三方面,为实现上述目的,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项生成医疗报告的方法的步骤。
[0040]第四方面,为实现上述目的,本申请提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面任一项生成医疗报告的方法的步骤。
[0041]由以上技术方案可见,本申请实施例提供的一种生成医疗报告的方法及装置,通过获取初始数据,对所述初始数据进行识别获取待生成报告文本;对所述待生成报告文本
进行预处理获取预处理后的句子集合;对所述预处理后的句子集合进行处理获得重要句子集合;对所述重要句子集合进行命名实体识别获取实体属性集;获取报告模板,添加实体属性至报告模板中的对应位置,生成目标医疗报告。
[0042]本申请不采用按照传统的句号或者问号等断句标点符号进行分句,而是采用只要是标点符号就进行分句的方案,并且提出了一个分句最大长度的概念,当按照标点符号分句得到的句子长度任超过设定的分句最大长度,则将其按照分句最大长度进行截取切分,使得句子的颗粒度更细,更能准确的获取到其重要性程度值。本申请还提出了一种动态获取重要性句子阈值的方案,通过该方案可以使得使用LDA主题模型无论是在文本句子过多或过少的时候,均能更加准确的提取出重要程度高的句子,且在于分辨出关键与不关键的句子的场景更加广阔,提高了重要性句子抽取方案的适应性及准确性。最终输出的医疗报告,通过关键字与模板的结合,最终生成的报告含括了医疗会议的主要谈论主题及相关重要细节。
[0043]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0044]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0045]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成医疗报告的方法,其特征在于,所述方法包括:获取初始数据,对所述初始数据进行识别获取待生成报告文本;对所述待生成报告文本进行预处理获取预处理后的句子集合;对所述预处理后的句子集合进行处理获得重要句子集合;对所述重要句子集合进行命名实体识别获取实体属性集;获取报告模板,添加实体属性至报告模板中的对应位置,生成目标医疗报告。2.根据权利要求1所述的生成医疗报告的方法,其特征在于,所述对所述待生成报告文本进行预处理获取预处理后的句子集合,包括:对所述待生成报告文本进行分句、对所述待生成报告文本去除无用助词和\或对所述待生成报告文本中的医学专属名词进行纠正。3.根据权利要求2所述的生成医疗报告的方法,其特征在于,所述对所述待生成报告文本进行分句,包括:获取待生成报告文本中的标点符号及预设的分句最大长度;根据标点符号对待生成报告文本进行切分,获取第一分句集;遍历第一分句集,如果分句长度大于预设的分句最大长度,则对分句进行切分,获取第二分句集。4.根据权利要求1所述的生成医疗报告的方法,其特征在于,所述对所述预处理后的句子集合进行处理获得重要句子集合,包括:将所述预处理后的句子集合输入训练好的LDA主题模型,获取对应的主题;根据主题内词汇的概率分布,获取句子重要程度值;通过将所述句子重要程度值与阈值比较后,提取句子重要程度值大于阈值的句子,获取重要句子合集。5.根据权利要求4所述的生成医疗报告的方法,其特征在于,所述阈值为动态计算得到的数值。6.一种生成医疗报告...

【专利技术属性】
技术研发人员:岑汉袁孟全杨建谭涛
申请(专利权)人:贵阳叁玖互联网医疗有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1