中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质制造方法及图纸

技术编号:18785856 阅读:26 留言:0更新日期:2018-08-29 07:47
本发明专利技术实施例提供一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质,用于数据处理领域,该方法包括:对获取到的第一中文医疗文本和第二中文医疗文本进行分词处理,获取至少一个第一词元和至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取第二特征向量;基于第一特征向量和第二特征向量,获取用于表征第一中文医疗文本和第二中文医疗文本相似度的相似度度量值。本发明专利技术能实现电子病历查重。

Chinese medical text duplication method and device, electronic equipment, and computer readable storage medium

The embodiment of the invention provides a Chinese medical text duplication checking method and device, an electronic device, a computer readable storage medium for the data processing field. The method comprises: performing word segmentation processing on the acquired first Chinese medical text and the second Chinese medical text, obtaining at least one first word element and at least one Chinese medical text. A second word element; obtaining at least one first weight value based on the at least one first word element; obtaining at least one second weight value based on the at least one second word element; obtaining a first eigenvector based on a training dictionary, the at least one first word element, and the at least one first weight value; and obtaining a first eigenvector based on the said. The training dictionary, the at least one second vocabulary and the at least one second weight value obtain a second feature vector, and based on the first feature vector and the second feature vector, obtain a similarity measure value for representing the similarity between the first Chinese medical text and the second Chinese medical text. The invention can realize electronic medical record checking.

【技术实现步骤摘要】
中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
本专利技术涉及数据处理领域,具体而言,涉及一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质。
技术介绍
随着电子病历的广泛使用,在临床文档中越来越多使用了复制与粘贴功能(copy-and-pastefunction,CPF)。在住院病历记录中医务人员使用CPF的情况越来越频繁。当复制信息在同一病历内或移动粘贴到多个病历时,具有促进沟通、提高效率的作用,更重要的是可以节省时间,有机会与病人更多地相处。但在具备这些好处的同时,也面临医疗记录的真实性潜在风险,例如复制和粘贴不准确或过时的信息,不必要的冗长的病程记录及传播虚假信息等。
技术实现思路
鉴于此,本专利技术实施例的目的在于提供一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质以实现电子病历查重,继而解决上述问题。第一方面,本专利技术实施例提供一种中文医疗文本查重方法,所述方法包括:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。第二方面,本专利技术实施例提供一种中文医疗文本查重装置,所述装置包括:第一分词处理单元,用于对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;第二分词处理单元,用于对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;第一权重获取单元,用于基于所述至少一个第一词元,获取至少一个第一权重值;第二权重获取单元,用于基于所述至少一个第二词元,获取至少一个第二权重值;第一特征向量获取单元,用于基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;第二特征向量获取单元,用于基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;相似度度量值获取单元,用于基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。第三方面,本专利技术实施例提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时,所述电子设备执行以下操作:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。第四方面,本专利技术实施例提供一种计算机可读取存储介质,所述计算机可读取存储介质存储有程序指令,所述程序指令被读取并运行时,执行所述中文医疗文本查重方法。本专利技术实施例提供了中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质,所述方法包括:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。通过本专利技术能够实现电子病历查重,继而减少因电子病历功能泛用带来的潜在风险,保障患者安全。本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的一种电子设备的结构框图;图2为本专利技术实施例提供的一种中文医疗文本查重方法的流程图;图3为本专利技术实施例提供的一种中文医疗文本查重装置的单元示意图;图4本专利技术实施例还提供一种实现中文医疗文本查重装置的结构示意图。图标:100-电子设备;101-存储器;102-存储控制器;103-处理器;104-外设接口;105-射频模块;106-音频模块;107-触控屏幕;200-中文医疗文本查重装置;210-第一分词处理单元;220-第二分词处理单元;230-第一权重获取单元;240-第二权重获取单元;250-第一特征向量获取单元;260-第二特征向量获取单元;270-相似度度量值获取单元;403-通信接口。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。图1示出了一种可应用于本专利技术实施例中的电子设备100的结构框图。如图1所示,电子设备100包括存储器101、存储控制器102,一个或多个(图中仅示出一个)处理器103、外设接口104、射频模块105、音频模块106、触控屏幕107等。这些组件通过一条或多条通讯总线/信号线相互通讯。存储器101可用于存储软件程序以及模块,如本专利技术实施例中的中文医疗文本查重方法对应的程序指令/模块,处理器103通过运行本文档来自技高网...

【技术保护点】
1.一种中文医疗文本查重方法,其特征在于,所述方法包括:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。

【技术特征摘要】
1.一种中文医疗文本查重方法,其特征在于,所述方法包括:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。2.根据权利要求1所述的中文医疗文本查重方法,其特征在于,所述对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元,包括:基于Tire树结构对获取到的第一中文医疗文本中的每个字符串进行切分处理,获取至少一种第一切分组合;基于所述至少一种第一切分组合和概率最大化原则,获取至少一个第一词元;所述对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元,包括:基于所述Tire树结构对获取到的第二中文医疗文本中的每个字符串进行切分处理,获取至少一种第二切分组合;基于所述至少一种第二切分组合和所述概率最大化原则,获取至少一个第二词元。3.根据权利要求1所述的中文医疗文本查重方法,其特征在于,所述基于所述至少一个第一词元,获取至少一个第一权重值,包括:基于所述至少一个第一词元,获取所述至少一个第一词元中每个第一词元的第一TF值,共至少一个第一TF值;基于所述至少一个第一词元,获取所述至少一个第一词元中每个第一词元的第一IDF值,共至少一个第一IDF值;基于所述至少一个第一TF值和所述至少一个第一IDF值,获取至少一个第一权重值;所述基于所述至少一个第二词元,获取至少一个第二权重值,包括:基于所述至少一个第二词元,获取所述至少一个第二词元中每个第二词元的第二TF值,共至少一个第二TF值;基于所述至少一个第二词元,获取所述至少一个第二词元中每个第二词元的第二IDF值,共至少一个第二IDF值;基于所述至少一个第二TF值和所述至少一个第二IDF值,获取至少一个第二权重值。4.根据权利要求1所述的中文医疗文本查重方法,其特征在于,所述基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量,包括:基于训练词典的词元排列顺序,生成第一基础特征向量;基于所述训练词典,获取所述至少一个第一词元中的每个第一词元在所述第一基础特征向量中的对应位置;将每个对应位置的元素值设置为与每个第一词元一一对应的第一权重值,所述第一基础特征向量的其他元素值设置为零,获取用于表征所述第一中文医疗文本的第一特征向量;所述基于训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量,包括:基于所述训练词典的词元排列顺序,生成第二基础特征向量;基于所述训练词典,获取所述至少一个第二词元中的每个第二词元在所述第二基础特征向量中的对应位置;将每个对应位置的元素值设置为与每个第二词元一一对应的第二权重值,所述第二基础特征向量的其他元素值设置为零,获取用于表征所述第二中文医疗文本的第二特征向量。5.一种中文医疗文本查重装置,其特征在于,所述装置包括:第一分词处理单元,用于对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;第二分词处理单元,用于对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;第一权重获取单元,用于基于所述至少一个第一词元,获取至少一个第一权重值;第二权重获取单元,用于基于所述至少一个第二词元,获取至少一个第二权重值;第一特征向量获取单元,用于基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;第二特征向量获取单元,用于...

【专利技术属性】
技术研发人员:陈波
申请(专利权)人:重庆医科大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1