The embodiment of the invention provides a Chinese medical text duplication checking method and device, an electronic device, a computer readable storage medium for the data processing field. The method comprises: performing word segmentation processing on the acquired first Chinese medical text and the second Chinese medical text, obtaining at least one first word element and at least one Chinese medical text. A second word element; obtaining at least one first weight value based on the at least one first word element; obtaining at least one second weight value based on the at least one second word element; obtaining a first eigenvector based on a training dictionary, the at least one first word element, and the at least one first weight value; and obtaining a first eigenvector based on the said. The training dictionary, the at least one second vocabulary and the at least one second weight value obtain a second feature vector, and based on the first feature vector and the second feature vector, obtain a similarity measure value for representing the similarity between the first Chinese medical text and the second Chinese medical text. The invention can realize electronic medical record checking.
【技术实现步骤摘要】
中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质
本专利技术涉及数据处理领域,具体而言,涉及一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质。
技术介绍
随着电子病历的广泛使用,在临床文档中越来越多使用了复制与粘贴功能(copy-and-pastefunction,CPF)。在住院病历记录中医务人员使用CPF的情况越来越频繁。当复制信息在同一病历内或移动粘贴到多个病历时,具有促进沟通、提高效率的作用,更重要的是可以节省时间,有机会与病人更多地相处。但在具备这些好处的同时,也面临医疗记录的真实性潜在风险,例如复制和粘贴不准确或过时的信息,不必要的冗长的病程记录及传播虚假信息等。
技术实现思路
鉴于此,本专利技术实施例的目的在于提供一种中文医疗文本查重方法及装置、电子设备、计算机可读取存储介质以实现电子病历查重,继而解决上述问题。第一方面,本专利技术实施例提供一种中文医疗文本查重方法,所述方法包括:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相 ...
【技术保护点】
1.一种中文医疗文本查重方法,其特征在于,所述方法包括:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。
【技术特征摘要】
1.一种中文医疗文本查重方法,其特征在于,所述方法包括:对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;基于所述至少一个第一词元,获取至少一个第一权重值;基于所述至少一个第二词元,获取至少一个第二权重值;基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;基于所述训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量;基于所述第一特征向量和所述第二特征向量,获取用于表征所述第一中文医疗文本和所述第二中文医疗文本相似度的相似度度量值。2.根据权利要求1所述的中文医疗文本查重方法,其特征在于,所述对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元,包括:基于Tire树结构对获取到的第一中文医疗文本中的每个字符串进行切分处理,获取至少一种第一切分组合;基于所述至少一种第一切分组合和概率最大化原则,获取至少一个第一词元;所述对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元,包括:基于所述Tire树结构对获取到的第二中文医疗文本中的每个字符串进行切分处理,获取至少一种第二切分组合;基于所述至少一种第二切分组合和所述概率最大化原则,获取至少一个第二词元。3.根据权利要求1所述的中文医疗文本查重方法,其特征在于,所述基于所述至少一个第一词元,获取至少一个第一权重值,包括:基于所述至少一个第一词元,获取所述至少一个第一词元中每个第一词元的第一TF值,共至少一个第一TF值;基于所述至少一个第一词元,获取所述至少一个第一词元中每个第一词元的第一IDF值,共至少一个第一IDF值;基于所述至少一个第一TF值和所述至少一个第一IDF值,获取至少一个第一权重值;所述基于所述至少一个第二词元,获取至少一个第二权重值,包括:基于所述至少一个第二词元,获取所述至少一个第二词元中每个第二词元的第二TF值,共至少一个第二TF值;基于所述至少一个第二词元,获取所述至少一个第二词元中每个第二词元的第二IDF值,共至少一个第二IDF值;基于所述至少一个第二TF值和所述至少一个第二IDF值,获取至少一个第二权重值。4.根据权利要求1所述的中文医疗文本查重方法,其特征在于,所述基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量,包括:基于训练词典的词元排列顺序,生成第一基础特征向量;基于所述训练词典,获取所述至少一个第一词元中的每个第一词元在所述第一基础特征向量中的对应位置;将每个对应位置的元素值设置为与每个第一词元一一对应的第一权重值,所述第一基础特征向量的其他元素值设置为零,获取用于表征所述第一中文医疗文本的第一特征向量;所述基于训练词典、所述至少一个第二词元以及所述至少一个第二权重值,获取用于表征所述第二中文医疗文本的第二特征向量,包括:基于所述训练词典的词元排列顺序,生成第二基础特征向量;基于所述训练词典,获取所述至少一个第二词元中的每个第二词元在所述第二基础特征向量中的对应位置;将每个对应位置的元素值设置为与每个第二词元一一对应的第二权重值,所述第二基础特征向量的其他元素值设置为零,获取用于表征所述第二中文医疗文本的第二特征向量。5.一种中文医疗文本查重装置,其特征在于,所述装置包括:第一分词处理单元,用于对获取到的第一中文医疗文本进行分词处理,获取至少一个第一词元;第二分词处理单元,用于对获取到的第二中文医疗文本进行分词处理,获取至少一个第二词元;第一权重获取单元,用于基于所述至少一个第一词元,获取至少一个第一权重值;第二权重获取单元,用于基于所述至少一个第二词元,获取至少一个第二权重值;第一特征向量获取单元,用于基于训练词典、所述至少一个第一词元以及所述至少一个第一权重值,获取用于表征所述第一中文医疗文本的第一特征向量;第二特征向量获取单元,用于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。