一种自动编码方法及装置制造方法及图纸

技术编号:23149856 阅读:22 留言:0更新日期:2020-01-18 13:46
本发明专利技术公开了一种自动编码方法及装置,该方法包括:对词典文件进行结构化处理,以获得标准词;利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息;将所述结构化信息与所述标准词进行结构化属性匹配,得到与所述结构化信息相对应的候选结果;对所述候选结果进行编码后置处理,以获得经过处理的标准词;输出所述经过处理的标准词,以实现对所述原始词的自动编码。通过本发明专利技术的技术方案,可以实现对任何形式的自由文本进行编码,对报告的医学术语与MedDRA词典没有相似或相同的要求,不需要积累和维护同义词库,大大减少了人工投入,提高了编码效率。

An automatic coding method and device

【技术实现步骤摘要】
一种自动编码方法及装置
本专利技术涉及医学信息处理技术应用领域,尤其涉及一种自动编码方法及装置。
技术介绍
MedDRA(MedicalDictionaryforRegulatoryActivities,监管活动医学词典)是一个内容丰富且详细的医学标准术语应用词典,覆盖的产品包括药品,生物制品,疫苗和药物器械综合产品,其促进了医疗产品国际监管信息的共享。为了对临床试验中的医学术语进行编码,目前常采用的一种方法是先用工具进行自动编码,未能成功编码的词再进行人工编码。工具自动编码的方法分两个部分:报告医学术语与词典完全相同的会被自动识别编码;与词典不完全相同的词则通过建立同义词库,由人工手动建立一一对应的映射。上述过程需要耗费大量的人工,并且只能对与标准词典完全一致的医学术语进行自动编码,而报告的医学术语是自由文本并且多种多样,使用这种完全一致匹配的方式进行编码,很难满足对自由文本编码的自动化要求。
技术实现思路
本专利技术提供一种自动编码方法及装置,以解决现有的应用词典编码技术无法实现对自由文本进行自动化编码以及人工编码效率低的技术问题。第一方面,本专利技术实施例提供了一种自动编码方法,包括:对词典文件进行结构化处理,以获得标准词;利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息;将所述结构化信息与所述标准词进行结构化属性匹配,得到与所述结构化信息相对应的候选结果;对所述候选结果进行编码后置处理,以获得经过处理的标准词;输出所述经过处理的标准词,以实现对所述原始词的自动编码。第二方面,本专利技术实施例提供了一种自动编码装置,包括:标准词获取模块,用于对词典文件进行结构化处理,以获得标准词;结构化信息获取模块,用于利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息;结构化属性匹配模块,用于将所述结构化信息与所述标准词进行结构化属性匹配,得到与所述结构化信息相对应的候选结果;后置处理模块,用于对所述候选结果进行编码后置处理,以获得经过处理的标准词;输出模块,用于输出所述经过处理的标准词,以实现对所述原始词的自动编码。第三方面,本专利技术实施例提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面中任一所述的自动编码方法。第四方面,本专利技术实施例提供了一种电子设备,包括:处理器、存储器和总线;所述存储器用于存储计算机程序,所述处理器与所述存储器通过所述总线连接,当所述电子设备运行时,所述处理器执行所述存储器的所述计算机程序,以使所述处理器执行如上述第一方面中任一所述的自动编码方法。本专利技术实施例提供的自动编码方法和系统至少包括以下有益效果:本专利技术通过分别对词典文件和原始词进行结构化处理,对原始词进行结构化属性匹配,并对候选结果进行后置处理后输出,在匹配过程中可以自定义设置原始词与标准词相似度的阈值,只有高于某个阈值,程序才会自动匹配,用以调节召回率和准确率;同时可以实现对任何形式的自由文本进行编码,对报告的医学术语与词典文件没有相似或相同的要求,不需要积累和维护同义词库,大大减少了人工投入,提高了编码效率。附图说明为了更清楚地说明本专利技术实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的自动编码方法的流程示意图;图2为本专利技术一实施例提供的自动编码方法中词典文件进行结构化处理,以获得标准词的流程示意图;图3为本专利技术另一实施例提供的自动编码方法的流程示意图;图4为本专利技术一实施例提供的自动编码方法中利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息的流程示意图;图5为图4中利用预设的属性词词典对所述原始词进行结构化处理的流程示意图;图6为本专利技术一实施例提供的自动编码方法中将所述结构化信息与所述标准词进行结构化属性匹配的流程示意图;图7为本专利技术一实施例提供的自动编码装置的结构示意框图;图8为适于用来实现本专利技术实施例的电子设备的计算机系统的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种自动编码方法,在一个具体实施例中,该方法应用于使用MedDRA词典对临床试验中医学术语的自动编码,特别是对自由报告文本进行编码,其实施方式的具体流程如图1所示,包括:步骤S101:对词典文件进行结构化处理,以获得标准词。通过设计程序接口,对词典文件进行结构化加载,分别存储各术语的父节点、子节点信息、术语路径信息文件以及未特指的术语对应数据关系等,建立标准词数据库,作为应用词典自动编码的标准词。步骤S102:利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息。在本实施例中,可以通过正则匹配对原始词中与标准词典完全一致的医学术语进行自动编码,生成结构化信息,剩下的自由文本可以通过正则匹配之外的其他编码方式进行,从而实现对自由文本拆分的效果,针对不同文本形式有针对性的进行编码,可以提高编码准确性,有效提高编码效率。步骤S103:将所述结构化信息与所述标准词进行结构化属性匹配,得到与所述结构化信息相对应的候选结果。具体地,步骤S101中的标准词采用结构化存储方式,此处采用结构化信息对标准词进行结构化属性匹配,可以提高匹配的准确性,同时可以根据实际应用场景和实际需要对结构化匹配的算法进行自定义配置,并且可以设置相似度的阈值,只有高于某个阈值,程序才会自动匹配,用以调节召回率和准确率,使最终得到的候选结果更加准确。步骤S104:对所述候选结果进行编码后置处理,以获得经过处理的标准词。编码后置处理主要是对于自动编码过程中出现的异常或者特殊的情形进一步提出的处理方案,从而保证各种文本形式均可以被准确进行匹配。步骤S105:输出所述经过处理的标准词,以实现对所述原始词的自动编码。在得到自动编码最终输出结果的标准词之后,利用前面步骤S101中的程序接口,还可以获取该标准词在词典文件中的全部路径,以及对应的发行文件的所有信息。本实施例所提供的自动编码方法,通过分别对词典文件和原始词进行结构化处理,对原始词进行结构化属性匹配,并对候选结果进行后置处理后输出,在匹配过程中可以自定义设置原始词与标准词相似度的阈值,只有高于某个阈值,程序才会自动匹配,用以调节召回率和准确率;同时本文档来自技高网...

【技术保护点】
1.一种自动编码方法,其特征在于,包括:/n对词典文件进行结构化处理,以获得标准词;/n利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息;/n将所述结构化信息与所述标准词进行结构化属性匹配,得到与所述结构化信息相对应的候选结果;/n对所述候选结果进行编码后置处理,以获得经过处理的标准词;/n输出所述经过处理的标准词,以实现对所述原始词的自动编码。/n

【技术特征摘要】
1.一种自动编码方法,其特征在于,包括:
对词典文件进行结构化处理,以获得标准词;
利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息;
将所述结构化信息与所述标准词进行结构化属性匹配,得到与所述结构化信息相对应的候选结果;
对所述候选结果进行编码后置处理,以获得经过处理的标准词;
输出所述经过处理的标准词,以实现对所述原始词的自动编码。


2.根据权利要求1所述的自动编码方法,其特征在于,所述对词典文件进行结构化处理,以获得标准词,包括:
基于所述词典文件的编码-术语文件,生成编码到术语的映射表;
获取所述词典文件中各层级术语之间的父子连接关系文件;
确定所述词典文件中术语路径信息文件,并通过所述父子连接关系文件对所述应用词典中的术语路径进行验证;
保存所述父子连接关系文件中各术语的父节点信息、子节点信息以及所述术语路径信息文件,作为自动编码的标准词。


3.根据权利要求2所述的自动编码方法,其特征在于,所述对词典文件进行结构化处理,以获得标准词,还包括:
对所述词典文件中没有对应编码的术语进行自定义特定处理,构建对应关系数据;
将所述对应关系数据存储为自动编码的标准词。


4.根据权利要求3所述的自动编码方法,其特征在于,所述对所述候选结果进行编码后置处理,以获得经过处理的标准词,包括:
判断所述候选结果中是否包含标识了所述未特指的原始词;
当所述候选结果中包含标识了所述未特指的原始词时,匹配包含所述对应关系数据的标准词。


5.根据权利要求1所述的自动编码方法,其特征在于,所述利用预设的属性词词典对获取的原始词进行结构化处理,以生成结构化信息,包括:
对获取的所述原始词进行清洗,以获得清洗后的原始词;
对所述清洗后的原始词进行同义词替换和正则匹配;
当检测到判定所述正则匹配的返回结果为空时,利用预设的所述属性词词典对所述原始词进行结构化处理,生成所述结构化信息。


6.根据权利要求5所述的自动编码方法,其特征在于,清洗后的所述原始词包括:经过全角转半角、去除无意义符号处理后的原始词。


7.根据权利要求5所述的自动编码方法,其特征在于,所述利用预设的所述属性词词典对所述原始词进行结构化处理,生成所述结构化信息,包括:
对所述原始词进行分词;
根据...

【专利技术属性】
技术研发人员:荣小辉柯昆康波张子锐
申请(专利权)人:天津开心生活科技有限公司天津新开心生活科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利