一种自动编码方法及装置制造方法及图纸

技术编号：23149856 阅读：22 留言：0更新日期：2020-01-18 13:46

本发明专利技术公开了一种自动编码方法及装置，该方法包括：对词典文件进行结构化处理，以获得标准词；利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；对所述候选结果进行编码后置处理，以获得经过处理的标准词；输出所述经过处理的标准词，以实现对所述原始词的自动编码。通过本发明专利技术的技术方案，可以实现对任何形式的自由文本进行编码，对报告的医学术语与MedDRA词典没有相似或相同的要求，不需要积累和维护同义词库，大大减少了人工投入，提高了编码效率。

An automatic coding method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种自动编码方法及装置
本专利技术涉及医学信息处理技术应用领域，尤其涉及一种自动编码方法及装置。
技术介绍
MedDRA(MedicalDictionaryforRegulatoryActivities，监管活动医学词典)是一个内容丰富且详细的医学标准术语应用词典，覆盖的产品包括药品，生物制品，疫苗和药物器械综合产品，其促进了医疗产品国际监管信息的共享。为了对临床试验中的医学术语进行编码，目前常采用的一种方法是先用工具进行自动编码，未能成功编码的词再进行人工编码。工具自动编码的方法分两个部分：报告医学术语与词典完全相同的会被自动识别编码；与词典不完全相同的词则通过建立同义词库，由人工手动建立一一对应的映射。上述过程需要耗费大量的人工，并且只能对与标准词典完全一致的医学术语进行自动编码，而报告的医学术语是自由文本并且多种多样，使用这种完全一致匹配的方式进行编码，很难满足对自由文本编码的自动化要求。
技术实现思路
本专利技术提供一种自动编码方法及装置，以解决现有的应用词典编码技术无法实现对自由文本进行自动化编码以及人工编码效率低的技术问题。第一方面，本专利技术实施例提供了一种自动编码方法，包括：对词典文件进行结构化处理，以获得标准词；利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；对所述候选结果进行编码后置处理，以获得经过处理的标准词；输出所...

【技术保护点】
1.一种自动编码方法，其特征在于，包括：/n对词典文件进行结构化处理，以获得标准词；/n利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；/n将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；/n对所述候选结果进行编码后置处理，以获得经过处理的标准词；/n输出所述经过处理的标准词，以实现对所述原始词的自动编码。/n

【技术特征摘要】
1.一种自动编码方法，其特征在于，包括：
对词典文件进行结构化处理，以获得标准词；
利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息；
将所述结构化信息与所述标准词进行结构化属性匹配，得到与所述结构化信息相对应的候选结果；
对所述候选结果进行编码后置处理，以获得经过处理的标准词；
输出所述经过处理的标准词，以实现对所述原始词的自动编码。

2.根据权利要求1所述的自动编码方法，其特征在于，所述对词典文件进行结构化处理，以获得标准词，包括：
基于所述词典文件的编码-术语文件，生成编码到术语的映射表；
获取所述词典文件中各层级术语之间的父子连接关系文件；
确定所述词典文件中术语路径信息文件，并通过所述父子连接关系文件对所述应用词典中的术语路径进行验证；
保存所述父子连接关系文件中各术语的父节点信息、子节点信息以及所述术语路径信息文件，作为自动编码的标准词。

3.根据权利要求2所述的自动编码方法，其特征在于，所述对词典文件进行结构化处理，以获得标准词，还包括：
对所述词典文件中没有对应编码的术语进行自定义特定处理，构建对应关系数据；
将所述对应关系数据存储为自动编码的标准词。

4.根据权利要求3所述的自动编码方法，其特征在于，所述对所述候选结果进行编码后置处理，以获得经过处理的标准词，包括：
判断所述候选结果中是否包含标识了所述未特指的原始词；
当所述候选结果中包含标识了所述未特指的原始词时，匹配包含所述对应关系数据的标准词。

5.根据权利要求1所述的自动编码方法，其特征在于，所述利用预设的属性词词典对获取的原始词进行结构化处理，以生成结构化信息，包括：
对获取的所述原始词进行清洗，以获得清洗后的原始词；
对所述清洗后的原始词进行同义词替换和正则匹配；
当检测到判定所述正则匹配的返回结果为空时，利用预设的所述属性词词典对所述原始词进行结构化处理，生成所述结构化信息。

6.根据权利要求5所述的自动编码方法，其特征在于，清洗后的所述原始词包括：经过全角转半角、去除无意义符号处理后的原始词。

7.根据权利要求5所述的自动编码方法，其特征在于，所述利用预设的所述属性词词典对所述原始词进行结构化处理，生成所述结构化信息，包括：
对所述原始词进行分词；
根据...

【专利技术属性】
技术研发人员：荣小辉，柯昆，康波，张子锐，
申请(专利权)人：天津开心生活科技有限公司，天津新开心生活科技有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人