基于医学词典的实体提取方法、装置、设备及存储介质制造方法及图纸

技术编号：21952778 阅读：46 留言：0更新日期：2019-08-24 17:50

本发明专利技术公开了一种基于医学词典的实体提取方法，属于自然语言处理领域。该方法包括：基于原始医学词典构建前缀词典和后缀词典；对中文病历做n‑gram遍历；将遍历后得到各个词组分别与原始医学词典、前缀词典和后缀词典进行匹配并输出匹配结果；根据匹配结果与特征向量的对应规则，输出每个字的特征向量；将输出的每个字的特征向量对应拼接每个字的初始向量之后，以得到用于表征中文病历的向量集；将用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。本发明专利技术通过先识别出中文病历中的实体转换成特征向量，然后将中文病历整体转换成的向量集作为模型的输入，以提高模型对实体抽取的准确率。

Entity Extraction Method, Device, Equipment and Storage Media Based on Medical Dictionary

全部详细技术资料下载

【技术实现步骤摘要】
基于医学词典的实体提取方法、装置、设备及存储介质
本专利技术涉及自然语言处理领域，涉及一种基于医学词典的实体提取方法、电子装置、计算机设备及存储介质。
技术介绍
目前对于命名实体识别在病例上的应用的需求很大，比如对病例的查询、搜索、整理等。现有基于深度学习的中文命名实体识别的效果很难提升，而且之前都是应用在其他语言上，比如英语。因为深度学习模型的限制和各个语言间语言特性的不同，这使命名实体任务在中文上的应用受到了限制。又因为通用领域、其他领域与医疗领域之间的差异，使其在医疗领域中病例的方向上的应用有所限制。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中基于深度学习的中文命名实体识别准确率不高的问题，提出了一种基于医学词典的实体提取方法、装置、设备及存储介质，通过对中文病例中的文本内容抽取相应的特征转换成特征向量，然后将特征向量作为模型的输入，以提高实体识别的准确率。本专利技术是通过下述技术方案来解决上述技术问题：一种基于医学词典的实体提取方法，包括以下步骤：基于原始医学词典构建前缀词典和后缀词典，所述原始医学词典包含了所有医学名词与实体类别的对应关系；对中文病历做n-gram遍历，n为等于或小于所述中文病历长度的非零自然数；将遍历后得到各个词组分别与所述原始医学词典、所述前缀词典和所述后缀词典进行匹配并输出匹配结果，所述匹配结果包括匹配和不匹配，当匹配时所述匹配结果包含有匹配的词典名词和匹配的医学名词及该医学名词对应的实体类别；根据匹配结果与特征向量的对应规则，输出每个字的特征向量；将所述输出的每个字的特征向量对应拼接每个字的初始向量之后，以得...

【技术保护点】
1.一种基于医学词典的实体提取方法，其特征在于，包括以下步骤：基于原始医学词典构建前缀词典和后缀词典，所述原始医学词典包含了所有医学名词与实体类别的对应关系；对中文病历做n‑gram遍历，n为等于或小于所述中文病历长度的非零自然数；将遍历后得到各个词组分别与所述原始医学词典、所述前缀词典和所述后缀词典进行匹配并输出匹配结果，所述匹配结果包括匹配和不匹配，当匹配时所述匹配结果包含有匹配的词典名词和匹配的医学名词及该医学名词对应的实体类别；根据匹配结果与特征向量的对应规则，输出每个字的特征向量；将所述输出的每个字的特征向量对应拼接每个字的初始向量之后，以得到用于表征所述中文病历的向量集；将所述用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。

【技术特征摘要】
1.一种基于医学词典的实体提取方法，其特征在于，包括以下步骤：基于原始医学词典构建前缀词典和后缀词典，所述原始医学词典包含了所有医学名词与实体类别的对应关系；对中文病历做n-gram遍历，n为等于或小于所述中文病历长度的非零自然数；将遍历后得到各个词组分别与所述原始医学词典、所述前缀词典和所述后缀词典进行匹配并输出匹配结果，所述匹配结果包括匹配和不匹配，当匹配时所述匹配结果包含有匹配的词典名词和匹配的医学名词及该医学名词对应的实体类别；根据匹配结果与特征向量的对应规则，输出每个字的特征向量；将所述输出的每个字的特征向量对应拼接每个字的初始向量之后，以得到用于表征所述中文病历的向量集；将所述用于表征所述中文病历的向量集输入训练好的模型以抽取其中的实体。2.根据权利要求1所述的基于医学词典的实体提取方法，其特征在于，所述前缀词典的构建包括以下步骤：识别出所述原始医学词典中多于两个字的词组；将识别出的所述词组的前i个字存入前缀词典，i为小于该词组长度且大于该词组长度的一半的自然数，其中该词组长度的一半取整数。3.根据权利要求1所述的基于医学词典的实体提取方法，其特征在于，所述后缀词典的构建包括以下步骤：识别出所述原始医学词典中多于两个字的词组；将识别出的所述词组的后i个字存入后缀词典，i为小于该词组长度且大于等于该词组长度的一半的自然数，其中该词组长度的一半取整数。4.根据权利要求1所述的基于医学词典的实体提取方法，其特征在于，所述根据匹配结果与特征向量的对应规则，输出每个字的特征向量包括以下步骤：当所述匹配结果为匹配时，根据所述匹配结果中包含的词典名词调用适用的对应规则，所述对应规则包括与原始医学词典相匹配时适用的第一对应规则，与前缀词典相匹配时适用的第二对应规则，以及与后缀词典相匹配时适用的第三对应规则；根据所述适用的对应规则输出每个字的特征向量；当所述匹配结果为不匹配时，对应每个字输出初始的特征向量。5.根据权利要求4所述的基于医学词典的实体提取方法，其特征在于，所述第一对应规则包括：所述特征向量的长度等于所述实体类别的数量；所述特征向...

【专利技术属性】
技术研发人员：丁佳佳，李春宇，倪渊，谢国彤，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人