基于上下文语义的特定领域人名纠错方法、系统、介质及终端技术方案

技术编号:36423950 阅读:15 留言:0更新日期:2023-01-20 22:33
本发明专利技术提供一种基于上下文语义的特定领域人名纠错方法、系统、介质及终端,包括以下步骤:训练文本匹配模型,所述文本匹配模型用于基于语义确定两个命名实体匹配关系;基于所述文本匹配模型获取特定领域的待纠错文本中人名与其他命名实体的匹配识别结果;构建特定领域的知识图谱;基于所述知识图谱对所述匹配识别结果对应的人名进行纠错。本发明专利技术的基于上下文语义的特定领域人名纠错方法、系统、介质及终端根据上下文语义进行文本匹配,通过知识图谱实现了有效校正,从而极大地提高了特定领域人名纠错的准确度。人名纠错的准确度。人名纠错的准确度。

【技术实现步骤摘要】
基于上下文语义的特定领域人名纠错方法、系统、介质及终端


[0001]本专利技术涉及信息处理的
,特别是涉及一种基于上下文语义的特定领域人名纠错方法、系统、介质及终端。

技术介绍

[0002]人员姓名的正确书写在文本记载中至关重要,人名的错误记录会导致文字记载的真实性和权威性遭到质疑。现有技术中,文本中的人名纠错主要采用以下方式:
[0003](1)基于人工审核纠错
[0004]在该方法中,所有文本内容都需经过人工审核,这样不仅费时费力,而且仍会存在遗漏的问题。
[0005](2)基于通用模型纠错
[0006]现有技术中,训练一个通用模型进行文字纠错。该方法在解决一些常见错别字纠错时有效,但对于特定领域人名纠错存在识别不准的问题。这是因为通用模型纠错针对的是常见的文字纠错。但是对于人名来说,需要根据特定语义判断其准确性,导致通用模型无法适用。
[0007](3)基于知识图谱进行纠错
[0008]在知识图谱中,需要将人名和对应的相关信息进行关联。但在一些场景下,并不会出现对应的相关信息,导致无法进行人名纠错。
[0009](4)基于规则和关键词进行纠错
[0010]在该方法中,将人名和关键词相关联,基于关键词进行人名的纠错。但由于不能进行上下文语义分析,容易出现人名和关键词的错误关联,导致出现人名纠错的误报和漏报。

技术实现思路

[0011]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于上下文语义的特定领域人名纠错方法、系统、介质及终端,根据上下文语义进行文本匹配,通过知识图谱实现了有效校正,从而极大地提高了特定领域人名纠错的准确度。
[0012]为实现上述目的及其他相关目的,本专利技术提供一种基于上下文语义的特定领域人名纠错方法,包括以下步骤:训练文本匹配模型,所述文本匹配模型用于基于语义确定两个命名实体匹配关系;基于所述文本匹配模型获取特定领域的待纠错文本中人名与其他命名实体的匹配识别结果;构建特定领域的知识图谱;基于所述知识图谱对所述匹配识别结果对应的人名进行纠错。
[0013]于本专利技术一实施例中,训练文本匹配模型包括以下步骤:
[0014]获取特定领域文本;
[0015]基于语义标注所述特定领域文本中两个命名实体的匹配关系;
[0016]基于标注的两个命名实体的匹配关系训练所述文本匹配模型;
[0017]对训练得到的文本匹配模型进行评估;
[0018]选取效果最佳的关系抽取模型作为训练好的文本匹配模型。
[0019]于本专利技术一实施例中,所述文本匹配模型采用BERT模型。
[0020]于本专利技术一实施例中,基于所述知识图谱对所述匹配识别结果对应的人名进行纠错包括以下步骤:
[0021]基于所述知识图谱判断所述匹配识别结果是否正确;
[0022]若是,则无需对所述匹配识别结果对应的人名进行纠错;
[0023]若否,根据所述知识图谱对所述匹配识别结果对应的人名进行纠错。
[0024]本专利技术提供一种基于上下文语义的特定领域人名纠错系统,包括训练模块、获取模块、构建模块和纠错模块;
[0025]所述训练模块用于训练文本匹配模型,所述文本匹配模型用于基于语义确定两个命名实体匹配关系;
[0026]所述获取模块用于基于所述文本匹配模型获取特定领域的待纠错文本中人名与其他命名实体的匹配识别结果;
[0027]所述构建模块用于构建特定领域的知识图谱;
[0028]所述纠错模块用于基于所述知识图谱对所述匹配识别结果对应的人名进行纠错。
[0029]于本专利技术一实施例中,所述训练模块训练文本匹配模型包括以下步骤:
[0030]获取特定领域文本;
[0031]基于语义标注所述特定领域文本中两个命名实体的匹配关系;
[0032]基于标注的两个命名实体的匹配关系训练所述文本匹配模型;
[0033]对训练得到的文本匹配模型进行评估;
[0034]选取效果最佳的关系抽取模型作为训练好的文本匹配模型。
[0035]于本专利技术一实施例中,所述文本匹配模型采用BERT模型。
[0036]于本专利技术一实施例中,所述纠错模块基于所述知识图谱对所述匹配识别结果对应的人名进行纠错包括以下步骤:
[0037]基于所述知识图谱判断所述匹配识别结果是否正确;
[0038]若是,则无需对所述匹配识别结果对应的人名进行纠错;
[0039]若否,根据所述知识图谱对所述匹配识别结果对应的人名进行纠错。
[0040]本专利技术提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于上下文语义的特定领域人名纠错方法。
[0041]本专利技术提供一种特定领域人名纠错终端,包括:处理器及存储器;
[0042]所述存储器用于存储计算机程序;
[0043]所述处理器用于执行所述存储器存储的计算机程序,以使所述特定领域人名纠错终端执行上述的基于上下文语义的特定领域人名纠错方法。
[0044]如上所述,本专利技术的基于上下文语义的特定领域人名纠错方法、系统、介质及终端,具有以下有益效果:
[0045](1)根据上下文语义进行文本匹配,通过知识图谱实现了有效校正,从而极大地提高了特定领域人名纠错的准确度;
[0046](2)有效避免了人名纠错的误报漏报问题;
[0047](3)可应用于体育、文艺、政务等特定领域的人名识别,适用范围广,实用性强。
附图说明
[0048]图1显示为本专利技术的特定领域人名纠错方法于一实施例中的流程图;
[0049]图2显示为本专利技术的训练文本匹配模型于一实施例中的流程图;
[0050]图3显示为本专利技术的特定领域人名纠错系统于一实施例中的结构示意图;
[0051]图4显示为本专利技术的特定领域人名纠错终端于一实施例中的结构示意图。
[0052]元件标号说明
[0053]31
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
训练模块
[0054]32
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
获取模块
[0055]33
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
构建模块
[0056]34
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
纠错模块
[0057]41
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器
[0058]42
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储器
具体实施方式
[0059]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文语义的特定领域人名纠错方法,其特征在于:包括以下步骤:训练文本匹配模型,所述文本匹配模型用于基于语义确定两个命名实体匹配关系;基于所述文本匹配模型获取特定领域的待纠错文本中人名与其他命名实体的匹配识别结果;构建特定领域的知识图谱;基于所述知识图谱对所述匹配识别结果对应的人名进行纠错。2.根据权利要求1所述的基于上下文语义的特定领域人名纠错方法,其特征在于:训练文本匹配模型包括以下步骤:获取特定领域文本;基于语义标注所述特定领域文本中两个命名实体的匹配关系;基于标注的两个命名实体的匹配关系训练所述文本匹配模型;对训练得到的文本匹配模型进行评估;选取效果最佳的关系抽取模型作为训练好的文本匹配模型。3.根据权利要求1所述的基于上下文语义的特定领域人名纠错方法,其特征在于:所述文本匹配模型采用BERT模型。4.根据权利要求1所述的基于上下文语义的特定领域人名纠错方法,其特征在于:基于所述知识图谱对所述匹配识别结果对应的人名进行纠错包括以下步骤:基于所述知识图谱判断所述匹配识别结果是否正确;若是,则无需对所述匹配识别结果对应的人名进行纠错;若否,根据所述知识图谱对所述匹配识别结果对应的人名进行纠错。5.一种基于上下文语义的特定领域人名纠错系统,其特征在于:包括训练模块、获取模块、构建模块和纠错模块;所述训练模块用于训练文本匹配模型,所述文本匹配模型用于基于语义确定两个命名实体匹配关系;所述获取模块用于基于所述文本匹配模型获取特定领域的待纠错文本中人名与其他命...

【专利技术属性】
技术研发人员:杨子昭
申请(专利权)人:北京蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1