一种特定领域人名纠错方法及系统、存储介质及终端技术方案

技术编号:37781008 阅读:19 留言:0更新日期:2023-06-09 09:11
本发明专利技术提供一种特定领域人名纠错方法及系统、存储介质及终端,包括以下步骤:训练关系抽取模型,所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系;基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果;构建特定领域的知识图谱;基于所述知识图谱对所述关系识别结果对应的人名进行纠错。本发明专利技术的特定领域人名纠错方法及系统、存储介质及终端通过关系抽取和知识图谱校正实现特定领域人名的纠错,准确度高,实用性强。实用性强。实用性强。

【技术实现步骤摘要】
一种特定领域人名纠错方法及系统、存储介质及终端


[0001]本专利技术涉及信息处理的
,特别是涉及一种特定领域人名纠错方法及系统、存储介质及终端。

技术介绍

[0002]人员姓名的正确书写在文本记载中至关重要,人名的错误记录会导致文字记载的真实性和权威性遭到质疑。现有技术中,文本中的人名纠错主要采用以下方式。
[0003](1)基于人工审核纠错。
[0004]在该方法中,所有文本内容都需经过人工审核,这样不仅费时费力,而且仍会存在遗漏的问题。
[0005](2)基于通用模型纠错。
[0006]现有技术中,训练一个通用模型进行文字纠错。该方法在解决一些常见错别字纠错时有效,但对于特定领域人名纠错存在识别不准的问题。这是因为通用模型纠错需要根据上下文进行判断,在很多情况下有固定的上下文;但是对于人名来说,其出现位置较为随机,进而影响到纠错判断的准确性。
[0007](3)基于规则进行纠错。
[0008]该方法中可利用拼音、词语关联等规则进行人名纠错。但由于规则过于生硬且不能联系上下文,导致的大量误报漏报。

技术实现思路

[0009]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种特定领域人名纠错方法及系统、存储介质及终端,通过关系抽取和知识图谱校正实现特定领域人名的纠错,准确度高,实用性强。
[0010]为实现上述目的及其他相关目的,本专利技术提供一种特定领域人名纠错方法,包括以下步骤:训练关系抽取模型,所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系;基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果;构建特定领域的知识图谱;基于所述知识图谱对所述关系识别结果对应的人名进行纠错。
[0011]于本专利技术一实施例中,训练关系抽取模型包括以下步骤:获取特定领域文本;标注所述特定领域文本中两个命名实体之间的关系;基于标注的两个命名实体之间的关系训练所述关系抽取模型;对训练得到的关系抽取模型进行评估;选取效果最佳的关系抽取模型作为训练好的关系抽取模型。
[0012]于本专利技术一实施例中,所述关系抽取模型采用参数共享的联合模型和联合解码的联合模型;所述参数共享的联合模型中两个命名实体以及两个命名实体关系的抽取是不同
步的;所述联合解码的联合模型中两个命名实体以及两个命名实体关系的抽取是同步的。
[0013]于本专利技术一实施例中,基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤:基于所述知识图谱判断所述关系识别结果是否正确;若是,则无需对所述关系识别结果对应的人名进行纠错;若否,根据所述知识图谱对所述关系识别结果对应的人名进行纠错。
[0014]本专利技术提供一种特定领域人名纠错系统,包括训练模块、抽取模块、构建模块和纠错模块;所述训练模块用于训练关系抽取模型,所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系;所述抽取模块用于基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果;所述构建模块用于构建特定领域的知识图谱;所述纠错模块用于基于所述知识图谱对所述关系识别结果对应的人名进行纠错。
[0015]于本专利技术一实施例中,所述训练模块训练关系抽取模型包括以下步骤:获取特定领域文本;标注所述特定领域文本中两个命名实体之间的关系;基于标注的两个命名实体之间的关系训练所述关系抽取模型;对训练得到的关系抽取模型进行评估;选取效果最佳的关系抽取模型作为训练好的关系抽取模型。
[0016]于本专利技术一实施例中,所述关系抽取模型采用参数共享的联合模型和联合解码的联合模型;所述参数共享的联合模型中两个命名实体以及两个命名实体关系的抽取是不同步的;所述联合解码的联合模型中两个命名实体以及两个命名实体关系的抽取是同步的。
[0017]于本专利技术一实施例中,所述纠错模块基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤:基于所述知识图谱判断所述关系识别结果是否正确;若是,则无需对所述关系识别结果对应的人名进行纠错;若否,根据所述知识图谱对所述关系识别结果对应的人名进行纠错。
[0018]本专利技术提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的特定领域人名纠错方法。
[0019]本专利技术提供一种特定领域人名纠错终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述特定领域人名纠错终端执行上述的特定领域人名纠错方法。
[0020]如上所述,本专利技术的特定领域人名纠错方法及系统、存储介质及终端,具有以下有益效果。
[0021](1)通过关系抽取实现了上下文关联判断,通过知识图谱实现了有效校正,从而极大地提高了特定领域人名纠错的准确度。
[0022](2)有效避免了人名纠错的漏报问题。
[0023](3)可应用于体育、文艺、政务等特定领域的人名识别,适用范围广,实用性强。
附图说明
[0024]图1显示为本专利技术的特定领域人名纠错方法于一实施例中的流程图。
[0025]图2显示为本专利技术的训练关系抽取模型于一实施例中的流程图。
[0026]图3显示为本专利技术的特定领域人名纠错系统于一实施例中的结构示意图。
[0027]图4显示为本专利技术的特定领域人名纠错终端于一实施例中的结构示意图。
具体实施方式
[0028]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。
[0029]需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0030]本专利技术的特定领域人名纠错方法及系统、存储介质及终端通过特定领域人名的关系抽取和知识图谱校正,实现特定领域人名的纠错,有效避免了漏报的问题,纠错准确度高,实用性强。
[0031]如图1所示,于一实施例中,本专利技术的特定领域人名纠错方法包括以下步骤。
[0032]步骤S1、训练关系抽取模型,所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系。
[0033]具体地,关系抽取就是从文本中抽取出特定的事件或事实信息,帮助实现海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。在本专利技术中,所述关系抽取模型就是从特定领域文本中抽取出两个命名实体之间的关系,可以(主体,关系,客体)来表述。因此,关系抽取主要执行以下两本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特定领域人名纠错方法,其特征在于:包括以下步骤:训练关系抽取模型,所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系;基于所述关系抽取模型获取特定领域的待纠错文本中人名与其他命名实体的关系识别结果;构建特定领域的知识图谱;基于所述知识图谱对所述关系识别结果对应的人名进行纠错。2.根据权利要求1所述的特定领域人名纠错方法,其特征在于:训练关系抽取模型包括以下步骤:获取特定领域文本;标注所述特定领域文本中两个命名实体之间的关系;基于标注的两个命名实体之间的关系训练所述关系抽取模型;对训练得到的关系抽取模型进行评估;选取效果最佳的关系抽取模型作为训练好的关系抽取模型。3.根据权利要求1所述的特定领域人名纠错方法,其特征在于:所述关系抽取模型采用参数共享的联合模型和联合解码的联合模型;所述参数共享的联合模型中两个命名实体以及两个命名实体关系的抽取是不同步的;所述联合解码的联合模型中两个命名实体以及两个命名实体关系的抽取是同步的。4.根据权利要求1所述的特定领域人名纠错方法,其特征在于:基于所述知识图谱对所述关系识别结果对应的人名进行纠错包括以下步骤:基于所述知识图谱判断所述关系识别结果是否正确;若是,则无需对所述关系识别结果对应的人名进行纠错;若否,根据所述知识图谱对所述关系识别结果对应的人名进行纠错。5.一种特定领域人名纠错系统,其特征在于:包括训练模块、抽取模块、构建模块和纠错模块;所述训练模块用于训练关系抽取模型,所述关系抽取模型用于识别特定领域文本中两个命名实体之间的关系;所述抽取模块用于基于所述关系抽取模型获取特定领域的待纠错文本中人名...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1