一种文本校正方法、装置及相关设备制造方法及图纸

技术编号:37495927 阅读:15 留言:0更新日期:2023-05-07 09:33
本申请公开了一种文本校正方法、装置及相关设备,该方法包括:获得基础文本和预先构建的知识库;其中,基础文本中包含至少一个初始段落,知识库中包含若干数量与基础文本相关的参考三元组;针对每个初始段落,获得当前初始段落中的初始三元组,基于初始三元组和知识库中的参考三元组确定当前初始段落的准确率;响应于准确率小于或等于预设阈值,基于参考三元组对当前初始段落中的至少部分初始三元组进行修正,以获得目标三元组;基于当前初始段落、目标三元组以及与当前初始段落相邻的其余初始段落,获得目标段落,利用目标段落替换当前初始段落。通过上述方式,本申请能够对质量较差的文本进行校正,以提高文本的准确性和真实性。性。性。

【技术实现步骤摘要】
一种文本校正方法、装置及相关设备


[0001]本申请涉及自然语言处理
,特别是涉及一种文本校正方法、装置及相关设备。

技术介绍

[0002]随着科技和网络技术的快速发展,越来越多的人们通过网络文章来获取新的信息。然而,网络中也不乏较多夹杂虚假信息的低质量文章,这部分文章阻碍了人们对于有效信息的快速获取。因此,对文本内容进行质量评估具有重要意义。现有的文本质量评估方法一般只关注文本的语法层面、情感层面或主题层面,并无法对文本信息的真实性和可靠性进行评估。并且,对于低质量的文章无法进行校正。

技术实现思路

[0003]本申请主要解决的技术问题是提供一种文本校正方法、装置及相关设备,能够对质量较差的文本进行校正,以提高文本的准确性和真实性。
[0004]为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本校正方法,包括:获得基础文本和预先构建的知识库;其中,所述基础文本中包含至少一个初始段落,所述知识库中包含若干数量与所述基础文本相关的参考三元组;针对每个所述初始段落,获得当前所述初始段落中的初始三元组,基于所述初始三元组和所述知识库中的参考三元组确定当前所述初始段落的准确率;响应于所述准确率小于或等于预设阈值,基于所述参考三元组对当前所述初始段落中的至少部分所述初始三元组进行修正,以获得目标三元组;基于当前所述初始段落、所述目标三元组以及与当前所述初始段落相邻的其余所述初始段落,获得目标段落,利用所述目标段落替换当前所述初始段落。
[0005]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种文本校正装置,包括:第一获得模块,用于获得基础文本和预先构建的知识库;其中,所述基础文本中包含至少一个初始段落,所述知识库中包含若干数量与所述基础文本相关的参考三元组;第二获得模块,用于针对每个所述初始段落,获得当前所述初始段落中的初始三元组,基于所述初始三元组和所述知识库中的参考三元组确定当前所述初始段落的准确率;修正模块,用于响应于所述准确率小于或等于预设阈值,基于所述参考三元组对当前所述初始段落中的至少部分所述初始三元组进行修正,以获得目标三元组;处理模块,用于基于当前所述初始段落、所述目标三元组以及与当前所述初始段落相邻的其余所述初始段落,获得目标段落,利用所述目标段落替换当前所述初始段落。
[0006]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现上述技术方案中提到的文本校正方法。
[0007]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述技术方案中提
到的文本校正方法
[0008]本申请的有益效果是:区别于现有技术的情况,本申请提出的文本校正方法根据从当前初始段落中提取出的初始三元组来评估当前初始段落的文本质量。对于文本质量较低的初始段落,利用知识库中的参考三元组对错误的初始三元组进行修正,并根据修正后初始段落中的三元组、初始段落以及与初始段落相邻的部分段落的语义信息来重新生成对应的目标段落。通过利用目标段落替换对应的初始段落以提高基础文本质量以及准确性。
附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0010]图1是本申请文本校正方法一实施方式的流程示意图;
[0011]图2是步骤S104对应一实施方式的流程示意图;
[0012]图3是步骤S104对应的文本校正模型一实施方式的结构示意图;
[0013]图4是本申请文本校正装置一实施方式的结构示意图;
[0014]图5是本申请电子设备一实施方式的结构示意图;
[0015]图6是本申请存储装置一实施方式的结构示意图。
具体实施方式
[0016]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0017]请参阅图1,图1是本申请文本校正方法一实施方式的流程示意图,该方法包括:
[0018]S101:获得基础文本和预先构建的知识库。其中,基础文本中包含至少一个初始段落,知识库中包含若干数量与基础文本相关的参考三元组。
[0019]在一实施方式中,步骤S101包括:获取需要进行文本质量评估的基础文本,该基础文本可以为产品营销文案、网络新闻或文本生成模型生成的文章等。其中,该基础文本中包括至少一个初始段落。
[0020]进一步地,为助于对基础文本中的初始段落进行文本质量的评估,根据待评估的基础文本对应的内容信息、或基础文本所属的领域构建包含多个参考三元组的知识库。例如,响应于待评估的基础文本为体育领域的新闻文章,且与篮球密切相关,则知识库中包含大量如“姚明

身高

226cm”等与篮球领域相关的参考三元组。
[0021]S102:针对每个初始段落,获得当前初始段落中的初始三元组,基于初始三元组和知识库中的参考三元组确定当前初始段落的准确率。
[0022]在一实施方式中,步骤S102包括:针对待评估的基础文本中的所有初始段落,依次对每个初始段落进行质量评估,以判断当前初始段落是否满足既定的质量要求。在对当前初始段落进行质量评估时,首先从当前初始段落中提取出所有初始三元组。
[0023]具体的,抽取获得的初始三元组与参考三元组中都包括相应的主体元素、中间元素以及客体元素,中间元素可以为主体元素与客体元素之间的关系。其中,可以利用开放信息抽取(OIE,Open Information Extraction)技术从当前初始段落中抽取获得多个初始三元组。例如,对于三元组“中国

首都

北京”,主体元素为“中国”,客体元素为“北京”,中间元素为“首都”。
[0024]可选地,在其他实施方式中,也可以根据知识库中的多个参考三元组构建相应的抽取模板,并利用该抽取模板从当前初始段落中抽取获得初始三元组。例如,获取参考三元组的主体元素和中间元素,响应于当前初始段落中某个语句内出现该参考三元组的主体元素和中间元素,则基于该语句的语义信息确定对应的客体元素,以获得对应的初始三元组。
[0025]进一步地,将初始三元组与知识库中的参考三元组进行比对,以确定当前初始段落的准确率。其中,该准确率越高则认为当前初始段落的质量较高,且无需进行校正;若该准确率较低,则认为当前初始段落中存在较多事实错误,且为保本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本校正方法,其特征在于,包括:获得基础文本和预先构建的知识库;其中,所述基础文本中包含至少一个初始段落,所述知识库中包含若干数量与所述基础文本相关的参考三元组;针对每个所述初始段落,获得当前所述初始段落中的初始三元组,基于所述初始三元组和所述知识库中的参考三元组确定当前所述初始段落的准确率;响应于所述准确率小于或等于预设阈值,基于所述参考三元组对当前所述初始段落中的至少部分所述初始三元组进行修正,以获得目标三元组;基于当前所述初始段落、所述目标三元组以及与当前所述初始段落相邻的其余所述初始段落,获得目标段落,利用所述目标段落替换当前所述初始段落。2.根据权利要求1所述的方法,其特征在于,所述基于所述初始三元组和所述知识库中的参考三元组确定当前所述初始段落的准确率的步骤,包括:获取当前所述初始段落中所有所述初始三元组的第一数量;获取与所述知识库中的所述参考三元组相同的所述初始三元组的第二数量;将所述第二数量与所述第一数量的比值作为所述准确率。3.根据权利要求1所述的方法,其特征在于,所述基于所述参考三元组对当前所述初始段落中的至少部分所述初始三元组进行修正的步骤,包括:响应于所述初始三元组中包含主体元素、中间元素以及客体元素,基于所述主体元素和所述中间元素判断所述客体元素是否正确;若否,则基于所述主体元素和所述中间元素从所述知识库中获得备选参考三元组,利用所述备选参考三元组替换对应所述初始三元组。4.根据权利要求1所述的方法,其特征在于,所述基于当前所述初始段落、所述目标三元组以及与当前所述初始段落相邻的其余初始段落,获得目标段落的步骤,包括:基于所有所述初始段落获得所述基础文本对应的全文语义向量,以及获得当前所述初始段落之前的所有所述初始段落对应的上文语义向量;利用对应的元素类别替换所述目标三元组中的至少部分元素,获得替换后的当前所述初始段落的段落语义向量;获得所有所述目标三元组对应的第一三元组向量,将所有所述第一三元组向量的均值作为目标三元组向量;基于所述全文语义向量、所述上文语义向量、所述段落语义向量和所述目标三元组向量,获得所述目标段落。5.根据权利要求4所述的方法,其特征在于,所述利用对应的元素类别替换所述目标三元组,获得替换后的当前所述初始段落的段落语义向量的步骤,包括:响应于当前所述初始段落中包含多个所述目标三元组,获取所述目标三元组中主体元素和客体元素所属的元素类别;利用所...

【专利技术属性】
技术研发人员:欧阳洋杜倩云梅林海
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1