文本纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33770253 阅读:8 留言:0更新日期:2022-06-12 14:22
本申请公开了文本纠错方法、装置、电子设备及存储介质。该方法包括:在对待处理语句进行纠错时,可以根据待处理语句中每个词语的义素确定每个词语在待处理语句内的兼容度,作为语义兼容度,再根据待处理语句中每个词语的词性确定每个词语在待处理语句内的兼容度,作为语法兼容度,然后根据语义兼容度和语法兼容度对待处理语句进行纠错,得到纠错后的目标语句。本申请通过语义兼容度和语法兼容度可以衡量每个词语在待处理语句中是否能够表达出准确的意义以及在语法上是否连贯,因此可以更加精准地定位出语句中表意不准确或语法不连贯的错误词,进而更加精准地实现文本纠错。进而更加精准地实现文本纠错。进而更加精准地实现文本纠错。

【技术实现步骤摘要】
文本纠错方法、装置、电子设备及存储介质


[0001]本申请涉及文本处理
,尤其涉及一种文本纠错方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,文本错误的识别是自然语言处理中的一个重要分支,其主要任务是检测一段文字中是否存在错误的词语,并自动对检测到的错误进行改正。但是,相关技术中对文本错误的识别和纠正均存在精准度较低的问题。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种文本纠错方法、装置、电子设备及存储介质,能解决上述问题。
[0004]第一方面,本申请实施例提供了一种文本纠错方法,所述方法包括:获取待处理语句中每个词语的义素;根据每个词语的义素获取每个词语在所述待处理语句内的语义兼容度;获取所述待处理语句中每个词语的词性;基于每个词语的词性获取每个词语在所述待处理语句内的语法兼容度;基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
[0005]第二方面,本申请实施例提供了一种文本纠错装置,所述装置包括:义素获取单元、义素处理单元、词性获取单元、词性处理单元以及纠错单元。其中,义素获取单元用于获取待处理语句中每个词语的义素;义素处理单元,用于根据每个词语的义素获取每个词语在所述待处理语句内的语义兼容度;词性获取单元用于获取所述待处理语句中每个词语的词性;词性处理单元用于基于每个词语的词性获取每个词语在所述待处理语句内的语法兼容度;纠错单元用于基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。
[0006]第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
[0007]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
[0008]第五方面,本申请实施例提供了一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机实现上述方法。
[0009]在本申请实施例中,可以在纠错时通过义素来确定语句中各个词语在语义上相互兼容的程度,得到语义兼容度,通过词性来确定语句中各个词语在语法上相互兼容的程度,得到语法兼容度。本申请通过语义兼容度和语法兼容度可以衡量每个词语在待处理语句中是否能够表达出准确的意义以及在语法上是否连贯,因此可以更加精准地定位出语句中表意不准确或语法不连贯的错误词,进而更加精准地实现文本纠错。
[0010]本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1示出了本申请一实施例提供的文本纠错方法的一种应用环境示意图;
[0013]图2示出了本申请一实施例提供的文本纠错方法的流程示意图;
[0014]图3示出了本申请一实施例提供的文本纠错方法的词语替换示意图;
[0015]图4示出了本申请又一实施例提供的文本纠错方法的词语删除示意图;
[0016]图5示出了本申请另一实施例提供的文本纠错方法的词语增加示意图;
[0017]图6示出了本申请又一实施例提供的文本纠错方法的流程示意图;
[0018]图7示出了本申请另一实施例提供的文本纠错方法的流程示意图;
[0019]图8示出了本申请再一实施例提供的文本纠错方法的流程示意图
[0020]图9示出了本申请又一实施例提供的文本纠错方法的语句增加的处理流程示意图;
[0021]图10示出了本申请一实施例提供的纠错系统的处理流程示意图;
[0022]图11示出了本申请一实施例提供的含多头机制的transformer结构的示意图;
[0023]图12示出了本申请一实施例提供的文本纠错装置的模块框图;
[0024]图13示出了本申请一实施例提供的电子设备的结构框图;
[0025]图14示出了本申请一实施例提供的计算机可读存储介质的结构框图。
具体实施方式
[0026]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]随着信息时代的快速发展,大量信息涌现在用户面前,然而不管是人工输入的文本信息还是计算机自动生成的文本信息,均可能出现文本错误。在一些情况下,文本错误的存在可能会导致歧义,使用户无法正确识别到文本的真正含义,进而影响了用户体验。此外,在意图识别、语音识别、机器翻译等应用场景下,文本错误的存在可能导致意图识别有误,语音输出结果错误或无法进行机器翻译等等,影响文本的后续处理过程。因此,亟需一种能够精准地纠正文本错误的文本纠错方式。
[0028]为解决上述问题,本申请专利技术人经过仔细研究后发现,目前自然语言处理(NLP,Natural Language Processing)研究与模型识别的探索均停滞于词层面,而词以下的语义
单位则被蒙上了神秘面纱,但从语言实际情况来说,词作为最小的可独立使用单位,其在语义层面还有一个下位概念,即义素(SEME)。义素是现代语义学术语,指语言中意义单位(内容单位),又被称为义子,是词的构成因子。同一个词在与不同词的对比中,可以根据使用需求选择用不同数量的义素表示,比如“女人”一词如果限定用三个义素表示,可以表示为【人】【女性】【成年】。由此可知,通过分析义素可以在更小的粒度上实现对文本语义的研究,从而能够更加精准地识别出文本中各个词语的真实含义。
[0029]基于此,专利技术人提出了一种可以在纠错时通过义素来确定语句中各个词语在语义上相互兼容的程度,通过词性来确定语句中各个词语在语法上相互兼容的程度,接着根据语义兼容度和语法兼容度定位出语句中出现的错误,进而更加精准地实现文本纠错。
[0030]为了更好理解本申请实施例提供的一种文本纠错方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
[0031]请参阅图1,图1示出了本申请一实施例提供的文本纠错方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法包括:获取待处理语句中每个词语的义素;根据每个词语的义素获取每个词语在所述待处理语句内的兼容度,作为语义兼容度;获取所述待处理语句中每个词语的词性;基于每个词语的词性获取每个词语在所述待处理语句内的兼容度,作为语法兼容度;基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句。2.根据权利要求1所述的方法,其特征在于,所述根据每个词语的义素获取每个词语在所述待处理语句内的兼容度,作为语义兼容度,包括:根据每个词语的义素获取该词语的义素与所述待处理语句中其余所有词语的义素之间的兼容度,作为第一语义兼容度;确定所述待处理语句中满足预设条件的核心词语,根据每个词语的义素获取该词语的义素与每个所述核心词语的义素之间的兼容度,作为第二语义兼容度;根据每个词语的义素获取该词语的义素与该词语前后预设数量的词语的义素之间的兼容度,作为第三语义兼容度;基于所述每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度确定每个词语的所述语义兼容度。3.根据权利要求2所述的方法,其特征在于,所述基于每个词语的第一语义兼容度、第二语义兼容度以及第三语义兼容度确定每个词语的所述语义兼容度,包括:对第一语义兼容度、第二语义兼容度以及第三语义兼容度进行加权求和,得到每个词语的语义兼容度。4.根据权利要求1所述的方法,其特征在于,所述基于每个词语的词性获取每个词语在所述待处理语句内的兼容度,作为语法兼容度,包括:获取每个词语的词性与所述待处理语句中其余所有词语的词性之间的兼容度,作为第一语法兼容度;确定所述待处理语句中满足预设条件的核心词语,获取每个词语的词性与每个所述核心词语的词性之间的兼容度,作为第二语法兼容度;获取每个词语的词性与该词语前后预设数量的词语的词性之间的兼容度,作为第三语法兼容度;基于每个词语的第一语法兼容度、第二语法兼容度以及第三语法兼容度确定每个词语的所述语法兼容度。5.根据权利要求1所述的方法,其特征在于,所述基于所述语义兼容度和所述语法兼容度对所述待处理语句进行纠错,得到纠错后的目标语句,包括:基于所述语义兼容度确定所述待处理语句中的错误词;基于所述语法兼容度确定每个错误词对应的错误类型;根据所述错误类型对所述待处理语句中与所述错误类型对应的错误词进行纠错,得到纠错后的目标语句。6.根据权利要求5所述的方法,其特征在于,所述基于所述语义兼容度确定所述待处理语句中的错误词,包括:
将所述待处理语句中语义兼容度小于语义阈值的词语确定为错误词。7.根据权利要求5所述的方法,其特征在于,所述错误类型包括第一类型,所述第一类型的错误词的语法兼容度大于语法阈值,所述根据所述错误类型对所述待处理语句中与所述错误类型对应的错误词进行纠错,得到纠错后的目标语句,包括:根据所述第一类型的错误词对应的语义确定第一目标词语;在所述待处理语句中,使用所述第一目标词语替换所述第一类型的错误词,得到纠错后的目标语句。8.根据权利要求5所述的方法,其...

【专利技术属性】
技术研发人员:白安琪蒋宁王洪斌吴海英权佳成
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1