摘要文本标注方法、装置和设备以及计算机存储介质制造方法及图纸

技术编号:29987499 阅读:15 留言:0更新日期:2021-09-11 04:23
本公开涉及一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。所述摘要文本是基于原始文本生成的,所述摘要文本标注包括:以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。本的对应性。本的对应性。

【技术实现步骤摘要】
摘要文本标注方法、装置和设备以及计算机存储介质


[0001]本公开涉及基于人工智能技术的文本处理领域,并且具体涉及一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。

技术介绍

[0002]自然语言处理(NLP)是人工智能技术重要的应用领域之一。自然语言处理能够让计算机像人一样能够阅读文字,理解文字背后的含义,从而完成机器翻译、自动问答、信息检索、情感分析、自动文本摘要等具体应用。在自然语言处理中,文本摘要提取指的是将一段有明确含义的文本内容进行高度的概括和抽象,生成文本的摘要。基于深度神经网络文本摘要提取系统能够实现不依赖于文本的具体内容、文本长度的文本摘要提取。
[0003]基于深度神经网络的自然语言处理系统通常在接收到待提取摘要的原始文本之后,直接输出提取之后的摘要文本。然而,用户难以从直接输出的摘要文本中识别出其在原始文本中的位置。例如,如果用户想根据摘要文本的内容再详细阅读原始文本的相应部分,则在原始文本比较长的情况下,难以定位相应部分。

技术实现思路

[0004]鉴于上述问题而提出了本公开。本公开提供了一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。
[0005]根据本公开的一个方面,提供了一种摘要文本标注方法,所述摘要文本是基于原始文本生成的,所述摘要文本标注包括:以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
[0006]此外,根据本公开一个方面的摘要文本标注方法,其中,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果包括:以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语;将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。
[0007]此外,根据本公开一个方面的摘要文本标注方法,其中,所述第四预定长度为一个字符,或者所述第四预定长度为所述第三预定长度的预定比例。
[0008]此外,根据本公开一个方面的摘要文本标注方法,还包括:在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。
[0009]根据本公开的另一个方面,提供了一种摘要文本标注装置,所述摘要文本是基于原始文本生成的,所述摘要文本装置包括:第一匹配单元,用于以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;第二匹配单元,用于在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;标注单元,用于基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
[0010]此外,根据本公开另一个方面的摘要文本标注装置,其中,所述第二匹配单元以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语;将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。
[0011]此外,根据本公开另一个方面的摘要文本标注装置,其中,所述第四预定长度为一个字符,或者所述第四预定长度为所述第三预定长度的预定比例。
[0012]此外,根据本公开另一个方面的摘要文本标注装置,还包括:第三匹配单元,用于在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。
[0013]根据本公开的又一个方面,提供了一种摘要文本标注设备,包括:存储器,用于存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述摘要文本标注设备执行如上所述的摘要文本标注方法。
[0014]根据本公开的再一个方面,提供了一种计算机存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行如上所述的摘要文本标注方法。
[0015]如以下将详细描述的,根据本公开的摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质,不但能够以整句或半句为单位识别并标注摘要文本与原始文本的对应性,而且能够在更细的粒度上识别并标注摘要文本与原始文本的对应性,以便对于不是从原始文本整句或半句提取的摘要文本,甚至是基于原始文本所生成的摘要文本,实现对应性的识别和标注,从而使得用户能够直观地获知摘要文本在原始文本中的相应位置,获得更好的阅读体验。
[0016]要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
[0017]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、
特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0018]图1是概述根据本公开实施例的摘要文本标注方法的应用场景的示意图;
[0019]图2是图示根据本公开实施例的摘要文本标注方法的流程图;
[0020]图3是进一步图示根据本公开实施例的摘要文本标注方法的流程图;
[0021]图4A-4C是进一步图示根据本公开实施例的摘要文本标注方法的示意图;
[0022]图5是图示根据本公开实施例的摘要文本标注装置的框图;
[0023]图6是图示根据本公开实施例的摘要文本标注设备的硬件框图;以及
[0024]图7是图示根据本公开的实施例的计算机可读存储介质的示意图。
具体实施方式
[0025]为了使得本公开的目的、技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种摘要文本标注方法,所述摘要文本是基于原始文本生成的,所述摘要文本标注包括:以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。2.如权利要求1所述的摘要文本标注方法,其中,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果包括:以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语;将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。3.如权利要求2所述的摘要文本标注方法,其中,所述第四预定长度为一个字符,或者所述第四预定长度为所述第三预定长度的预定比例。4.如权利要求1到3的任一项所述的摘要文本标注方法,还包括:在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。5.一种摘要文本标注装置,所述摘要文本是基于原始文本生成的,所述摘要文本装置包括:第一匹配单元,用于以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执...

【专利技术属性】
技术研发人员:李安新郭垿宏关雅卓陈岚池田大志
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1