文本处理方法、装置、存储介质、电子设备及系统制造方法及图纸

技术编号:34335840 阅读:17 留言:0更新日期:2022-07-31 02:57
本公开涉及一种文本处理方法、装置、存储介质、电子设备及系统,方法包括:获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;将所述索引关系存储至索引数据库;根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写,解决了因采用模型进行文本改写而模型需要离线更新进而影响文本在线改写的实时性的问题。实时性的问题。实时性的问题。

Text processing method, device, storage medium, electronic equipment and system

【技术实现步骤摘要】
文本处理方法、装置、存储介质、电子设备及系统


[0001]本公开涉及自然语音处理
,具体地,涉及一种文本处理方法、装置、存储介质、电子设备及系统。

技术介绍

[0002]在相关技术中,获取的原始输入文本可能并没有合理的表达其原意,因此,需要对此类文本进行合理化的干预处理(例如改写处理),以便于原始输入文本更好的表达其原意。
[0003]然而,在传统的文本改写中,通常采用模型来对文本进行改写,而在模型使用中会涉及模型的离线更新,而在实际的工业应用场景下,文本的在线实时处理尤为重要,因此,离线更新模型的方式会严重影响文本在线处理的实时性。

技术实现思路

[0004]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]第一方面,本公开提供一种文本处理方法,包括:
[0006]获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;
[0007]根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;
[0008]将所述索引关系存储至索引数据库;
[0009]根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写。
[0010]第二方面,本公开提供一种文本处理装置,包括:
[0011]第一获取模块,用于获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;
[0012]生成模块,用于根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;
[0013]存储模块,用于将所述索引关系存储至索引数据库;
[0014]改写模块,用于根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写。
[0015]第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面中所述方法的步骤。
[0016]第四方面,本公开提供一种电子设备,包括:
[0017]存储装置,其上存储有计算机程序;
是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0036]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0037]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0038]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0039]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0040]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0041]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0042]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0043]同时,可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0044]正如
技术介绍
所言,通常采用大量文本训练数据训练神经网络模型,以根据训练好的神经网络模型对文本进行改写,而在模型的实际使用时,对于与文本训练数据分布相差较大的输入,模型往往给出异常的输出,影响模型的综合表现。为解决模型异常输出的问题,通常是将异常的输入输出实例进行人工校正(或标注),再重新喂入模型进行训练然而,模型重新训练涉及到模型参数的重新调整和学习,通常在离线阶段完成,如此便会影响实际工业应用场景中对文本进行改写处理的实时性。此外,由于模型重新上线可能也同时涉及到环境的重新部署,如此,将进一步影响实际工业应用场景中对文本进行改写处理的实时性。
[0045]有鉴于此,本公开实施例提供一种文本处理方法、装置、存储介质、电子设备及系统,有效地保证了文本改写处理的实时性。
[0046]以下结合附图对本公开的实施例进行进一步解释说明。
[0047]图1是根据本公开一示例性实施例示出的一种文本处理系统的示意图。参照图1,文本处理方法可以应用于文本处理系统的干预侧,干预侧的干预平台用于获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,索引服务器(图1中以索引服务示意)用于从干预平台获取目标示例文本和目标短语改写示例对,根据获取的目标示
例文本和目标短语改写示例对,生成索引关系,并将索引关系存储至索引数据库(图1中以向量索引示意);索引服务器还用于根据索引数据库中的索引关系,对获取的输入文本进行文本改写。具体的,索引服务器可以在收到干预平台发起的索引处理请求(图1中干预平台和索引服务之间的RPC(Remote Procedure Call,远程过程调用))时,则执行索引关系的生成。
[0048]继续参照图1,在一些实施例中,干预侧的干预平台用于接收专家输入的需要改写的示例文本和与示例文本对应的短语改写示例对,干预侧的干预平台还用于根据示例文本在语料库数据库(图1中以语料库倒排索引示意)的预构建的文本与短语的倒排索引中召回与示例改写短语对对应的召回文本。干预侧的干预平台还用于将示例文本、召回文本以及示例改写短语对存储至干预数据库中。在索引服务器收到干预平台发起的索引处理请求时,可以从干预数据库中进行初始化加载,以获取示例文本、召回文本以及示例改写短语对,进而执行索引关系的生成。
[0049]继续参照图1,在一些实施例中,干预侧的索引服务器用于实现对索引数据库(图1中以向量索引示意)中的索引关系管理,该管理例如可以是索引数据库中新增索引关系(可以理解为上述索引关系的生成)、删本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;将所述索引关系存储至索引数据库;根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写。2.根据权利要求1所述的方法,其特征在于,所述获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,包括:获取输入的需要改写的示例文本和与所述示例文本对应的短语改写示例对,所述短语改写示例对包括示例改写短语和与所述示例改写短语对应的示例替换短语;根据所述短语改写示例对中的示例改写短语,在预构建的文本与短语的倒排索引中召回与所述示例改写短语对对应的召回文本;将所述召回文本和所述示例文本确定为所述目标示例文本,并将所述短语改写示例对确定为所述目标短语改写示例对。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标示例文本和所述目标短语改写示例对,生成索引关系,包括:确定所述目标示例改写短语在所述目标示例文本中的第一向量表示,所述第一向量表示用于表征所述目标示例改写短语在所述目标示例文本中的上下文语义信息;根据所述第一向量表示和所述目标短语改写示例对,生成索引关系。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应针对所述索引数据库的更新请求,对所述索引数据库中的索引关系进行更新,其中,所述更新请求包括删除请求和修改请求中的一种。5.根据权利要求1

4中任一所述的方法,其特征在于,所述根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写,包括:响应获取到的所述输入文本,在所述输入文本中包括待改写短语的情况下,根据所述索引数据库中的索引关系,确定所述输入文本是否为需要改写的文本;在确定所述输入文本为需要改写的文本的情况下,根据与所述输入文本对应的索引关系对所述输入文本中的待改写短语进行改写处理。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:对所述输入文本进行分词,得到多个短语结果;针对每一所述短语结果,在预构建的短语字典树中匹配与该短语结果匹配的短语,所述短语字典树通过所述目标示例改写短语进行构建;在成功匹配到与所述短语结果对应的短语的情况下,确定所述输入文本包括所述待改写短语。7.根据权利要求5所述的方法,其特征在于,所述索引关系通过第一向量表示和所述目标短语改写示例对组成,所述第一向量表示用于表征所述目标示例改写短语在所述目标示例文本中的上下文语义信息,所述根据所述索引数据库中的索引关系,确定所述输入文本是否为需要改写的文本,包括:
获取所述输入文本中的待改写短语的第二向量表示,所述第二向量表示用于表征所述待改写短语在所述输入文本中的上下文语义信息;根据所述第二向量表示在所述索引数据库中查找与所述第二向量表示的距离最近的目标向量表示;在所述目标向量表示...

【专利技术属性】
技术研发人员:曹军孙泽维王明轩欧阳宇星程亦曲庞赛康胡凯
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1