【技术实现步骤摘要】
文本处理方法、装置、存储介质、电子设备及系统
[0001]本公开涉及自然语音处理
,具体地,涉及一种文本处理方法、装置、存储介质、电子设备及系统。
技术介绍
[0002]在相关技术中,获取的原始输入文本可能并没有合理的表达其原意,因此,需要对此类文本进行合理化的干预处理(例如改写处理),以便于原始输入文本更好的表达其原意。
[0003]然而,在传统的文本改写中,通常采用模型来对文本进行改写,而在模型使用中会涉及模型的离线更新,而在实际的工业应用场景下,文本的在线实时处理尤为重要,因此,离线更新模型的方式会严重影响文本在线处理的实时性。
技术实现思路
[0004]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0005]第一方面,本公开提供一种文本处理方法,包括:
[0006]获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;
[0007]根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;
[0008]将所述索引关系存储至索引数据库;
[0009]根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写。
[0010]第二方面,本公开提供一种文本处理装置,包 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;将所述索引关系存储至索引数据库;根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写。2.根据权利要求1所述的方法,其特征在于,所述获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,包括:获取输入的需要改写的示例文本和与所述示例文本对应的短语改写示例对,所述短语改写示例对包括示例改写短语和与所述示例改写短语对应的示例替换短语;根据所述短语改写示例对中的示例改写短语,在预构建的文本与短语的倒排索引中召回与所述示例改写短语对对应的召回文本;将所述召回文本和所述示例文本确定为所述目标示例文本,并将所述短语改写示例对确定为所述目标短语改写示例对。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标示例文本和所述目标短语改写示例对,生成索引关系,包括:确定所述目标示例改写短语在所述目标示例文本中的第一向量表示,所述第一向量表示用于表征所述目标示例改写短语在所述目标示例文本中的上下文语义信息;根据所述第一向量表示和所述目标短语改写示例对,生成索引关系。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应针对所述索引数据库的更新请求,对所述索引数据库中的索引关系进行更新,其中,所述更新请求包括删除请求和修改请求中的一种。5.根据权利要求1
‑
4中任一所述的方法,其特征在于,所述根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写,包括:响应获取到的所述输入文本,在所述输入文本中包括待改写短语的情况下,根据所述索引数据库中的索引关系,确定所述输入文本是否为需要改写的文本;在确定所述输入文本为需要改写的文本的情况下,根据与所述输入文本对应的索引关系对所述输入文本中的待改写短语进行改写处理。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:对所述输入文本进行分词,得到多个短语结果;针对每一所述短语结果,在预构建的短语字典树中匹配与该短语结果匹配的短语,所述短语字典树通过所述目标示例改写短语进行构建;在成功匹配到与所述短语结果对应的短语的情况下,确定所述输入文本包括所述待改写短语。7.根据权利要求5所述的方法,其特征在于,所述索引关系通过第一向量表示和所述目标短语改写示例对组成,所述第一向量表示用于表征所述目标示例改写短语在所述目标示例文本中的上下文语义信息,所述根据所述索引数据库中的索引关系,确定所述输入文本是否为需要改写的文本,包括:
获取所述输入文本中的待改写短语的第二向量表示,所述第二向量表示用于表征所述待改写短语在所述输入文本中的上下文语义信息;根据所述第二向量表示在所述索引数据库中查找与所述第二向量表示的距离最近的目标向量表示;在所述目标向量表示...
【专利技术属性】
技术研发人员:曹军,孙泽维,王明轩,欧阳宇星,程亦曲,庞赛康,胡凯,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。