文本处理方法及装置制造方法及图纸

技术编号:31762178 阅读:18 留言:0更新日期:2022-01-05 16:46
本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取问题文本以及包含所述问题文本对应的候选答案的目标文本;在所述目标文本中提取包含所述候选答案的候选语句;根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。通过考虑上下文语义信息对问题文本的答案的影响,更进一步的提高了确定目标答案文本的精准度。进一步的提高了确定目标答案文本的精准度。进一步的提高了确定目标答案文本的精准度。

【技术实现步骤摘要】
文本处理方法及装置


[0001]本申请涉及人工智能
,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多的问答系统应运而生,而为了能够针对用户提出的问题进行精准的回答,通常在问答系统中抽取答案之前,都需要对用户提出的问题进行语义理解和解析,之后通过语义理解的信息再进行答案的查询和排序,以筛选出正确的答案向用户进行反馈。而当前问题系统对答案的排序一般利用一些特征进行排序,文档段落级别的特征一般用并交比等计算文档和问题的相似度,同时结合答案的类型作特征向量等,而答案的特征一般是使用问答模型给出答案置信度,答案中含有的实体类型、分类标签等向量化后再进行特征融合,以此推到出正确答案。然而此方法筛选答案的精准度有限,很容易造成回答错误的问题,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了文本处理装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
[0005]获取问题文本;
[0006]将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的候选答案,所述问答模块为针对所述问题文本进行初步答复的问答系统,所述问答系统是根据实际应用场景选择的;
[0007]根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本。
[0008]根据本申请实施例的第二方面,提供了另一种文本处理方法,包括:
[0009]获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
[0010]在所述目标文本中提取包含所述候选答案的候选语句;
[0011]根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
[0012]可选地,所述获取问题文本以及包含所述问题文本对应的候选答案的目标文本,包括:
[0013]获取所述问题文本;
[0014]将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的所述候选答案;
[0015]根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的所
述目标文本。
[0016]可选地,所述在所述目标文本中提取包含所述候选答案的候选语句,包括:
[0017]确定所述候选答案在所述目标文本中的答案位置;
[0018]基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。
[0019]可选地,所述确定所述候选答案在所述目标文本中的答案位置,包括:
[0020]对所述候选答案进行解析获得所述候选答案对应的属性信息;
[0021]根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。
[0022]可选地,所述基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句,包括:
[0023]基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;
[0024]或者,
[0025]在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。
[0026]可选地,所述根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,包括:
[0027]提取所述目标文本的文本特征;
[0028]将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征。
[0029]可选地,所述基于所述候选答案特征确定所述问题文本对应的目标答案文本,包括:
[0030]将所述候选答案特征输入至文本处理模块,通过所述文本处理模块中的深度语言模型进行编码处理,获得编码特征;
[0031]将所述编码特征输入至所述文本处理模块中的分类网络进行打分处理,获得所述编码特征对应的特征分值;
[0032]根据所述特征分值确定所述候选答案对应的答案分值,并基于所述答案分值从所述候选答案中筛选出所述目标答案文本;
[0033]通过所述文本处理模块输出所述目标答案文本。
[0034]可选地,还包括:
[0035]获取初始语言模型以及样本问题文本;
[0036]确定所述样本问题文本对应的样本答案文本,并基于所述样本问题文本和所述样本答案文本构建样本对;
[0037]基于所述样本对对所述初始语言模型进行训练,直至所述初始语言模型满足训练停止条件,获得所述深度语言模型。
[0038]可选地,所述基于所述答案分值从所述候选答案中筛选出所述目标答案文本,包括:
[0039]根据所述答案分值对所述候选答案中的各个子候选答案进行排序,获得候选答案序列;
[0040]按照预设的筛选规则在所述候选答案序列中筛选出所述目标答案文本。
[0041]可选地,所述文本特征包括下述至少一项:
[0042]文本标题、文本关键词、文本语义信息。
[0043]可选地,所述将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征,包括:
[0044]根据所述文本处理模块的输入策略对所述文本特征、所述候选语句和所述问题文本进行拼接处理,根据拼接处理结果得到所述候选答案特征。
[0045]根据本申请实施例的第三方面,提供了一种文本处理装置,包括:
[0046]第一获取模块,被配置为获取问题文本;
[0047]处理模块,被配置为将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的候选答案,所述问答模块为针对所述问题文本进行初步答复的问答系统,所述问答系统是根据实际应用场景选择的;
[0048]第一提取模块,被配置为根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本。
[0049]根据本申请实施例的第四方面,提供了另一种文本处理装置,包括:
[0050]第二获取模块,被配置为获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
[0051]第二提取模块,被配置为在所述目标文本中提取包含所述候选答案的候选语句;
[0052]确定模块,被配置为根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
[0053]根据本申请实施例的第五方面,提供了一种计算设备,包括:
[0054]存储器和处理器;
[0055]所述存储器用于存储计算机可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取问题文本;将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的候选答案,所述问答模块为针对所述问题文本进行初步答复的问答系统,所述问答系统是根据实际应用场景选择的;根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本。2.根据权利要求1所述的方法,其特征在于,在所述根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本之后,还包括:在所述目标文本中提取包含所述候选答案的候选语句;根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,包括:提取目标文本的文本特征;将所述文本特征、候选语句以及问题文本进行拼接,获得候选答案对应的候选答案特征。4.根据权利要求2或3所述的方法,其特征在于,所述基于所述候选答案特征确定所述问题文本对应的目标答案文本,包括:将所述候选答案特征输入文本处理模块进行处理,通过所述文本处理模块基于所述候选答案特征从所述候选答案中筛选出与所述问题文本相关程度较高的候选答案,确定为所述问题文本对应的目标答案文本。5.根据权利要求2或3所述的方法,其特征在于,所述在所述目标文本中提取包含所述候选答案的候选语句,包括:确定所述候选答案在所述目标文本中的答案位置;基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。6.根据权利要求5所述的方法,其特征在于,所述确定所述候选答案在所述目标文本中的答案位置,包括:对所述候选答案进行解析获得所述候选答案对应的属性信息;根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。7.根据权利要求6所述的方法,其特征在于,所述属性信息为所述候选答案的基本信息,至少包括所述候选答案的字数、字单元以及字单元的排列顺序。8.根据权利要求5所述的方法,其特征在于,若所述候选答案在所述目标文本中多次出现,所述确定所述候选答案在所述目标文本中的答案位置,包括:确定所述候选答案在所述目标文本中的多个初始答案位置;计算各个初始答案位置所属的语句与所述问题文本之间的匹配度,将匹配度最高的初始答案位置确定为所述候选答案的答案位置。9.根据权利要求5所述的方法,其特征在于,所述基于所述答案位置在所述目标文本中
提取包含所述候选答案的所述候选语句,包括:基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;或者,在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。10.根据权利要求9所述的方法,其特征在于,所述第一段落符为在所述目标文本中向前距离所述答案位置最近的段落符号,所述第二段落符为在所述目标文本中向后距离所述答案位置最近的段落符号,其中,所述段落符号是逗号、句号、叹号或问号中任意一个用于断句的符号。11.根据权利要求9或10所述的方法,其特征在于,所述根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句,包括:将所述目标文本中所述第一段落符和所述第二段落符之间的内容确定为所述候选语句。12.根据权利要求9所述的方法,其特征在于,所述根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句,包括:在确定所述目标文本包含预设数量的长句的情况下,通过在所述目标文本中选择答案位置之前设定字数的第一段落文本,以及所述答案位置之后设定字数的第二段落文本,并结合所述第一段落文本、所述答案位置的所述候选答案及所述第二段落文本,组成所述候选语句。13.根据权利要求3所述的方法,其特征在于,所述文本特征包括下述至少一项:文本标题、文本关键词、文本语义信息。14.根据权利要求13所述的方法,其特征在于,还包括:通过隐含狄利克雷分布LDA确定所述文本关键词和所述文本语义信息;或者,根据所述目标文本的描述信息确定所述文本关键词和所述文本语义信息;或者,通过计算词单元概率的方式确定所述文本关键词以及通过语法分析器确定所述文本语义信息。15.根据权利要求14所述的方法,其特征在于,所述根据所述目标文本的描述信息确定所述文本关键词和所述文本语义信息,包括:将所述目标文本的摘要所对应的关键词确定为所述文本关键词,且根据所述目标文本的摘要确定所述文本语义信息。16.根据权利要求3、13、14或15任一项所述的方法,其特征在于,所述将所述文本特征、候选语句以及问题文本进行拼接,获得候选答案对应的候选答案特征,包括:根据所述文本处理模块的输入策略对所述...

【专利技术属性】
技术研发人员:白静李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1