【技术实现步骤摘要】
文本处理方法及装置
[0001]本申请涉及人工智能
,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。
技术介绍
[0002]随着互联网技术的发展,越来越多的问答系统应运而生,而为了能够针对用户提出的问题进行精准的回答,通常在问答系统中抽取答案之前,都需要对用户提出的问题进行语义理解和解析,之后通过语义理解的信息再进行答案的查询和排序,以筛选出正确的答案向用户进行反馈。而当前问题系统对答案的排序一般利用一些特征进行排序,文档段落级别的特征一般用并交比等计算文档和问题的相似度,同时结合答案的类型作特征向量等,而答案的特征一般是使用问答模型给出答案置信度,答案中含有的实体类型、分类标签等向量化后再进行特征融合,以此推到出正确答案。然而此方法筛选答案的精准度有限,很容易造成回答错误的问题,因此亟需一种有效的方案以解决上述问题。
技术实现思路
[0003]有鉴于此,本申请实施例提供了文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了文本处理装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
[0005]获取问题文本;
[0006]将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的候选答案,所述问答模块为针对所述问题文本进行初步答复的问答系统,所述问答系统是根据实际应用场景选择的;
[0007]根据所述候选答案在所述问答模块对 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取问题文本;将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的候选答案,所述问答模块为针对所述问题文本进行初步答复的问答系统,所述问答系统是根据实际应用场景选择的;根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本。2.根据权利要求1所述的方法,其特征在于,在所述根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本之后,还包括:在所述目标文本中提取包含所述候选答案的候选语句;根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,包括:提取目标文本的文本特征;将所述文本特征、候选语句以及问题文本进行拼接,获得候选答案对应的候选答案特征。4.根据权利要求2或3所述的方法,其特征在于,所述基于所述候选答案特征确定所述问题文本对应的目标答案文本,包括:将所述候选答案特征输入文本处理模块进行处理,通过所述文本处理模块基于所述候选答案特征从所述候选答案中筛选出与所述问题文本相关程度较高的候选答案,确定为所述问题文本对应的目标答案文本。5.根据权利要求2或3所述的方法,其特征在于,所述在所述目标文本中提取包含所述候选答案的候选语句,包括:确定所述候选答案在所述目标文本中的答案位置;基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。6.根据权利要求5所述的方法,其特征在于,所述确定所述候选答案在所述目标文本中的答案位置,包括:对所述候选答案进行解析获得所述候选答案对应的属性信息;根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。7.根据权利要求6所述的方法,其特征在于,所述属性信息为所述候选答案的基本信息,至少包括所述候选答案的字数、字单元以及字单元的排列顺序。8.根据权利要求5所述的方法,其特征在于,若所述候选答案在所述目标文本中多次出现,所述确定所述候选答案在所述目标文本中的答案位置,包括:确定所述候选答案在所述目标文本中的多个初始答案位置;计算各个初始答案位置所属的语句与所述问题文本之间的匹配度,将匹配度最高的初始答案位置确定为所述候选答案的答案位置。9.根据权利要求5所述的方法,其特征在于,所述基于所述答案位置在所述目标文本中
提取包含所述候选答案的所述候选语句,包括:基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;或者,在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。10.根据权利要求9所述的方法,其特征在于,所述第一段落符为在所述目标文本中向前距离所述答案位置最近的段落符号,所述第二段落符为在所述目标文本中向后距离所述答案位置最近的段落符号,其中,所述段落符号是逗号、句号、叹号或问号中任意一个用于断句的符号。11.根据权利要求9或10所述的方法,其特征在于,所述根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句,包括:将所述目标文本中所述第一段落符和所述第二段落符之间的内容确定为所述候选语句。12.根据权利要求9所述的方法,其特征在于,所述根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句,包括:在确定所述目标文本包含预设数量的长句的情况下,通过在所述目标文本中选择答案位置之前设定字数的第一段落文本,以及所述答案位置之后设定字数的第二段落文本,并结合所述第一段落文本、所述答案位置的所述候选答案及所述第二段落文本,组成所述候选语句。13.根据权利要求3所述的方法,其特征在于,所述文本特征包括下述至少一项:文本标题、文本关键词、文本语义信息。14.根据权利要求13所述的方法,其特征在于,还包括:通过隐含狄利克雷分布LDA确定所述文本关键词和所述文本语义信息;或者,根据所述目标文本的描述信息确定所述文本关键词和所述文本语义信息;或者,通过计算词单元概率的方式确定所述文本关键词以及通过语法分析器确定所述文本语义信息。15.根据权利要求14所述的方法,其特征在于,所述根据所述目标文本的描述信息确定所述文本关键词和所述文本语义信息,包括:将所述目标文本的摘要所对应的关键词确定为所述文本关键词,且根据所述目标文本的摘要确定所述文本语义信息。16.根据权利要求3、13、14或15任一项所述的方法,其特征在于,所述将所述文本特征、候选语句以及问题文本进行拼接,获得候选答案对应的候选答案特征,包括:根据所述文本处理模块的输入策略对所述...
【专利技术属性】
技术研发人员:白静,李长亮,李小龙,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。