一种文本处理方法、装置以及相关设备制造方法及图纸

技术编号:22055224 阅读:19 留言:0更新日期:2019-09-07 15:14
本发明专利技术实施例公开了一种文本处理方法、装置以及相关设备,方法包括:获取第一文本,将第一文本转换为第一问题模板;获取与第一文本相关联的第一答复文本,获取样本谓词以及与样本谓词具有映射关系的内容字符串,将属于第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;为第一问题模板和第一谓词设置映射关系;映射关系是用于当后续获取到的第二文本所转换得到的问题模板为第一问题模板时查找与第二文本对应的第一谓词;与第二文本对应的第一谓词是用于查找与第二文本对应的查询结果。采用本发明专利技术,可以提高制定问题模板与谓词的映射规则的效率。

A Text Processing Method, Device and Related Equipment

【技术实现步骤摘要】
一种文本处理方法、装置以及相关设备
本专利技术涉及计算机
,尤其涉及一种文本处理方法、装置以及相关设备。
技术介绍
自动问答系统,又称为人机对话系统,用户以自然语言形式描述问题,自动问答系统从大量的数据中查找除准确、简洁、人性化的回答并反馈给用户。自动问答系统是自然语言处理领域的一个重要方向,旨在让用户直接用自然语言提问并获得答案。例如,用户询问:上海交大在哪。问答系统回答:上海市闵行去东川路800号,相比传统搜索引擎是根据关键词返回大量的文档集合,自动问答系统不需要用户亲自查找相关资料,就可以快速获取到问题的答案。在现有自动问答系统中,首先是将用户输入的关于问题的语音转换为问题模板,采用规则映射的方法映射出问题模板对应的谓词。然后根据映射得到的谓词,在知识库中查找问题的答案。例如,将“你今年多大”“你今天多少岁”“你多大岁数”“你的年龄是多少”均映射为谓词:年龄。但是,映射规则是由人工制定的,受限与人工的知识和能力,制定的规则不可能完备。若用户换一个问法:你芳龄多少,且该问法不在规则内,自动问答系统就不能处理这个问题。上述可以,经由自然语言转换而来的问题模板千差万别,若由人工分别制定每个问题模板的映射规则会耗费大量时间,效率低下。
技术实现思路
本专利技术实施例提供一种文本处理方法、装置以及相关设备,可以提高制定问题模板与谓词的映射规则的效率。本专利技术一方面提供了一种文本处理方法,包括:获取第一文本,将所述第一文本转换为第一问题模板;获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。其中,还包括:若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;若所述第一问题模板不包括所述目标短语集合中的目标短语,则执行所述获取与所述第一文本相关联的第一答复文本的步骤。其中,所述目标短语包括硬谓词和软谓词;所述若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词,包括:若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。其中,还包括:若获取到所述第二文本,则提取所述第二文本中的目标实体,根据所述目标实体将所述第二文本转换为第二问题模板;查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词;将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。其中,所述根据所述目标实体将所述第二文本转换为第二问题模板,包括:获取与所述目标实体对应的目标领域属性;将所述第二文本中的目标实体替换为所述目标领域属性,得到所述第二问题模板。其中,所述获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词,包括:获取多个谓词内容字典树;每个谓词内容字典树是分别根据每个样本谓词对应的所有内容字符串构造而成的;基于所有谓词内容字典树和各谓词内容字典树中各节点的失配指针,在各谓词内容字典树所包含的内容字符串中,分别查找属于所述第一答复文本的内容字符串,作为辅助字符串;将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词;统计相同辅助谓词的数量,将数量最多的辅助谓词确定为所述第一谓词。其中,所述获取多个谓词内容字典树,包括:获取所述样本谓词以及与每个样本谓词具有映射关系的内容字符串;根据每个样本谓词对应的所有内容字符串,构建谓词内容字典树;所述谓词内容字典树中的一个节点包括一个内容字符串中的一个字符;根据宽度优先搜索,为所述各谓词内容字典树中的各节点设置失配指针。其中,所述将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词,包括:将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为第一参考谓词;若同一个第一答复文本对应的相同的第一参考谓词的数量大于数量阈值,则将大于所述数量阈值的相同的第一参考谓词确定为第二参考谓词,并将所述第二参考谓词合并为一个第二参考谓词;将合并后的第二参考谓词、未被确定为所述第二参考谓词的第一参考谓词确定为所述辅助谓词。其中,所述获取与所述第一文本相关联的第一答复文本,包括:提取所述第一文本中的关键词;根据索引库中多个页面的页面名称和所述关键词的匹配程度,以及各页面的链接频次,计算所述各页面的相关度排名;将所述相关度排名小于排名阈值的页面作为目标页面,爬取所述目标页面中的内容,将爬取的内容封装为所述第一答复文本。其中,还包括:获取问答对;所述问答对包括问题文本和回答文本;将所述问题文本确定为所述第一文本,并将所述回答文本确定为所述内容字符串。本专利技术另一方面提供了一种文本处理装置,包括:第一转换模块,用于获取第一文本,将所述第一文本转换为第一问题模板;第一获取模块,用于获取与所述第一文本相关联的第一答复文本;第二获取模块,用于获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;设置模块,用于为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。其中,还包括:第一确定模块,用于若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;通知模块,用于若所述第一问题模板不包括所述目标短语集合中的目标短语,则通知所述第一获取模块执行所述获取与所述第一文本相关联的第一答复文本。其中,所述目标短语包括硬谓词和软谓词;所述第一确定模块,包括:第一确定单元,用于若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;第二确定单元,用于若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。其中,还包括:提取模块,用于若获取到所述第二文本,则提取所述第二文本中的目标实体;第二转换模块,用于根据所述目标实体将所述第二文本转换为第二问题模板;所述提取模块,还用于查找与本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:获取第一文本,将所述第一文本转换为第一问题模板;获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时,查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取第一文本,将所述第一文本转换为第一问题模板;获取与所述第一文本相关联的第一答复文本,获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词;为所述第一问题模板和所述第一谓词设置映射关系;所述映射关系是用于当后续获取到的第二文本所转换得到的问题模板为所述第一问题模板时,查找与所述第二文本对应的第一谓词;所述与所述第二文本对应的第一谓词是用于查找与所述第二文本对应的查询结果。2.根据权利要求1所述的方法,其特征在于,还包括:若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词;若所述第一问题模板不包括所述目标短语集合中的目标短语,则执行所述获取与所述第一文本相关联的第一答复文本的步骤。3.根据权利要求2所述的方法,其特征在于,所述目标短语包括硬谓词和软谓词;所述若所述第一问题模板包括目标短语集合中的目标短语,则将属于所述第一问题模板的目标短语所对应的谓词,作为所述第一谓词,包括:若所述第一问题模板包括所述目标短语集合中的所述硬谓词,则将属于所述第一问题模板的硬谓词确定为所述第一谓词;若所述第一问题模板包括所述目标短语集合中的所述软谓词,则获取属于所述第一问题模板的软谓词对应的统称谓词,并将所述统称谓词确定为所述第一谓词。4.根据权利要求1所述的方法,其特征在于,还包括:若获取到所述第二文本,则提取所述第二文本中的目标实体,根据所述目标实体将所述第二文本转换为第二问题模板;查找与所述第二问题模板相同的第一问题模板,作为目标模板,将与所述目标模板具有映射关系的第一谓词,作为目标谓词;将所述目标实体和所述目标谓词组合为目标查询文本,在知识库中查找与所述目标查询文本对应的查询结果,并输出所述查询结果。5.根据权利要求4所述的方法,特征在于,所述根据所述目标实体将所述第二文本转换为第二问题模板,包括:获取与所述目标实体对应的目标领域属性;将所述第二文本中的目标实体替换为所述目标领域属性,得到所述第二问题模板。6.根据权利要求1所述的方法,其特征在于,所述获取样本谓词以及与所述样本谓词具有映射关系的内容字符串,将属于所述第一答复文本的内容字符串对应的样本谓词作为辅助谓词,并统计相同的辅助谓词的数量,将数量最多的辅助谓词确定为第一谓词,包括:获取多个谓词内容字典树;每个谓词内容字典树是分别根据每个样本谓词对应的所有内容字符串构造而成的;基于所有谓词内容字典树和各谓词内容字典树中各节点的失配指针,在各谓词内容字典树所包含的内容字符串中,分别查找属于所述第一答复文本的内容字符串,作为辅助字符串;将所述辅助字符串所在的谓词内容字典树对应的样本谓词,确定为所述辅助谓词;统计相同辅助谓词的数量,将数量最多的辅助谓词确定为所述第一谓词。7.根据权利要求6所述的方法,其特征在于,所述获取多个谓词内容字典树,包括:获取所述样本谓词以及与每个样本谓词具有映射关系的内容字符串;根据每个样本谓词对应的所有内容字符串,构建谓词内容字典树;所述谓词内容字典树中的一个节点包括一个内容字...

【专利技术属性】
技术研发人员:周辉阳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1