问句扩展方法及装置、存储介质、终端制造方法及图纸

技术编号:18084058 阅读:35 留言:0更新日期:2018-05-31 12:32
一种问句扩展方法及装置、存储介质、终端,问句扩展方法包括:获取待扩展问句,并对所述待扩展问句进行分词,以得到多个原始词语;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤。通过本发明专利技术技术方案可以自动生成扩展问句并保证扩展问句的有效性。

【技术实现步骤摘要】
问句扩展方法及装置、存储介质、终端
本专利技术涉及自然语言处理
,尤其涉及一种问句扩展方法及装置、存储介质、终端。
技术介绍
现有技术中,用于问答的知识库通常包括多个知识点,每一知识点包括标准问、标准问对应的扩展问句以及答案。为了实现问答的准确性,需要在知识库中对标准问句进行扩展,形成尽可能多的扩展问句。知识库中的扩展问句通常需要人工写。或者使用语义模板、语义表达式生成扩展问句。但是,现有技术中上述生成扩展问句的方式所形成的扩展问句的数量有限;此外,形成的扩展问句中存在无效扩展问,占用系统资源,还导致用户问题无法与标准问句和扩展问句匹配,影响问答的准确性。
技术实现思路
本专利技术解决的技术问题是如何自动生成扩展问句并保证扩展问句的有效性。为解决上述技术问题,本专利技术实施例提供一种问句扩展方法,问句扩展方法包括:获取待扩展问句,并对所述待扩展问句进行分词,以得到多个原始词语;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤。可选的,所述对所述多个原始词语进行相关词替换包括:利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换;或者,利用同义词词典对所述多个原始词语进行同义词替换。可选的,所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括:确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率;利用所述组合概率计算扩展问句的有效分数;将所述扩展问句的有效分数与设定阈值比较,以得到所述判断结果。可选的,所述根据判断结果对所述多个扩展问句进行过滤包括:如果所述判断结果表示所述扩展问句的有效分数达到所述设定阈值,则保留所述扩展问句,以作为所述待扩展问句的扩展问句。可选的,所述利用所述组合概率计算扩展问句的有效分数包括:计算所述组合概率之和,以作为所述扩展问句的有效分数。可选的,所述确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率包括:利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。可选的,所述获取待扩展的问句之前还包括:利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。可选的,所述待扩展问句为知识点中的标准问或有效扩展问。可选的,所述获取待扩展的问句之前还包括:利用预设原始语料对词向量模型进行训练;利用训练完成的词向量模型获取多组新增相关词,并更新同义词词典,以用于进行相关词替换。可选的,所述利用训练完成的词向量模型获取多组相关词包括:利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量;根据词向量之间的距离确定所述多组新增相关词。可选的,所述利用训练完成的词向量模型获取多组相关词包括:利用所述训练完成的词向量模型获取每组同义词中所有词语的词向量,以及所述预设原始语料中所有词语的词向量;根据词向量之间的距离确定每组同义词中所有词语的相关词;将每组同义词中所有词语的相关词取交集,以确定所述多组新增相关词。可选的,所述问句扩展方法还包括:将过滤后的多个扩展问句进行输出,以加入知识库,所述过滤后的多个扩展问句为所述待扩展问句的有效扩展问。本专利技术实施例还公开了一种问句扩展装置,问句扩展装置包括:数据获取模块,用以获取待扩展问句,并对所述待扩展问句进行分词,以得到多个原始词语;替换模块,用以对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合组合的多个扩展问句;判断模块,用以对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;过滤模块,用以根据判断结果对所述多个扩展问句进行过滤。可选的,所述替换模块包括:第一更换单元,用以利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换;第二更换单元,用以利用同义词词典对所述多个原始词语进行同义词替换。可选的,所述判断模块包括:组合概率确定单元,用以确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率;有效分数计算单元,用以利用所述组合概率计算扩展问句的有效分数;存储单元,用于存储设定阈值;比较单元,用以将所述扩展问句的有效分数与设定阈值比较,以得到所述判断结果。可选的,所述过滤模块包括:保留单元,用以在所述判断结果表示所述扩展问句的有效分数达到所述设定阈值时,保留所述扩展问句,以作为所述待扩展问句的扩展问句。可选的,所述有效分数计算单元计算所述组合概率之和,以作为所述扩展问句的有效分数。可选的,所述组合概率确定单元利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。可选的,所述问句扩展装置还包括:语言模型训练模块,用以利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。可选的,所述待扩展问句为知识点中的标准问或有效扩展问。可选的,所述问句扩展装置还包括:词向量模型训练模块,用以利用预设原始语料对词向量模型进行训练;更新模块,用以利用训练完成的词向量模型获取多组新增相关词,并更新同义词词典,以用于进行相关词替换。可选的,所述更新模块包括:第一词向量计算单元,用以利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量;第一相关词确定单元,用以根据词向量之间的距离确定所述多组新增相关词。可选的,所述更新模块包括:第二词向量计算单元,用以利用所述训练完成的词向量模型获取每组同义词中所有词语的词向量,以及所述预设原始语料中所有词语的词向量;相关词计算单元,用以根据词向量之间的距离确定每组同义词中所有词语的相关词;第二相关词确定单元,用以将每组同义词中所有词语的相关词取交集,以确定所述多组新增相关词。可选的,所述的问句扩展装置还包括:输出模块,用以将过滤后的多个扩展问句进行输出,以加入知识库,所述过滤后的多个扩展问句为所述待扩展问句的有效扩展问。本专利技术实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述问句扩展方法的步骤。本专利技术实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述问句扩展方法的步骤。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术技术方案通过获取待扩展问句,并对所述待扩展问句进行分词,以得到多个原始词语;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤。本专利技术技术方案中,由于每一词语对应大量相关词,因此通过对待扩展问句中的原始词语进行相关词替换后,可以得到数量庞大的扩展问句;此外,通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断,来过滤无效扩展问,从而保证了所形成的扩展问句的有效性;进而可以保证所形成的扩展问句能够与用户问题相匹配,提高后续用户问答的及时性和准确性。进一步,所述对所述多个原始词语进行相关词替换包括:利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换;或者,利用同义词词典对所本文档来自技高网...
问句扩展方法及装置、存储介质、终端

【技术保护点】
一种问句扩展方法,其特征在于,包括:获取待扩展问句,并对所述待扩展问句进行分词,以得到多个原始词语;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤。

【技术特征摘要】
1.一种问句扩展方法,其特征在于,包括:获取待扩展问句,并对所述待扩展问句进行分词,以得到多个原始词语;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤。2.根据权利要求1所述的问句扩展方法,其特征在于,所述对所述多个原始词语进行相关词替换包括:利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换;或者,利用同义词词典对所述多个原始词语进行同义词替换。3.根据权利要求1所述的问句扩展方法,其特征在于,所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括:确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率;利用所述组合概率计算扩展问句的有效分数;将所述扩展问句的有效分数与设定阈值比较,以得到所述判断结果。4.根据权利要求3所述的问句扩展方法,其特征在于,所述根据判断结果对所述多个扩展问句进行过滤包括:如果所述判断结果表示所述扩展问句的有效分数达到所述设定阈值,则保留所述扩展问句,以作为所述待扩展问句的扩展问。5.根据权利要求3所述的问句扩展方法,其特征在于,所述利用所述组合概率计算扩展问句的有效分数包括:计算所述组合概率之和,以作为所述扩展问句的有效分数。6.根据权利要求3所述的问句扩展方法,其特征在于,所述确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率包括:利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。7.根据权利要求6所述的问句扩展方法,其特征在于,所述获取待扩展的问句之前还包括:利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。8.根据权利要求1所述的问句扩展方法,其特征在于,所述待扩展问句为知识点中的标准问或有效扩展问。9.根据权利要求1所述的问句扩展方法,其特征在于,所述获取待扩展的问句之前还包括:利用预设原始语料对词向量模型进行训练;利用训练完成的词向量模型获取多组新增相关词,并更新同义词词典,以用于进行相关词替换。10.根据权利要求9所述的问句扩展方法,其特征在于,所述利用训练完成的词向量模型获取多组相关词包括:利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量;根据词向量之间的距离确定所述多组新增相关词。11.根据权利要求9所述的问句扩展方法,其特征在于,所述利用训练完成的词向量模型获取多组相关词包括:利用所述训练完成的词向量模型获取每组同义词中所有词语的词向量,以及所述预设原始语料中所有词语的词向量;根据词向量之间的距离确定每组同义词中所有词语的相关词;将每组同义词中所有词语的相关词取交集,以确定所述多组新增相关词。12.根据权利要求1所述的问句扩展方法,其特征在于,还包括:将过滤后的多个扩展问句进行输出,以加入知识库,所述过滤后的多个扩展问句为所述待扩展问句的有效扩展问。13.一种问句扩展装置,其特征在于,包括:数据获取模块,用以获取待扩展问句,并对所述待扩展问句进行分词,以得到多个原始词语;替换模块,用以对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组...

【专利技术属性】
技术研发人员:陈培华朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1