知识库扩展方法及存储介质、终端技术

技术编号:21628202 阅读:29 留言:0更新日期:2019-07-17 10:51
一种知识库扩展方法及存储介质、终端,知识库扩展方法包括:获取待处理问题,并对所述待处理问题进行分词,以得到多个原始词语,所述待处理问题为知识库中的标准问或扩展问;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤;将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。通过本发明专利技术技术方案可以自动生成扩展问并保证扩展问的有效性。

Knowledge Base Extension Method and Storage Media and Terminal

【技术实现步骤摘要】
知识库扩展方法及存储介质、终端
本专利技术涉及自然语言处理
,尤其涉及一种知识库扩展方法及存储介质、终端。
技术介绍
现有技术中,用于问答的知识库通常包括多个知识点,每一知识点包括一个标准问、标准问对应的一个或多个扩展问以及答案。为了实现问答的准确性,需要在知识库中对标准问进行扩展,形成尽可能多的扩展问。知识库中的扩展问通常需要人工写。或者使用语义模板、语义表达式生成扩展问。但是,现有技术中上述生成扩展问的方式所形成的扩展问的数量有限;此外,形成的扩展问中存在无效扩展问,占用系统资源,还导致用户问题无法与标准问和扩展问匹配,影响问答的准确性。
技术实现思路
本专利技术解决的技术问题是如何自动生成扩展问并保证扩展问的有效性。为解决上述技术问题,本专利技术实施例提供一种知识库扩展方法,包括:利用预设原始语料对词向量模型进行训练,利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量,根据词向量之间的距离确定所述多组新增相关词,并更新同义词词典,以用于进行相关词替换;获取待处理问题,并对所述待处理问题进行分词,以得到多个原始词语,所述待处理问题为知识库中的标准问或扩展问;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤;将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。可选的,所述对所述多个原始词语进行相关词替换包括:利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换;或者,利用同义词词典对所述多个原始词语进行同义词替换。可选的,所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括:确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率;利用所述组合概率计算扩展问句的有效分数;将所述扩展问句的有效分数与设定阈值比较,以得到所述判断结果。可选的,所述根据判断结果对所述多个扩展问进行过滤包括:如果所述判断结果表示所述扩展问句的有效分数达到所述设定阈值,则保留所述扩展问句,以作为所述待处理问题的扩展问。可选的,所述利用所述组合概率计算扩展问句的有效分数包括:计算所述组合概率之和,以作为所述扩展问句的有效分数。可选的,所述确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率包括:利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。可选的,所述获取待扩展的问句之前还包括:利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。可选地,所述知识库包括多个知识点,每个知识点包括一个标准问、一个或多个扩展问和一个答案。本专利技术实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述知识库扩展方法的步骤。本专利技术实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述知识库扩展方法的步骤。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术技术方案通过获取待处理问题,并对所述待处理问题进行分词,以得到多个原始词语;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问进行过滤;将将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。本专利技术技术方案中,由于每一词语对应大量相关词,因此通过对待处理问题中的原始词语进行相关词替换后,可以得到数量庞大的扩展问句;此外,通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断,来过滤无效扩展问,从而保证了所形成的扩展问的有效性;进而可以保证所形成的扩展问能够与用户问题相匹配,提高后续用户问答的及时性和准确性。进一步,所述对所述多个原始词语进行相关词替换包括:利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换;或者,利用同义词词典对所述多个原始词语进行同义词替换。本专利技术技术方案中,可以利用词类或同义词词典进行相关词替换;由于词类和同义词词典中包括与原始词语语义相似的词语,因此在利用词类或同义词词典进行相关词替换后,可以获得与待处理问题语义相似的多个扩展问句。此外,词类和同义词词典可以进行更新和扩展词汇量,进而保证获得的扩展问句的数量。进一步,所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括:确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率;利用所述组合概率计算扩展问句的有效分数;将所述扩展问句的有效分数与设定阈值比较,以得到所述判断结果。本专利技术技术方案中,相邻词语之间的组合概率可以表示相邻词语在语法上组合的有效性;通过扩展问句的相邻词语之间的组合概率可以计算扩展问句的有效分数,以表示扩展问句在语法上的有效性,从而可以根据扩展问句的有效分数与设定阈值对扩展问句进行判断,保证了对扩展问句进行有效性判断的准确性。进一步,所述获取待扩展的问句之前还包括:利用预设原始语料对词向量模型进行训练;利用训练完成的词向量模型获取多组新增相关词,并更新同义词词典,以用于进行相关词替换。本专利技术技术方案中,通过训练词向量模型来获取多组相关词,可以扩展同义词词典的词汇量;进而在利用同义词词典进行相关词替换时,可以获得更多的扩展问句。此外,通过词向量模型获得的多组相关词质量较高,从而可以提高后续利用同义词词典获得的扩展问句的质量。附图说明图1是本专利技术实施例一种知识库扩展方法的流程图;图2是图1所示步骤S103的一种具体实施方式的流程图;图3是本专利技术实施例另一种知识库扩展方法的部分流程图;图4图3所示步骤S302的一种具体实施方式的流程图;图5图3所示步骤S302的另一种具体实施方式的流程图。具体实施方式如
技术介绍
中所述,现有技术中上述生成扩展问的方式所形成的扩展问的数量有限;此外,形成的扩展问中存在无效扩展问,占用系统资源,还导致用户问题无法与标准问和扩展问匹配,影响问答的准确性。本专利技术技术方案中,由于每一词语对应大量相关词,因此通过对待处理问题中的原始词语进行相关词替换后,可以得到数量庞大的扩展问;此外,通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断,来过滤无效扩展问,从而保证了所形成的扩展问的有效性;进而可以保证所形成的扩展问能够与用户问题相匹配,提高后续用户问答的及时性和准确性。为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。图1是本专利技术实施例一种知识库扩展方法的流程图。如图1所示,知识库扩展方法可以包括以下步骤:步骤S101:获取待处理问题,并对所述待处理问题进行分词,以得到多个原始词语,所述待处理问题为知识库中的标准问或扩展问;步骤S102:对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;步骤S103:对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;步骤S104:根据判断结果对所述多个扩展问句进行过滤;步骤S105:将过滤后本文档来自技高网
...

【技术保护点】
1.一种知识库扩展方法,其特征在于,包括:利用预设原始语料对词向量模型进行训练,利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量,根据词向量之间的距离确定多组新增相关词,并更新同义词词典,以用于进行相关词替换;获取待处理问题,并对所述待处理问题进行分词,以得到多个原始词语,所述待处理问题为知识库中的标准问或扩展问;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤;将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。

【技术特征摘要】
1.一种知识库扩展方法,其特征在于,包括:利用预设原始语料对词向量模型进行训练,利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量,根据词向量之间的距离确定多组新增相关词,并更新同义词词典,以用于进行相关词替换;获取待处理问题,并对所述待处理问题进行分词,以得到多个原始词语,所述待处理问题为知识库中的标准问或扩展问;对所述多个原始词语进行相关词替换,以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句;对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断;根据判断结果对所述多个扩展问句进行过滤;将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。2.根据权利要求1所述的知识库扩展方法,其特征在于,所述对所述多个原始词语进行相关词替换包括:利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换;或者,利用同义词词典对所述多个原始词语进行同义词替换。3.根据权利要求1所述的知识库扩展方法,其特征在于,所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括:确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率;利用所述组合概率计算扩展问句的有效分数;将所述扩展问句的有效分数与设定阈值比较,以得到所述判断结果。4.根据权利要求3所述的知识库扩展方...

【专利技术属性】
技术研发人员:陈培华朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1