基于语义特征的数据检索方法、电子装置及存储介质制造方法及图纸

技术编号:25043437 阅读:20 留言:0更新日期:2020-07-29 05:33
本发明专利技术公开了一种基于语义特征的数据检索方法,应用于电子装置,该方法包括创建问答资料库,当接收到用户问题数据时,将用户问题数据进行处理得到第四词语组成的第三词集,将用户问题数据输入滑动窗口模型,依次滑动窗口并计算窗口内至少两个并排的所述第四词向量的平均值,选取平均值最大的词向量作为用户问题数据的第一句向量,同时将问答资料库中每个预设问题数据转化成对应的第二句向量,利用第一句向量及所有第二句向量,选取出与用户问题数据相似度最高的问题,并从问答资料库中找到与该问题对应的预设答案反馈给用户。本发明专利技术能够选取出表达意思更符合用户提出的问题的历史问题,得到更加准确合理的答案。

【技术实现步骤摘要】
基于语义特征的数据检索方法、电子装置及存储介质
本专利技术涉及数据处理
,尤其涉及一种基于语义特征的数据检索方法、电子装置及存储介质。
技术介绍
随着计算机技术、人工智能的快速发展,智能问答系统给生活带来了极大的便利。通过用户提出的问题从预先创建好的问答库中找到匹配度最高的问题答案再反馈给用户,代替了人工,减少了人工成本。但是目前大多数智能问答系统只是简单地对比用户提出的问题与问答库中的历史问题之间的相似性,然后选取出相似度最高的一个历史问题对应的问题答案反馈给用户,利用该方式仅仅利用的是问题包含的词语的字面特征,忽略了词语的语义特征信息,导致选取出的历史问题即使相似度高,但是不一定是表达意思接近。因此如何基于问题词语的语义特征信息,选取出表达意思更符合用户提出的问题的历史问题,从而得到更加准确合理的答案成为了亟需解决的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种基于语义特征的数据检索方法、电子装置及存储介质,旨在如何基于问题词语的语义特征信息,选取出表达意思更符合用户提出的问题的历史问题,从而得到更加准确合理的答案的问题。为实现上述目的,本专利技术提供的一种基于语义特征的数据检索方法,应用于电子装置,该方法包括:第一创建步骤:创建问答资料库,所述问答资料库包括预设问题及其匹配的预设答案,对所述预设问题进行拆词处理得到由第一词语组成的第一词集,对每个所述第一词语进行词向量转化处理得到对应的第一词向量,并存储至数据库;第二创建步骤:创建第二词集,所述第二词集包括与第一词语关联的第二词语,对所述第二词语进行词向量转化得到第二词向量,计算各个第二词向量与词向量词典中各个第三词向量之间的相似度值,筛选出相似度值大于或等于第一预设阈值的第三词向量,并将所述第二词向量及第三词向量合并至所述数据库;答疑处理步骤:接收用户发出的答疑请求,解析所述答疑请求得到用户问题,对所述用户问题进行拆词处理得到第四词语组成的第三词集,从所述数据库中查找出每个第四词语对应的第四词向量,将所述用户问题输入预先确定好窗口长度的滑动窗口模型,依次滑动窗口并计算窗口内至少两个并排的所述第四词向量的平均值,选取所述平均值最大的词向量作为所述用户问题的第一句向量;及反馈步骤:将所述问答资料库中的每个预设问题分别输入所述滑动窗口模型输出每个预设问题的第二句向量,利用预设搜索算法从所有第二句向量中筛选出与所述第一句向量相似度大于或等于第二预设阈值的第二句向量,以该第二句向量对应的预设问题作为与所述用户问题相似度最高的问题,并从所述问答资料库中查找出与该预设问题匹配的预设答案反馈给所述用户。优选地,所述第一创建步骤还包括:识别出所述第一词集中预先确定的无语义词语,并将所述识别出的无语义词语从第一词集中删除。优选地,所述对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集包括:加载预先确定的黏词词典及切词词典,调用jieba函数对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集。优选地,所述相似度算法为余弦相似度算法:其中,A表示第一词向量,B表示第三词向量,θ表示A与B之间的夹角。优选地,该方法还包括收集步骤:生成用户评价界面供用户对所述发送的问题数据进行评价,并收集用户反馈的意见建立评价记录表存储至数据库。为实现上述目的,本专利技术还进一步提供一种电子装置,所述电子装置包括存储器和处理器,所述存储器上存储有基于语义特征的数据检索程序,所述基于语义特征的数据检索程序被所述处理器执行时实现如下步骤:第一创建步骤:创建问答资料库,所述问答资料库包括预设问题及其匹配的预设答案,对所述预设问题进行拆词处理得到由第一词语组成的第一词集,对每个所述第一词语进行词向量转化处理得到对应的第一词向量,并存储至数据库;第二创建步骤:创建第二词集,所述第二词集包括与第一词语关联的第二词语,对所述第二词语进行词向量转化得到第二词向量,计算各个第二词向量与词向量词典中各个第三词向量之间的相似度值,筛选出相似度值大于或等于第一预设阈值的第三词向量,并将所述第二词向量及第三词向量合并至所述数据库;答疑处理步骤:接收用户发出的答疑请求,解析所述答疑请求得到用户问题,对所述用户问题进行拆词处理得到第四词语组成的第三词集,从所述数据库中查找出每个第四词语对应的第四词向量,将所述用户问题输入预先确定好窗口长度的滑动窗口模型,依次滑动窗口并计算窗口内至少两个并排的所述第四词向量的平均值,选取所述平均值最大的词向量作为所述用户问题的第一句向量;及反馈步骤:将所述问答资料库中的每个预设问题分别输入所述滑动窗口模型输出每个预设问题的第二句向量,利用预设搜索算法从所有第二句向量中筛选出与所述第一句向量相似度大于或等于第二预设阈值的第二句向量,以该第二句向量对应的预设问题作为与所述用户问题相似度最高的问题,并从所述问答资料库中查找出与该预设问题匹配的预设答案反馈给所述用户。优选地,所述第一创建步骤还包括:识别出所述第一词集中预先确定的无语义词语,并将所述识别出的无语义词语从第一词集中删除。优选地,所述对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集包括:加载预先确定的黏词词典及切词词典,调用jieba函数对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集。优选地,所述相似度算法为余弦相似度算法:其中,A表示第一词向量,B表示第三词向量,θ表示A与B之间的夹角。为实现上述目的,本专利技术进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于语义特征的数据检索程序,所述基于语义特征的数据检索程序可被一个或者多个处理器执行,以实现如上所述的基于语义特征的数据检索方法的步骤。本专利技术提出的基于语义特征的数据检索方法、电子装置及存储介质,通过创建问答资料库,当接收到用户问题数据时,将用户问题数据进行拆词处理得到第四词语组成的第三词集,从数据库中找到第四词语对应的第四词向量,将用户问题数据输入滑动窗口模型,依次滑动窗口并对窗口内并排的第四词语对应的第四词向量进行求和平均计算得到平均值,选取平均值最大者的词向量作为用户问题数据的第一句向量,同时将问答资料库中每个预设问题数据转化成对应的第二句向量,利用第一句向量及所有第二句向量,选取出与用户问题数据相似度最高的问题,并从问答资料库中找到与该问题对应的预设答案反馈给用户。本专利技术能够选取出表达意思更符合用户提出的问题的历史问题,得到更加准确合理的答案。附图说明图1为本专利技术电子装置较佳实施例的应用环境图;图2为图1中基于语义特征的数据检索程序较佳实施例的程序模块示意图;图3为本专利技术基于语义特征的数据检索方法较佳实施例的流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参附图做进一步说明。具体实施方式为了使本专利技术的目的、技术本实施例及优点更加清楚明白本文档来自技高网...

【技术保护点】
1.一种基于语义特征的数据检索方法,应用于电子装置,其特征在于,该方法包括:/n第一创建步骤:创建问答资料库,所述问答资料库包括预设问题及其匹配的预设答案,对所述预设问题进行拆词处理得到由第一词语组成的第一词集,对每个所述第一词语进行词向量转化处理得到对应的第一词向量,并存储至数据库;/n第二创建步骤:创建第二词集,所述第二词集包括与第一词语关联的第二词语,对所述第二词语进行词向量转化得到第二词向量,计算各个第二词向量与词向量词典中各个第三词向量之间的相似度值,筛选出相似度值大于或等于第一预设阈值的第三词向量,并将所述第二词向量及第三词向量合并至所述数据库;/n答疑处理步骤:接收用户发出的答疑请求,解析所述答疑请求得到用户问题,对所述用户问题进行拆词处理得到第四词语组成的第三词集,从所述数据库中查找出每个第四词语对应的第四词向量,将所述用户问题输入预先确定好窗口长度的滑动窗口模型,依次滑动窗口并计算窗口内至少两个并排的所述第四词向量的平均值,选取所述平均值最大的词向量作为所述用户问题的第一句向量;及/n反馈步骤:将所述问答资料库中的每个预设问题分别输入所述滑动窗口模型输出每个预设问题的第二句向量,利用预设搜索算法从所有第二句向量中筛选出与所述第一句向量相似度大于或等于第二预设阈值的第二句向量,以该第二句向量对应的预设问题作为与所述用户问题相似度最高的问题,并从所述问答资料库中查找出与该预设问题匹配的预设答案反馈给所述用户。/n...

【技术特征摘要】
1.一种基于语义特征的数据检索方法,应用于电子装置,其特征在于,该方法包括:
第一创建步骤:创建问答资料库,所述问答资料库包括预设问题及其匹配的预设答案,对所述预设问题进行拆词处理得到由第一词语组成的第一词集,对每个所述第一词语进行词向量转化处理得到对应的第一词向量,并存储至数据库;
第二创建步骤:创建第二词集,所述第二词集包括与第一词语关联的第二词语,对所述第二词语进行词向量转化得到第二词向量,计算各个第二词向量与词向量词典中各个第三词向量之间的相似度值,筛选出相似度值大于或等于第一预设阈值的第三词向量,并将所述第二词向量及第三词向量合并至所述数据库;
答疑处理步骤:接收用户发出的答疑请求,解析所述答疑请求得到用户问题,对所述用户问题进行拆词处理得到第四词语组成的第三词集,从所述数据库中查找出每个第四词语对应的第四词向量,将所述用户问题输入预先确定好窗口长度的滑动窗口模型,依次滑动窗口并计算窗口内至少两个并排的所述第四词向量的平均值,选取所述平均值最大的词向量作为所述用户问题的第一句向量;及
反馈步骤:将所述问答资料库中的每个预设问题分别输入所述滑动窗口模型输出每个预设问题的第二句向量,利用预设搜索算法从所有第二句向量中筛选出与所述第一句向量相似度大于或等于第二预设阈值的第二句向量,以该第二句向量对应的预设问题作为与所述用户问题相似度最高的问题,并从所述问答资料库中查找出与该预设问题匹配的预设答案反馈给所述用户。


2.如权利要求1所述的基于语义特征的数据检索方法,其特征在于,所述第一创建步骤还包括:
识别出所述第一词集中预先确定的无语义词语,并将所述识别出的无语义词语从第一词集中删除。


3.如权利要求1所述的基于语义特征的数据检索方法,其特征在于,所述对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集包括:
加载预先确定的黏词词典及切词词典,调用jieba函数对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集。


4.如权利要求3所述的基于语义特征的数据检索方法,其特征在于,所述相似度算法为余弦相似度算法:



其中,A表示第一词向量,B表示第三词向量,θ表示A与B之间的夹角。


5.如权利要求1-4任一项所述的基于语义特征的数据检索方法,其特征在于,该方法还包括收集步骤:
生成用户评价界面供用户对所述发送的问题数据进行评价,并收集用户反馈的意见建立评价记录表存储至数据库。


6.一种电子装置,其...

【专利技术属性】
技术研发人员:徐君妍邵嘉琦刘屹陈先丽万正勇沈志勇高宏
申请(专利权)人:招商局金融科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1