【技术实现步骤摘要】
基于语义特征的数据检索方法、电子装置及存储介质
本专利技术涉及数据处理
,尤其涉及一种基于语义特征的数据检索方法、电子装置及存储介质。
技术介绍
随着计算机技术、人工智能的快速发展,智能问答系统给生活带来了极大的便利。通过用户提出的问题从预先创建好的问答库中找到匹配度最高的问题答案再反馈给用户,代替了人工,减少了人工成本。但是目前大多数智能问答系统只是简单地对比用户提出的问题与问答库中的历史问题之间的相似性,然后选取出相似度最高的一个历史问题对应的问题答案反馈给用户,利用该方式仅仅利用的是问题包含的词语的字面特征,忽略了词语的语义特征信息,导致选取出的历史问题即使相似度高,但是不一定是表达意思接近。因此如何基于问题词语的语义特征信息,选取出表达意思更符合用户提出的问题的历史问题,从而得到更加准确合理的答案成为了亟需解决的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种基于语义特征的数据检索方法、电子装置及存储介质,旨在如何基于问题词语的语义特征信息,选取出表达意思更符合用户提出的问题的历史问题,从而得到更加准确合理的答案的问题。为实现上述目的,本专利技术提供的一种基于语义特征的数据检索方法,应用于电子装置,该方法包括:第一创建步骤:创建问答资料库,所述问答资料库包括预设问题及其匹配的预设答案,对所述预设问题进行拆词处理得到由第一词语组成的第一词集,对每个所述第一词语进行词向量转化处理得到对应的第一词向量,并存储至数据库;第二创建步骤:创建第二词集,所 ...
【技术保护点】
1.一种基于语义特征的数据检索方法,应用于电子装置,其特征在于,该方法包括:/n第一创建步骤:创建问答资料库,所述问答资料库包括预设问题及其匹配的预设答案,对所述预设问题进行拆词处理得到由第一词语组成的第一词集,对每个所述第一词语进行词向量转化处理得到对应的第一词向量,并存储至数据库;/n第二创建步骤:创建第二词集,所述第二词集包括与第一词语关联的第二词语,对所述第二词语进行词向量转化得到第二词向量,计算各个第二词向量与词向量词典中各个第三词向量之间的相似度值,筛选出相似度值大于或等于第一预设阈值的第三词向量,并将所述第二词向量及第三词向量合并至所述数据库;/n答疑处理步骤:接收用户发出的答疑请求,解析所述答疑请求得到用户问题,对所述用户问题进行拆词处理得到第四词语组成的第三词集,从所述数据库中查找出每个第四词语对应的第四词向量,将所述用户问题输入预先确定好窗口长度的滑动窗口模型,依次滑动窗口并计算窗口内至少两个并排的所述第四词向量的平均值,选取所述平均值最大的词向量作为所述用户问题的第一句向量;及/n反馈步骤:将所述问答资料库中的每个预设问题分别输入所述滑动窗口模型输出每个预设问题的 ...
【技术特征摘要】
1.一种基于语义特征的数据检索方法,应用于电子装置,其特征在于,该方法包括:
第一创建步骤:创建问答资料库,所述问答资料库包括预设问题及其匹配的预设答案,对所述预设问题进行拆词处理得到由第一词语组成的第一词集,对每个所述第一词语进行词向量转化处理得到对应的第一词向量,并存储至数据库;
第二创建步骤:创建第二词集,所述第二词集包括与第一词语关联的第二词语,对所述第二词语进行词向量转化得到第二词向量,计算各个第二词向量与词向量词典中各个第三词向量之间的相似度值,筛选出相似度值大于或等于第一预设阈值的第三词向量,并将所述第二词向量及第三词向量合并至所述数据库;
答疑处理步骤:接收用户发出的答疑请求,解析所述答疑请求得到用户问题,对所述用户问题进行拆词处理得到第四词语组成的第三词集,从所述数据库中查找出每个第四词语对应的第四词向量,将所述用户问题输入预先确定好窗口长度的滑动窗口模型,依次滑动窗口并计算窗口内至少两个并排的所述第四词向量的平均值,选取所述平均值最大的词向量作为所述用户问题的第一句向量;及
反馈步骤:将所述问答资料库中的每个预设问题分别输入所述滑动窗口模型输出每个预设问题的第二句向量,利用预设搜索算法从所有第二句向量中筛选出与所述第一句向量相似度大于或等于第二预设阈值的第二句向量,以该第二句向量对应的预设问题作为与所述用户问题相似度最高的问题,并从所述问答资料库中查找出与该预设问题匹配的预设答案反馈给所述用户。
2.如权利要求1所述的基于语义特征的数据检索方法,其特征在于,所述第一创建步骤还包括:
识别出所述第一词集中预先确定的无语义词语,并将所述识别出的无语义词语从第一词集中删除。
3.如权利要求1所述的基于语义特征的数据检索方法,其特征在于,所述对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集包括:
加载预先确定的黏词词典及切词词典,调用jieba函数对所述预设问题数据进行拆词处理得到由第一词语组成的第一词集。
4.如权利要求3所述的基于语义特征的数据检索方法,其特征在于,所述相似度算法为余弦相似度算法:
其中,A表示第一词向量,B表示第三词向量,θ表示A与B之间的夹角。
5.如权利要求1-4任一项所述的基于语义特征的数据检索方法,其特征在于,该方法还包括收集步骤:
生成用户评价界面供用户对所述发送的问题数据进行评价,并收集用户反馈的意见建立评价记录表存储至数据库。
6.一种电子装置,其...
【专利技术属性】
技术研发人员:徐君妍,邵嘉琦,刘屹,陈先丽,万正勇,沈志勇,高宏,
申请(专利权)人:招商局金融科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。