【技术实现步骤摘要】
【国外来华专利技术】用于基于聚类和句子相似度来生成答案的系统和方法交叉引用在本公开的描述中引用和讨论了可能包括专利、专利申请和各种出版物的一些参考文献。提供这样的参考文献的引用和/或讨论仅是为了阐明本公开的描述,而不是承认任何这样的参考文献是本文描述的公开的“现有技术”。在本说明书中引用和讨论的所有参考文献均通过引用以整体并入本文,并且其程度与每个参考文献通过引用单独并入本文的程度相同。
本公开总体上涉及构建用于问答(QA)系统的答案生成系统,并且更具体地涉及用于通过利用电子商务平台上可用的丰富的问答数据和产品评论数据来基于词嵌入、嵌入词的聚类以及句子相似度测量构建答案生成系统的系统和方法。
技术介绍
本文提供的背景描述是为了总体上呈现本公开的上下文的目的。在该
技术介绍
部分中所描述的范围内,既未明确地承认也未暗含地承认当前提到名字的专利技术人的工作以及在申请时可能无法以其他方式视为现有技术的描述方面为本公开的现有技术。当前的问答(QA)系统仅专注于向用户查询提供事实答案,例如,与产品、产品列表、术语定义、以及如何安装/使 ...
【技术保护点】
1.一种用于生成问题的答案的系统,所述系统包括计算设备,所述计算设备包括处理器和存储有计算机可执行代码的存储设备,其中所述计算机可执行代码在所述处理器处执行时被配置为:/n接收由用户输入的关于产品的问题;/n使用所述问题从问答QA知识库中提取目标答案以形成答案集;/n从评论数据库中提取关于所述产品的用户评论以形成评论集;/n对所述答案集中的关键词进行聚类以获得集群中心;/n使用所述集群中心对所述答案集和所述评论集进行过滤,以得到答案子集和评论子集;以及/n从所述评论子集中生成所述问题的答案,其中,所述答案选自所述评论子集并与所述答案子集中的句子具有高句子相似度。/n
【技术特征摘要】
【国外来华专利技术】20190328 US 16/367,3951.一种用于生成问题的答案的系统,所述系统包括计算设备,所述计算设备包括处理器和存储有计算机可执行代码的存储设备,其中所述计算机可执行代码在所述处理器处执行时被配置为:
接收由用户输入的关于产品的问题;
使用所述问题从问答QA知识库中提取目标答案以形成答案集;
从评论数据库中提取关于所述产品的用户评论以形成评论集;
对所述答案集中的关键词进行聚类以获得集群中心;
使用所述集群中心对所述答案集和所述评论集进行过滤,以得到答案子集和评论子集;以及
从所述评论子集中生成所述问题的答案,其中,所述答案选自所述评论子集并与所述答案子集中的句子具有高句子相似度。
2.根据权利要求1所述的系统,其中,所述计算机可执行代码被配置为通过以下操作从所述QA知识库中提取答案:
计算所述由用户输入的问题与所述QA知识库中的问题之间的句子相似度;以及
将所述QA知识库中的问题中的具有计算出的相似度中的最大相似度的一个问题定义为最相似问题,其中所述目标答案是所述最相似问题的答案。
3.根据权利要求2所述的系统,其中,所述计算机可执行代码被配置为通过以下操作来计算所述由用户输入的问题与所述QA知识库中的答案中的一个之间的句子相似度:
使用word2vec模型将所述由用户输入的问题分解为词向量vA1,vA2,...,vAm,并使用所述word2vec模型将所述QA知识库中的答案中的所述一个分解为词向量vB1,vB2,...,vBn,其中,所述由用户输入的问题由SA表示并包括m个词,且所述QA知识库用户中的答案中的所述一个由SB表示并包括n个词;
计算SA中的向量中的一个与SB中的向量中的一个之间的相似度距离s(vi,vj),其中,i为A1至Am中的一个,且j为B1至Bm中的一个;
计算针对词向量vi的逆文档频率IDF:其中,C为所述评论数据库中的评论的总数,且Ci为所述评论数据库中包含与所述词向量vi相对应的词在内的评论的总数;以及
使用下式来计算SA与SB之间的句子相似度:
4.根据权利要求1所述的系统,其中,所述计算机可执行代码被配置为通过以下操作对所述答案集中的关键词进行聚类以获得所述集群中心:
将所述答案集中的关键词转换为关键词向量;
通过下式来计算关键词向量i中的一个的K-密度其中,是所述关键词向量i的K-密度,di,j是所述关键词向量i与关键词向量j中的一个之间的距离,K是预定的正整数,以及从1到K的所述关键词向量j是所述关键词向量i的最近邻居;
通过下式计算基于密度的最小距离其中,l是所述关键词向量中的具有比K-密度高的K-密度且与所述关键词向量i最近的一个关键词向量;
针对每个关键词向量i通过下式来计算关键词向量乘积xi:以及
基于所述关键词向量乘积的值,将多个关键词向量选择为集群中心,其中,所述集群中心的关键词向量乘积的值大于非集群中心的关键词向量乘积的值。
5.根据权利要求4所述的系统,其中,基于所述关键词向量乘积的从低到高的值以整数1至n依次对所述关键词向量编索引,具有最高关键词向量乘积的非集群中心具有索引o,并且
xo+1-xo≥1.5×(xo+2-xo+1)。
6.根据权利要求5所述的系统,其中,n-o大于5。
7.根据权利要求4所述的系统,其中,K是且n是所述答案集中的所述关键词的总数。
8.根据权利要求1所述的系统,其中,所述计算机可执行代码被配置为通过以下操作生成所述问题的答案:
计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度;
将所述评论子集中的句子中的一个与所述答案子集中的所有句子之间的平均句子相似度值定义为所述评论子集中的句子中的所述一个的句子-答案子集相似度值;
选择所述评论子集中具有最高句子-答案子集值的预定数量的句子;以及
将所述预定数量的句子中的一个选择为所述问题的答案。
9.根据权利要求7所述的系统,其中,所述预定数量在3-10的范围内。
10.根据权利要求1所述的系统,其中,计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度的步骤包括:
使用word2vec模型将所述评论子集中的句子中的一个分解为词向量vD1,vD2,...,vDp,并使用所述word2vec模型将所述答案子集中的句子中的一个分解为词向量vE1,vE2,...,vEq,其中,所述评论子集中的句子中的所述一个由SD表示并且包括p个词,所述子答案集中的句子中的所述一个由SE表示并且包括q个词;
计算SD中的向量中的一个与SE中的向量中的一个之间的相似度距离s(vi,vj),其中,i为D1至Dp中的一个,且j为E1至Eq中的一个;
计算针对词向量vi的逆文档频率IDF为:其中,C是所述评论子集中的句子的总数,且Ci是所述评论子集中包含与所述词向量vi相对应的词在内的句子的总数;以及
使用下式来计算SD与SE之间的句子相似度:
11.一种生成问题的答案的方法,包括:
由计算设备接收由用户输入的关于产品的问题;
由所述计算设备使用所述问题从问答...
【专利技术属性】
技术研发人员:李斯佳,王广涛,郭进,
申请(专利权)人:北京京东尚科信息技术有限公司,京东美国科技公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。