【技术实现步骤摘要】
一种基于对话机器人的智能购房助手
本专利技术涉及自然语言处理技术和信息搜索领域,尤其涉及一种多特征融合无监督语义匹配算法模型及基于该模型用于智能购房的对话机器人系统。
技术介绍
在现今信息化飞速发展的时代,随着智能手机普及和移动网络的提速,用户可以随时随地在互联网进行娱乐、购物和阅读等等。提供各项业务的公司用户量顺势飞速增长,随之而来产品的体验反馈和咨询非常繁重,给公司带来人工客服开销提高的同时,也给人工客服带来了很多挑战。因此,智能对话机器人应运而生,相比于人工客服,智能对话机器人响应速度快,可以同时接待多位用户,并且无需用户等待;智能对话机器人处理用户咨询中大量的重复问题时不会像人工客服那样产生烦躁心里,用户体验好;智能对话机器人可以7x24小时工作,大大提高了服务的效率;智能对话机器人还可以辅助人工客服,在人工服务的时候,推荐回复的内容,并学习人工客服回复的内容,机器人学习到的人工客服回复的内容,可以作为机器人的知识库使用。在我国,购房关乎于每一个家庭的切身利益,而因地域不同,购房的制度和房产市场都不同,比如,非杭州户口在杭州购房要在3年内连续缴纳社保或个税 ...
【技术保护点】
1.一种多特征融合无监督语义匹配算法模型,包括用于重叠部分相似度计算的通道一、用于非重叠部分相似度计算的通道二,以及用于问题整体相似度计算的通道三,其特征在于:所述通道一以公共词列表C为基础,从问题S1和S2重叠词个数、重叠词在两个句子中的连续性计算两个问题的相似度,公式如下:
【技术特征摘要】
1.一种多特征融合无监督语义匹配算法模型,包括用于重叠部分相似度计算的通道一、用于非重叠部分相似度计算的通道二,以及用于问题整体相似度计算的通道三,其特征在于:所述通道一以公共词列表C为基础,从问题S1和S2重叠词个数、重叠词在两个句子中的连续性计算两个问题的相似度,公式如下:其中,m为C中元素的个数,L(ci)表示C中第i个元素中包含词的个数,k为连续词加权系数,当ci为独立单词时,L(ci)为1,系数k起不到加权的作用,当L(ci)大于1时,即由连续词构成了词块,系数k起到加权的作用;所述通道二使用pyltp对问题S1和S2进行分词和词性识别,使用两个句子的重叠词列表对问题S1和S2进行遍历,得到问题S1和S2非重叠部分A和B,对非重叠部分A和B进行分组,使得名词为一组An、Bn,动词为另一组Av、BV,遍历An、Bn,两两计算词间相似度,计算时采用word2vec模型中词的向量距离来度量,并对结果求和取均值得到nsim(S1,S2),遍历Av、BV,两两计算词间相似度,计算时采用word2vec模型中词的向量距离来度量,并对结果求和取均值得到vsim(S1,S2);所述通道三综合考虑通道一的重叠部分和通道二的非重叠部分,从问题整体计算两个问题的相似度。2.根据权利要求1所述匹配算法模型,其特征在于,从所述问题S1和S2重叠词在两个问题中词序一致性计算问题相似度的计算步骤为:A.以单个词为单位获取两个问题的公共词列表W;B.顺序遍历S1,标记同时属于S1和W的词Wi在S1中的索引I1,同一词在S1中多次出现时,仅记录首次索引,最终得到的索引形如I1=[1,2,3,4,5];C.顺序遍历S2,标记同时属于S2和W的词Wj在S1中的索引I2,同一词在S2中多次出现时,仅记录首次索引,最终得到的索引形如I2=[4,3,1,2,5];D.计算I2中索引的次序,对不是正常顺序的索引进行惩罚,计算公式如下:其中,当I2中第n个索引比第n-1个索引值小时,对词序相似度进行惩罚,其中Q表示索引差值,δ表示惩罚因子,取值范围为0至1,当I2中第n个索引比第n-1个索引值大时,表示该词在S2中出现的顺序与S1中保持一致,记语序相似度为1;计算完成后,使用下式得到句子中词序相似度的总体值:其中,C(I2)表示索引列表I2中元素的个数。3.根据权利要求1所述匹配算法模型,其特征在于,从所述问题S1和S2重叠词在语料库中的Tfidf值计算两个问题相似度的计算步骤为:A.以单个词为单位获取两个问题的公共词列表W;B.利用从互联网上爬取并经过清洗、去噪、分词的短语识别之后的语料库;C.遍历公共词列表W,计算同时属于问题S1和W的词Wi在整个语料库中的TFIDF值,TFIDF=TF*IDF,由词频与逆文档频率两部分组成,其中,词频(termfrequency,TF)指的是某一个给定的词语在对应问题中出现的频率,计算公式如下:式中分子是每个词在对应问题中出现的次数,分母是对应问题中所有词语总数,式中tfij表示词i在问题j中的频率,nij表示词i在问题j中出现的次数,nkj表示词k在问题j中出现的次数,分母表示所有词在问题j中出现的次数,即问题j中词总数;逆文档(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量,某一个特定词语的IDF可以由语料库中总文档数目除以包含该词的文档数目,再将得到的商取对数得到:式中分子|D|是总文档数目,分母是包含词i的文档数目,由此便可得到每个Wi的TFIDF值t(wi),按公式T1=t(w0)*t(w1)*t(w2)…*t(wn)计算S1的重叠词的TFIDF特征值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。