搜索词匹配方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:24888810 阅读:22 留言:0更新日期:2020-07-14 18:16
本发明专利技术涉及一种人工智能技术,揭露了一种搜索词匹配方法,包括:对原始搜索词进行分词操作及添加属性标签得到标签搜索词,计算所述标签搜索词在预构建的搜索词数据库中的搜索频率,根据所述标签搜索词的属性标签计算所述标签搜索词的属性权重,将所述标签搜索词进行词向量转化得到标签搜索词向量,根据所述搜索频率及所述属性权重,计算所述标签搜索词向量与所述搜索词数据库内每个搜索词向量的相似度得到相似度集,根据所述相似度集,从所述搜索词数据库中选择满足预设相似度条件的搜索结果。本发明专利技术还提出一种搜索词匹配装置、电子设备以及一种计算机可读存储介质。本发明专利技术可以实现更准确的搜索词匹配方法。

【技术实现步骤摘要】
搜索词匹配方法、装置、电子设备及可读存储介质
本专利技术涉及人工智能
,尤其涉及一种搜索词匹配的方法、装置、电子设备及可读存储介质。
技术介绍
随着大数据的应用和发展,如何通过搜索词从庞大的数据中匹配到相似且准确的数据具有广阔应用前景。例如,用户在填写发票信息时,需要在发票系统中填入公司名称以及税号,在用户填写公司名称的过程中,发票系统会以用户输入的字词作为关键字,自动搜索并弹出最近似的公司名称供用户选择为用户提供方便,也能一定程度的避免用户填写错误的公司名称。目前多数的搜索词匹配方法多基于距离匹配方法,如构建坐标系,通过在坐标系的距离判断相似度,进而得到匹配结果。这种方法没有对公司名称的组成部分进行区别对待,因为公司名称的组成中,属性的重要性是不同的,比如、“同芙深圳医疗美容控股有限公司”、“同芙集团中国医疗美容股份有限公司”、以及“芙蓉深圳医疗美容控股有限公司”三个公司名称中,按照基于距离匹配方法,“同芙深圳医疗美容控股有限公司”以及“芙蓉深圳医疗美容控股有限公司”可以认为是相近的,因为两个公司名称的区域(深圳)相同,领域(医本文档来自技高网...

【技术保护点】
1.一种搜索词匹配方法,其特征在于,所述方法包括:/n对原始搜索词进行分词操作得到一组或多组初级搜索词;/n对所述初级搜索词添加属性标签得到标签搜索词;/n计算所述标签搜索词在预构建的搜索词数据库中的搜索频率,根据所述标签搜索词的属性标签计算所述标签搜索词的属性权重;/n将所述标签搜索词进行词向量转化得到标签搜索词向量,根据所述搜索频率及所述属性权重,计算所述标签搜索词向量与所述搜索词数据库内每个搜索词向量的相似度得到相似度集;/n根据所述相似度集,从所述搜索词数据库中选择满足预设相似度条件的搜索结果。/n

【技术特征摘要】
1.一种搜索词匹配方法,其特征在于,所述方法包括:
对原始搜索词进行分词操作得到一组或多组初级搜索词;
对所述初级搜索词添加属性标签得到标签搜索词;
计算所述标签搜索词在预构建的搜索词数据库中的搜索频率,根据所述标签搜索词的属性标签计算所述标签搜索词的属性权重;
将所述标签搜索词进行词向量转化得到标签搜索词向量,根据所述搜索频率及所述属性权重,计算所述标签搜索词向量与所述搜索词数据库内每个搜索词向量的相似度得到相似度集;
根据所述相似度集,从所述搜索词数据库中选择满足预设相似度条件的搜索结果。


2.如权利要求1所述的搜索词匹配方法,其特征在于,所述将所述标签搜索词进行词向量转化得到标签搜索词向量,包括:
构建搜索词矩阵并根据预设填充规则,将所述标签搜索词填充至所述搜索词矩阵;
对填充完成的所述搜索词矩阵进行编码压缩得到标签搜索词向量。


3.如权利要求2所述的搜索词匹配方法,其特征在于,所述对填充完成的所述搜索词矩阵进行编码压缩得到标签搜索词向量,包括:
根据填充完成的所述搜索词矩阵,建立前向概率模型和后向概率模型;
将所述前向概率模型及所述后向概率模型相加并求导得到标签搜索词向量。


4.如权利要求3所述的搜索词匹配方法,其特征在于,所述前向概率模型为:



所述后向概率模型为:



其中,表示所述搜索词矩阵的矩阵行数,v1,..vk-1,vs表示所述搜索词矩阵的行向量。


5.如权利要求4所述的搜索词匹配方法,其特征在于,所述将所述前向概率模型及所述后向概率模型相加并求导得到标签搜索词向量,包括:
采用下述方式对所述前向概率模型及所述后向概率模型相加并求导:



其中,mword表示所述标签搜索词向量,max表示最优化所述前向概率模型及所述后向概率模型,表示求偏导。

<...

【专利技术属性】
技术研发人员:刘静张然谭贤
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1