一种基于文本匹配的搜索推荐相关度计算方法技术

技术编号:20589047 阅读:42 留言:0更新日期:2019-03-16 07:12
本发明专利技术公开了一种基于文本匹配的搜索推荐相关度计算方法,该算法包括数据获取、数据清洗、特征提取、相关度计算等步骤,其中特征提取包括构造字面表层形式特征、语义特征、文本统计特征和文本交互特征,最后将构造特征按维度拼接成多维特征后放入深度学习模型进行相关度学习,最后按照深度学习模型计算相关度。采用上述方法后,本发明专利技术通过提取多维度的特征进行深度学习,可以提高相关度的准确性和参考性,从而提高推荐效果、提高工作效率。

【技术实现步骤摘要】
一种基于文本匹配的搜索推荐相关度计算方法
本专利技术涉及数据搜索领域,特别是指一种基于文本匹配的搜索推荐相关度计算方法。
技术介绍
搜索推荐场景下,目标公司产品服务的描述及所属行业信息对于匹配相关公司的用户具有直接意义。通过分析和抽取目标公司对应文本信息的不同层面特征,计算相关度,量化各目标公司的优先程度,能提升推荐效果,提升工作效率。现有推荐算法所分析和抽取的文本特征比较单一,导致推荐结果具有一定的局限性,不能多维化分析目标公司的相关度。有鉴于此,本专利技术人针对上述问题未臻完善所导致的诸多缺失及不便,而深入构思,且积极研究改良试做而开发设计出本专利技术。
技术实现思路
本专利技术的目的在于提供一种基于文本匹配的搜索推荐相关度计算方法,通过构造多维度特征进行深度学习,提高相关度的准确性。为了达成上述目的,本专利技术的解决方案是:一种基于文本匹配的搜索推荐相关度计算方法,包括以下步骤:步骤1、数据获取通过设置爬虫获取目标公司官网或社交平台上的网页数据,得到原始文本;步骤2、数据清洗将原始文本转换为单一的标签化文本,通过设置停用词词典或者编写规则进行去除标签化文本中的停用词,得到文本数据;本文档来自技高网...

【技术保护点】
1.一种基于文本匹配的搜索推荐相关度计算方法,其特征在于包括以下步骤:步骤1、数据获取通过设置爬虫获取目标公司官网或社交平台上的网页数据,得到原始文本;步骤2、数据清洗将原始文本转换为单一的标签化文本,通过设置停用词词典或者编写规则进行去除标签化文本中的停用词,得到文本数据;步骤3、特征提取通过构造文本数据在不同层面的特征,对文本数据进行数量化分析和表达,为后续相关度计算进行抽象;3‑1字面表层形式特征:提取文本数据中和搜索文本的词汇表层形式相似的特征,包括LCS、LD特征;3‑2语义特征:提取文本数据在语义表达上的特征,分别采用主题模型LDA和词向量word2vec进行表达;3‑3文本统计特...

【技术特征摘要】
1.一种基于文本匹配的搜索推荐相关度计算方法,其特征在于包括以下步骤:步骤1、数据获取通过设置爬虫获取目标公司官网或社交平台上的网页数据,得到原始文本;步骤2、数据清洗将原始文本转换为单一的标签化文本,通过设置停用词词典或者编写规则进行去除标签化文本中的停用词,得到文本数据;步骤3、特征提取通过构造文本数据在不同层面的特征,对文本数据进行数量化分析和表达,为后续相关度计算进行抽象;3-1字面表层形式特征:提取文本数据中和搜索文本的词汇表层形式相似的特征,包括LCS、LD特征;3-2语义特征:提取文本数据在语义表达上的特征,分别采用主题模型LDA和词向量word2vec进行表达;3-3文本统计特征:根据文本数据中搜索文本的词的分布进行统计特征计算,采用BM25、TF-IDF和PMI分布构造特征;3-4文本交互特征:计算在...

【专利技术属性】
技术研发人员:孙锦彬吴承霖洪思睿
申请(专利权)人:厦门笨鸟电子商务有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1