【技术实现步骤摘要】
为文章匹配对象的方法、系统、设备及存储介质
本专利技术涉及互联网
,特别涉及一种为文章匹配对象的方法、系统、设备及存储介质。
技术介绍
在互联网领域,大量的对象需要推荐文章等介绍该对象的优缺点及性价比等,供目标群体选择时参考。然而,海量的推荐文章编辑耗费大量的时间和经济成本。为此,自动推荐文章生成,尤其是自动生成的文章同目标对象的自动匹配技术至关重要。现有技术中,主要采取由达人根据应用场景及主题针对相应对象撰写推荐文章。另外也有一些能够实现机器自动批量生成文章的方式,对于批量生成的推荐文章,如果采用人工手动去匹配对象的方式实现,则工作量大,效率低,如何能够自动为这些自动生成的文章匹配相应的对象是一个急需解决的技术问题。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中的对于大量的文章采用人工匹配相应的对象的方式工作量大,效率低的缺陷,提供一种能够自动且快速地为推荐文章精确匹配一组对象的为文章匹配对象的方法、系统、设备及存储介质。本专利技术是通过下述技术方案来解决上 ...
【技术保护点】
1.一种为文章匹配对象的方法,每篇所述文章均对应有相应的类目,其特征在于,所述方法包括:/n获取所述类目下的所有对象;/n提取所述类目下的每个所述对象的至少一个卖点词;/n提取待匹配文章中的至少一个关键词;/n获取所述待匹配文章中每个所述关键词对应的词向量,记为关键词词向量;/n获取每个所述对象的每个所述卖点词对应的词向量,记为卖点词词向量;/n使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数;/n计算每个所述关键词的TF-IDF;/n根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数;/n将所 ...
【技术特征摘要】
1.一种为文章匹配对象的方法,每篇所述文章均对应有相应的类目,其特征在于,所述方法包括:
获取所述类目下的所有对象;
提取所述类目下的每个所述对象的至少一个卖点词;
提取待匹配文章中的至少一个关键词;
获取所述待匹配文章中每个所述关键词对应的词向量,记为关键词词向量;
获取每个所述对象的每个所述卖点词对应的词向量,记为卖点词词向量;
使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数;
计算每个所述关键词的TF-IDF;
根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数;
将所述相似分数最高的若干个所述对象作为所述待匹配文章最终的匹配对象。
2.如权利要求1所述的为文章匹配对象的方法,其特征在于,
每个所述对象的卖点词以及所述待匹配文章中的所述关键词均包括主体词-修饰词词对和/或独立词,所述主体词-修饰词词对为成对出现的主体词和相应的修饰词组成的词对,所述独立词为除了所述主体词和所述修饰词之外单独存在的词语;
所述使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数,包括:
查找所述待匹配文章与每个所述对象共有的所述主体词,设所述共有的所述主体词为相同主体词,其余的所述主体词为不同主体词;
使用所述待匹配文章的所述相同主体词对应的所述修饰词的词向量与相应的所述对象的所述相同主体词对应的所述修饰词的词向量进行余弦相似度计算,以得到所述待匹配文章与相应的所述对象对应的所述相同主体词的相似度系数A1;
从所述待匹配文章的所有所述不同主体词中选取TF-IDF最高的至少一个词作为相似主体词,使用所述待匹配文章的所述相似主体词的词向量与对应的所述对象的所述不同主体词的词向量进行距离计算,得到对应的相似主体词距离A2,使用所述相似主体词对应的所述修饰词的词向量与相应的所述对象的所述不同主体词对应的所述修饰词的词向量进行距离计算,得到对应的相似主体词修饰词距离B;
所述根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数,包括:
所述待匹配文章的每个所述相同主体词的TF-IDF表示为W1,设置所述待匹配文章与相应的所述对象对应的所述相同主体词的分数为W1*A1;
查找所述待匹配文章与每个所述对象共有的所述独立词,设所述共有的所述独立词为相同独立词,其余的所述独立词为不同独立词;
所述待匹配文章的每个所述相同独立词的TF-IDF表示为V1,设置所述待匹配文章与相应的所述对象的所述相同独立词的分数为V1;
所述待匹配文章的每个所述相似主体词的TF-IDF表示为W2,设置所述待匹配文章与相应的所述对象对应的所述相似主体词的分数记为W2*A2*B;
从所述待匹配文章的所有所述不同独立词中选取TF-IDF最高的至少一个词作为相似独立词,使用所述待匹配文章的所述相似独立词的词向量与相应的所述对象的所述不同独立词的词向量进行距离计算,得到相似独立词距离C,所述待匹配文章的所述相似独立词的TF-IDF表示为V2,设置所述待匹配文章与相应的所述对象对应的所述相似独立词的分数记为V2*C;
根据相应的W1*A1、V1、W2*A2*B以及V2*C计算得到所述待匹配文章与每个所述对象的所述相似分数。
3.如权利要求2所述的为文章匹配对象的方法,其特征在于,所述方法还包括以下步骤:
统计所述类目下所有对象的所述独立词,去除共现率在一预设区间的词语,剩余的所述独立词组成类目独立词集合,所述共现率表示所述独立词在所有对象中出现的百分比;
在所有对象的所述主体词-修饰词词对中,去除带有无效的修饰词的所述主体词-修饰词词对,剩余的所述主体词-修饰词词对组成类目主体词-修饰词词对集合;
在步骤使用所述关键词词向量与每个所述对象的所述卖点词词向量进行相似度计算得到相应的相似度系数之前,还包括以下步骤:
对所述类目下每个所述对象的所述主体词-修饰词词对进行清洗,以去除掉每个所述对象中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;
对所述类目下每个所述对象的所述独立词进行清洗,以去除掉每个所述对象中不包括在所述独立词集合中的所述独立词;
对所述待匹配文章的所述主体词-修饰词词对进行清洗,以去除掉所述待匹配文章中不包括在所述类目主体词-修饰词词对集合中的所述主体词-修饰词词对;
对所述待匹配文章的所述独立词进行清洗,以去除掉所述待匹配文章中不包括在所述独立词集合中的所述独立词。
4.如权利要求2所述的为文章匹配对象的方法,其特征在于,在步骤所述根据所述相似度系数及相应的所述关键词的TF-IDF计算所述待匹配文章与每个所述对象的相似分数之前,还包括以下步骤:
清洗掉所述相似度系数A1为负数的所述相同主体词所对应的所述对象。
5.如权利要求1所述的为文章匹配对象的方法,其特征在于,
所述提取所述类目下的每个所述对象的至少一个卖点词,包括:
以所述对象的标题、属性、历史推荐文章为素材,对所述素材做分词和依存句法分析标记每个词语之间的关系,以得到所述类目下的每个所述对象的至少一个所述卖点词;
所述提取待匹配文章中的至少一个关键词,包括:
对所述待匹配文章做分词和依存句法分析标记每个词语之间的关系,以得到所述待匹配文章中的至少一个所述关键词。
6.如权利要求3所述的为文章匹配对象的方法,其特征在于,所述预设区间为大于50%或小于0.1%。
7.一种为文章匹配对象的系统,每篇所述文章均对应有相应的类目,其特征在于,所述系统包括:
对象获取模块,用于获取所述类目下的所有对象;
卖点词提取模块,用于提取所述类目下的每个所述对象的至少一个卖点词;
关键...
【专利技术属性】
技术研发人员:张亮,佘志东,张震涛,王刚,饶正锋,缪世磊,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。