【技术实现步骤摘要】
获取文章的方法和装置及电子设备
本专利技术涉及爬虫
,尤其是涉及获取文章的方法和装置及电子设备。
技术介绍
目前,互联网文章种类丰富,内容新颖,数据量巨大,各种新兴媒体网站层出不穷,各类媒体内容形式也各不相同,不同用户具有不同的阅读需求,即每个用户偏向阅读特定调性的文章和媒体,如何自动向用户推送特定调性的文章也成为众多媒体软件的主要任务。现有的方法主要通过Word2Ve工具得到用户特定调性的文章,该方法虽然可以得到用户特定调性的文章,但具有低效性的缺点,从而给用户造成不好的阅读体验。
技术实现思路
有鉴于此,本专利技术的目的在于提供获取文章的方法和装置及电子设备,通过爬虫技术自动获取用户指定调性的文章,且,具有高效性,从而提高了用户的体验度。第一方面,本专利技术实施例提供了一种获取文章的方法,应用于服务器,所述方法包括:获取指定调性的关键词;根据所述关键词进行搜索,得到所述关键词对应的文章;将所述文章进行分词处理,得到所述文章的分词文件;其中,所述分词文件包括所述文章
【技术保护点】
1.一种获取文章的方法,其特征在于,应用于服务器,所述方法包括:/n获取指定调性的关键词;/n根据所述关键词进行搜索,得到所述关键词对应的文章;/n将所述文章进行分词处理,得到所述文章的分词文件;其中,所述分词文件包括所述文章的多个单词序列;/n将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度;/n选取相似度最高的指定数量的所述单词序列作为目标关键词;/n继续根据所述目标关键词进行搜索,得到所述目标关键词对应的文章,直至所述文章的数量达到预设阈值,并将搜索到的所述文章存储至文章数据库。/n
【技术特征摘要】
1.一种获取文章的方法,其特征在于,应用于服务器,所述方法包括:
获取指定调性的关键词;
根据所述关键词进行搜索,得到所述关键词对应的文章;
将所述文章进行分词处理,得到所述文章的分词文件;其中,所述分词文件包括所述文章的多个单词序列;
将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度;
选取相似度最高的指定数量的所述单词序列作为目标关键词;
继续根据所述目标关键词进行搜索,得到所述目标关键词对应的文章,直至所述文章的数量达到预设阈值,并将搜索到的所述文章存储至文章数据库。
2.根据权利要求1所述的获取文章的方法,其特征在于,所述将所述分词文件中的每个所述单词序列分别与指定调性的所述关键词进行比对,计算所述单词序列与所述关键词的相似度的步骤包括:
将所述分词文件输入至预先训练好的单词训练模型,以输出每个所述单词序列的单词向量;
通过所述单词向量与指定调性的所述关键词的关键词向量,分别计算所述单词序列与所述关键词的相似度。
3.根据权利要求2所述的获取文章的方法,其特征在于,将所述分词文件输入至预先训练好的单词训练模型之后,所述方法还包括:
通过预先训练好的所述单词训练模型输出所述分词文件对应文章的文章向量;
根据所述文章向量计算搜索到的所述文章与所述文章数据库中已存储的文章的相似度,以对搜索到的所述文章进行重复性判断。
4.根据权利要求1所述的获取文章的方法,其特征在于,所述根据所述关键词进行搜索,得到所述关键词对应的文章的步骤包括:
获取用户输入的指定网站地址;
在所述指定网站地址对应的网站上根据所述关键词进行搜索,以得到所述关键词对应的文章。
5.根据权利要求4所述的获取文章的方法,其特征在于,所述在所述指定网站地址对应的网站上根据所述关键词进行搜索,以得到所述关键词对应的文章的步骤还包括:
将所述关键词输入至预设的爬虫程序;
通过所述爬虫程...
【专利技术属性】
技术研发人员:徐磊,袁力,邸烁,胡坤歌,
申请(专利权)人:北京阿尔山区块链联盟科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。