The invention provides a method and a device for tagging articles. The method includes: extracting a plurality of keywords from all the existing resources in the library, the establishment of key base; determine the weight of each first label each keyword in the lexicon on the pre established tag library; get the first weight and the weight of second to determine the frequency of each word each tag the tag library of the resource library based on each article; second weights based on the obtained in a predetermined manner a number of selected tags to the corresponding article mark.
【技术实现步骤摘要】
一种给文章标注标签的方法和装置
本专利技术涉及信息处理
,具体而言涉及一种给文章标注标签的方法和装置。
技术介绍
随着通信网络的推广和智能终端的普及,人们越来越习惯使用电子产品进行阅读。例如,在电子计算机上登录新闻网站或者小说网站阅读各种新闻或小说,也可以登录网上图书馆来阅读各种图书。再例如,使用智能手机或平板电脑等智能移动终端上安装的第三方应用来实现阅读,如新闻类的“今日头条”、小说类的“书旗小说”、还有其它期刊类的APP等等。无论是在电子计算机上登录新闻网站或者小说或期刊网站等阅读各种新闻或小说或论文等,还是使用提供阅读功能的第三方应用来进行阅读,都需要对大量的新闻内容进行归类整合,对大量的小说或论文进行归类整合,把整合好的数据作为基础数据,这样方便根据内容类别进行展示,或基于用户兴趣进行推荐。在对新闻、小说或论文等文章归类整合的过程中,很多文章都来自于外部数据源,这些文章没有任何分类信息或标签信息,如何对这些文章进行归类是一件棘手的事情。传统的方法是通过运营人员根据经验判断文章属于那一类别。这种方法的缺陷有两个:1、需要耗费巨大的人力成本。对于加入的每 ...
【技术保护点】
一种给文章标注标签的方法,其包括:从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频;确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。
【技术特征摘要】
1.一种给文章标注标签的方法,其包括:从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频;确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。2.根据权利要求1所述的方法,其特征在于在从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库的步骤中:首先,使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语,建立分词词语库;接着,确定分词词语库里的每个分词词语的分辨率:其中:Si表示分词词语i的分辨率;θ为自定义的一个小数;Pl,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频,如果分词词语i没有出现在文章l中则Pl,i=0;|L|表示已有文章资源库里的所有文章的总数量;pct([Pl,i]l∈L,θ,1)表示将数组Pl里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和;pct([Pl,i]l∈L,0,θ)表示将数组Pl里的元素按数值大小做降序排列并且对排名在第1位到第θ分位的多个元素数值进行累加求和;L表示已有文章资源库里的所有文章的集合;最后,根据所述分辨率按预设方式选取一定数量的词语作为多个关键词。3.根据权利要求1所述的方法,其特征在于在确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重的步骤中,确定所述第一权重的方法如下:其中:TWt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w时TWt,w为0;PLTl,t表示标签库里的标签t在已有文章资源库里的文章l里出现的词频;PLWl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;|L|表示已有文章资源库里的所有文章的总数量;L表示已有文章资源库里的所有文章的集合。4.根据权利要求1所述的方法,其特征在于在基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重的步骤中,确定所述标签对文章的第二权重的方法如下:其中:LPl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;TWt,w表示关键词库里的关键词w对预先已建立的标签库里的标签t的第一权重,如果标签t的文字内容里没有关键词w则TWt,w为0;PLWl,w表示关键词库里的关键词w在已有文章资源库里的文章l里出现的词频;n为关键词库里的关键词的总数量。5.根据权利要求4所述的方法,其特征在于还包括:对所述标签对文章的第二权重进行标准化处理以获得所述标签对文章的相对第二权重,方法如下:其中:LPCl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的相对第二权重;LPl,t表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的第二权重;表示预先已建立的标签库中的标签t对已有文章资源库里的文章l的平均权重;|L|表示已有文章资源库里的所有文章的总数量。6.根据权利要求1所述的方法,其特征在于在基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上的步骤中,包括:根据第二权重的大小顺序选取一定数量的标签给相应的文章标注上,或者选择大于预设阈值的...
【专利技术属性】
技术研发人员:潘岸腾,
申请(专利权)人:广州优视网络科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。