【技术实现步骤摘要】
通过机器学习及上下文词性发现重要名词标签的方法
本专利技术涉互联网
,尤其涉及通过机器学习及上下文词性发现重要名词标签的方法。
技术介绍
随着移动互联基础建设及传播速度加快,现在每一个人接触到的新闻信息是爆炸性的,各种各样的新闻信息都如洪水般出现在人们的视野,但人们看新闻的时间总是有限的,所以如何快速推荐出用户关键的重点标签是具体逼切的需求。另外,提取出文章的重点标签也是一种快速分析用户兴趣点,用户画像等也是一种重要的分析手段。新词发现另外一个更重要的方面,就是可以实时捕捉到用户最新的兴趣点,假如最近出现了一个新词叫XXX,假如我们分析不出来这一个词,则根本捕捉到用户的兴趣标签,更不能通过这一个兴趣标签生成最近的用户喜欢兴趣文章。新词发现也有助于用户画像的建立,假如一个用户对每次的新词都非常感兴趣,那说明此用户是那种紧跟新闻热点的用户而并非只喜欢单一兴趣的用户。这对于用户画像建立极其重要。当有一定的新词数量后,便可以建立各新词之间的关系,如:“雷军”和“小米”两者关系很近,当用户最近喜欢看“雷军 ...
【技术保护点】
1.通过机器学习及上下文词性发现重要名词标签的方法,其特征在于,包括以下步骤:/nS1:首先通过语料,此语料需要最近的文章,选取最近1年的文章作为语料,列举出一定数据的已经确定的新词,用于学习出此名词最有可能的前后文中的“形容词,连词,动词”等,并整理出几十个已经确定的重要名词(如:华为,小米,中兴等);/nS2:通过上一步的操作,已经可以得出一批整理句式了如:“XXX于今年发布了”,“无论XXX是如何做到”,“对于XXX来说”等,同时也可以计算对应不同的句式能得出不同的概率情况;/nS3:当计算出各类型的句式外,通过这些句式套用了到具体新的文章内容,这样就通过句式便得出了 ...
【技术特征摘要】
1.通过机器学习及上下文词性发现重要名词标签的方法,其特征在于,包括以下步骤:
S1:首先通过语料,此语料需要最近的文章,选取最近1年的文章作为语料,列举出一定数据的已经确定的新词,用于学习出此名词最有可能的前后文中的“形容词,连词,动词”等,并整理出几十个已经确定的重要名词(如:华为,小米,中兴等);
S2:通过上一步的操作,已经可以得出一批整理句式了如:“XXX于今年发布了”,“无论XXX是如何做到”,“对于XXX来说”等,同时也可以计算对应不同的句式能得出不同的概率情况;
S3:当计算出各类型的句式外,通过这些句式套用了到具体新的文章内容,这样就通过句式便得出了对应的名词及其可能性;
S4:通过套用了句式,并计算出名词的可能性外,另外计算此名词在出现出来次数的聚合,还有段落的标签覆盖的范围;
S5:当计算出此文章标签后,还需要计算出一种叫标签的可代表性,例如:某一个标签的重要程度类似于tf/idf的思想,如:标签如果覆盖范围非常广的话,说明此标签并没有可代表性,而某标签仅在某几种的文章中,而那几种文章具体相似的标签聚类,则认为此标签是重要的,具体代表性;
另外,分析出来的名词,通过两种方式判断是否一个重点词:
(1)此词在本文中的出来频次及段落覆盖的范围;
(2)此词在这批语料中不具有普遍性;
通过以上两点,就能确定此词是否一个重点的标签词;
S6:迭代发现;
比如,通过今天发现的新词,设置阈值,用这些新词继续特征发现新句式,并更新句式的概率;
通过上一步,继续发现更细更广的新词;
S7:机器对学习到的新词保存到存储单元中,且存储单元连接有搜索关联单元,搜索关联单元连接有客户使用端口。
2.根据权利要求1所述的通过机器学习及上下文词性发现重要名词标签的方法,其特征在于,所述S1中,选用标准的官媒发布的文章作为训练的语料,此类语料价值较大,写书并没有普通自媒体等随意,通过已经确定的几十个名词(公司名,品牌名,人物名等)放到语料...
【专利技术属性】
技术研发人员:李森和,
申请(专利权)人:广州坚和网络科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。