实现资讯高质量打标打分的词群算法以及应用制造技术

技术编号:33531701 阅读:39 留言:0更新日期:2022-05-19 02:03
本发明专利技术的一个技术方案是一种实现资讯高质量打标打分的词群算法。本发明专利技术的另一技术方案是提供了一种上述词群算法的应用。本发明专利技术建立了一个通用的算法框架用于文章打标打分,其特点是:本发明专利技术通过文章4类标签相关性打分,解决文章打标主次不分的相关性问题。本发明专利技术通过提取文章核心句子,得到文章信息量打分,解决文章质量高低不分问题。本发明专利技术通过文章核心句子在不同层次上的分布,得到文章个性化向量,解决文章个性化推荐问题。通用性体现在:能适用于各类垂直搜索引擎,不用频繁动态修改词群算法,只需要修改依赖的知识图谱即可。相比规则引擎,词群算法可以实现资讯更高质量的打标打分,具有降本增效的作用。具有降本增效的作用。具有降本增效的作用。

【技术实现步骤摘要】
实现资讯高质量打标打分的词群算法以及应用


[0001]本专利技术涉及一种词群算法,同时本专利技术还涉及一种上述词群算法在实现资讯高质量打标打分中的应用。

技术介绍

[0002]搜索引擎离不开对资讯的高质量打标打分,基于搜索引擎还可以做信息流相关的生态应用,如:推荐、新闻栏目、舆情监控、征信搜集等。提高打标打分基础服务的质量,是保证上层应用用户体验的前提。
[0003]我们处于一个信息爆炸的时代,随着公司、人物、行业、概念越来越多,媒体越来越多,目前互联网上的文章每天新增数十万篇,每年持续递增。对于一个搜索引擎,如果所有文章都依靠人工编辑阅读理解,过滤垃圾文章,然后打标分发,成本将会极其高昂。在大数据时代,通过打标打分算法替代部分人工编辑,提高人工编辑的审核效率,是业务长期以来的需求。
[0004]根据用户能感知有价值的对象,打标主要是围绕:
[0005]1.公司标签(国内外知名公司)
[0006]2.人物标签(国内外知名人物,公司创始人、高管和股东等)
[0007]3.行业标签(60多个行业)
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现资讯高质量打标打分的词群算法,其特征在于,所述词群算法包括以下步骤:步骤1、基于不同的公司标签、人物标签、行业标签和概念标签建立知识图谱,在知识图谱中,依据具体标签之间的关系,通过边将相应的节点连接起来,从而每个具体的公司标签、人物标签、行业标签以及概念标签分别对应一个词群;同时基于用户认知能力作为细分变量,将用户群体分为核心层、中间层和表象层,则在知识图谱中还建立对应的核心层词群、中间层词群和表象层词群;步骤2、对整篇文章进行分词处理,把字符串打散成分词序列;步骤3、获取分词序列中出现的公司标签、人物标签、行业标签、概念标签的名字分词,别名分词和/或代码分词其中之一,将该分词作为标签加入到对应的{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}中;步骤4、将知识图谱中与{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}中的标签所对应的词群与步骤2获得的分词序列做交集,将交集的大小作为{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}每个标签的绝对得分;步骤5、统计{公司标签候选集}、{人物标签候选集}、{行业标签候选集}、{概念标签候选集}中绝对得分最高的公司标签、人物标签、行业标签以及概念标签,将原文中公司标签、人物标签、行业标签以及概念标签的代词用得分最高的公司标签、人物标签、行业标签以及概念标签替换后,重复步骤2至步骤4,重新计算知识图谱中的词群与分词序列的交集,得到公司标签、人物标签、行业标签以及概念标签在代词修正后的绝对得分;步骤6、挑选代词修正后的绝对得分Top1和Top2的标签作为主角和配角,则得到作为主角的公司一、作为配角的公司...

【专利技术属性】
技术研发人员:罗伟杰
申请(专利权)人:东方财富信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1