【技术实现步骤摘要】
新闻聚合与智能实体关联的方法
本专利技术涉及信息检索方法
,尤其涉及一种新闻聚合与智能实体关联。
技术介绍
随着互联网Web2.0、社交网络、移动互联网的发展,新闻发生到经过社交网络、门户网站、主流媒体的传播几乎成为秒级事件,特别是机器参与新闻的采集、生成和转发,导致了海量新闻充斥网络,使用户处于数据汪洋之中,难以发现有价值的新闻数据。实际上,在舆情监控领域,用户关注的是与自身密切相关的主题和关键词的新闻传播与事件影响力。对于普通用户,希望通过聚合新闻,了解天下大事,需要读取新闻的同时了解相关的新闻发生地理信息和人物信息,以洞悉新闻事件的背景资料和关联知识。因此,通过知识图谱实现文本的智能实体标注提供有背景知识的新闻成为一种带有普遍性的用户需求。(1)国内著名的新闻聚合网站有百度新闻、今日头条、UC头条、天天快报、电力头条等。这些网站通过爬虫聚合全网新闻数据,通过算法和人工推荐,实现用户的定制化新闻阅读,提高信息获取效率。该方法存在对用户个体兴趣和群体点击的过拟合,导致推荐有效性不高,存在泛娱乐化问题。此外,这些方法仅提供了新闻正文,没能有效利用新闻背景信息 ...
【技术保护点】
1.一种新闻聚合与智能实体关联的方法,其特征在于,包括:对所配置的RSS新闻源进行轮询爬取,获取所述RSS新闻源的新闻列表,并遍历所述新闻列表中的每条新闻生成对应的新闻三元组;对所述新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页;利用支持向量机对所述新闻网页进行分类识别,以提取新闻正文;对所述新闻正文进行自然语言处理,以将非结构化文本流转化为具有实体标签的词串;在Wikidata知识图谱中搜索与所述词串中的人物名称和地理名称对应的实体,实现所述人物名称和所述地理名称与Wikidata中所述实体的关联;将所述新闻网页对应的新闻六元组存储入文档型数据库中;在接收到 ...
【技术特征摘要】
1.一种新闻聚合与智能实体关联的方法,其特征在于,包括:对所配置的RSS新闻源进行轮询爬取,获取所述RSS新闻源的新闻列表,并遍历所述新闻列表中的每条新闻生成对应的新闻三元组;对所述新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页;利用支持向量机对所述新闻网页进行分类识别,以提取新闻正文;对所述新闻正文进行自然语言处理,以将非结构化文本流转化为具有实体标签的词串;在Wikidata知识图谱中搜索与所述词串中的人物名称和地理名称对应的实体,实现所述人物名称和所述地理名称与Wikidata中所述实体的关联;将所述新闻网页对应的新闻六元组存储入文档型数据库中;在接收到用户对所述实体的搜索指令时,列出所述新闻网页,并通过地图展示对应的地理名称所关联的Wikidata中地点信息、通过卡片展示所述Wikidata中对应的人物名称资料,其中,所述新闻三元组包括标题、时间和URL,所述新闻六元组包括标题、时间、URL、正文、人物实体和地理实体。2.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,所述对所述新闻列表中的新闻进行哈希值去重,采用爬虫爬取去重后的新闻网页具体包括:计算所述新闻列表中的每条新闻对应的URL计算哈希值,查询本地爬取列表的哈希表中是否存在相同哈希值;若本地爬取列表中不存在,则查询所述文档型数据库中是否存在该新闻,若所述文档型数据库和所述本地爬取列表中均不存在该新闻,则将该新闻插入爬取队列中进行爬取,否则处理下一条新闻。3.根据权利要求1所述的新闻聚合与智能实体关联的方法,其特征在于,所述利用支持向量机对所述新闻网页进行分类识别,以提取新闻正文具体包括:向该新闻的URL请求HTML格式的新闻网页,并通过网页降噪规则去除页面噪声;利用支持向量机对去除噪声后的页面元素进行0-1分类识别,并提取新闻...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。