基于微博平台的事件外部信息源提取方法技术

技术编号:27935915 阅读:33 留言:0更新日期:2021-04-02 14:16
本发明专利技术涉及一种基于微博平台的事件外部信息源提取方法。本发明专利技术的目的是提供一种基于微博平台的事件外部信息源提取方法。本发明专利技术的技术方案是:S01、获取事件相关微博中的外部信息源URL,并统计不同外部信息源URL的出现频率;S02、将外部信息源URL转换为长链接形式;S03、将长链接形式的外部信息源URL与垃圾URL词典逐一过滤,保留非垃圾的外部信息源URL;S04、将步骤S03保留的外部信息源URL与权威URL词典逐一比对;S05、对步骤S03保留的外部信息源URL逐一模拟点击访问,过滤无效地址;S06、对步骤S05保留的外部信息源URL依据步骤S04确定的权值进行排名,选取权值高的前N个外部信息源URL作为关键外部信息源。本发明专利技术适用于信息抽取技术领域。

【技术实现步骤摘要】
基于微博平台的事件外部信息源提取方法
本专利技术涉及一种基于微博平台的事件外部信息源提取方法。适用于信息抽取

技术介绍
在各类新闻媒介百花齐放的如今,人们通过互联网获取信息的途径越来越多,不仅可以浏览各类新闻网站,例如新浪网,人民日报网等,也可以通过各类社交平台中用户的相继传播转发获取各种信息。与此同时,如何从用户的转发或引用的信息中获取该信息的外部信息来源也成为了一个新兴的研究点。专利号为201410010836.X的中国专利提供了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。由上可知,现有技术是通过提取长文本关键词与本地信息源库进行对比获得本文档来自技高网...

【技术保护点】
1.一种基于微博平台的事件外部信息源提取方法,其特征在于:/nS01、获取事件相关微博中的外部信息源URL,并统计不同外部信息源URL的出现频率;/nS02、将外部信息源URL转换为长链接形式;/nS03、将长链接形式的外部信息源URL与垃圾URL词典逐一过滤,保留非垃圾的外部信息源URL;/n所述垃圾URL词典内存放有高频出现的与新闻事件描述无关的域名地址;/nS04、将步骤S03保留的外部信息源URL与权威URL词典逐一比对,根据每个外部信息源URL的出现频率和外部信息源URL在权威URL词典对应的权威等级确定该外部信息源URL的权值;/n所述权威URL词典存放有经统计调研的具有不同权威等...

【技术特征摘要】
1.一种基于微博平台的事件外部信息源提取方法,其特征在于:
S01、获取事件相关微博中的外部信息源URL,并统计不同外部信息源URL的出现频率;
S02、将外部信息源URL转换为长链接形式;
S03、将长链接形式的外部信息源URL与垃圾URL词典逐一过滤,保留非垃圾的外部信息源URL;
所述垃圾URL词典内存放有高频出现的与新闻事件描述无关的域名地址;
S04、将步骤S03保留的外部信息源URL与权威URL词典逐一比对,根据每个外部信息源URL的出现频率和外部信息源URL在权威URL词典对应的权威等级确定该外部信息源URL的权值;
所述权威URL词典存放有经统计调研的具有不同权威等级的域名;
S05、对步骤S03保留的外部信息源URL逐一模拟点击访问,过滤无效地址,确保保留下的外部信息源URL均为有效地址;
S06、对步骤S05保留的外部信息源URL依据步骤S04确定的权值进行排名,选取权值高的前N个外部信息源URL作为关键外部信息源。


2.根据权利要求1所述的基于微博平台的事件外部信息源提取方法,其特征在于,步骤S01包括:
使用网页内容爬取技术,爬取与某待认证事件相关的微博,利用正则表达式匹配所爬取微博内容中携带的外部信息源URL,统计不同外部信息源URL出现的频率,并选择频率最高的前若干个外部信息源URL作为待处理的外部信息源的URL。


3.根据权利要求1或2所述的基于微博平台的事件外部信息源提取方法,其特征在于,步骤S02包括:
逐一模拟点击访问步骤S01获取的外部信息源的URL,根据Http请求返回的消息头中的重定位Location信息获得长链接。


4.根据权利要求1所述的基于微博平台的事件外部信息源提取方法,其特征在于,所述确定外部信息源URL的权值,包括:
将每个外部信息源URL的出现频率乘以外部信息源URL在权威URL词典对应的权威等级至作为该外部信息源URL的权值。


5.根据权利要求1所述的基于微博平台的事件外部信息源提取方法,其特征在于,所述过滤无效地址,包括:
通过Http请求返回的消息头中的StatusCode信息,过滤掉该行信息为404、301或302的外部信息源URL。


6.根据权利要求1所述的基于微博平台的事件外部信息源提取方法,其特征在于:
S07、...

【专利技术属性】
技术研发人员:曹娟谢添刘浩远徐朝喜
申请(专利权)人:中国科学院计算技术研究所数字经济产业研究院杭州中科睿鉴科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1