一种针对证券行业的实时垂直搜索引擎的搜索方法技术

技术编号:10053860 阅读:147 留言:0更新日期:2014-05-16 02:34
本发明专利技术涉及一种针对证券行业的实时垂直搜索引擎的搜索方法,包括有:首先服务器高频定向抓取新闻网页,接着对抓取的新闻网页的新闻内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性,以及该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,系统将根据多项参数计算搜索结果的权值并排序显示。这样,即可实现搜索引擎信息与信息源头的被动同步,解决了采用传统搜索方法的通用搜索引擎的时效性差、信息重复的问题,且本方法仅针对互联网具有行业代表性的财经新闻发布源头进行定向采集,效率高,搜索结果更及时、更精准;另外,本发明专利技术结合舆情分析技术,搜索结果可采用多种方式排序,显示效果更具人性化。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及,包括有:首先服务器高频定向抓取新闻网页,接着对抓取的新闻网页的新闻内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性,以及该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,系统将根据多项参数计算搜索结果的权值并排序显示。这样,即可实现搜索引擎信息与信息源头的被动同步,解决了采用传统搜索方法的通用搜索引擎的时效性差、信息重复的问题,且本方法仅针对互联网具有行业代表性的财经新闻发布源头进行定向采集,效率高,搜索结果更及时、更精准;另外,本专利技术结合舆情分析技术,搜索结果可采用多种方式排序,显示效果更具人性化。【专利说明】
本专利技术涉及互联网搜索引擎
,尤其涉及。
技术介绍
目前,互联网上的主流搜索引擎覆盖率高、数据量大,但由于多种技术原因,对时间敏感度极高的证券行业信息搜索无法具备时效性、同步性。虽然目前也有几款号称面向证券行业的垂直搜索引擎,但目前这几款搜索引擎仅仅是某门户网站的站内搜索,远没达到行业搜索的条件。而一些财经新闻的聚合网站,又不具备标准的搜索引擎功能。证券行业对新闻资讯的时效性要求极高,比如若A网站发布了一则有关B上市公司的财经新闻,一般的通用搜索引擎至少要延迟10分钟甚至数天,才能把这条新闻索引至搜索结果,这样对想了解B公司最新情况的投资者来说就不具备实用意义了。另一方面,证券行业对新闻资讯也有一定的舆情分析需求,由于证券投资行为具有“羊群效应”,对公众影响力较大、传播较广的新闻资讯,往往会对相关投资品种的价格造成更大的波动;而传播范围小,消息呈中性的新闻资讯,则难以对相关投资品种的价格造成波动。针对证券行业来说,现有的搜索引擎技术的缺点: 一方面是信息索引的滞后严重影响了搜索引擎的实用性、时效性; 二是相同的新闻常常会转发在多个网站,但目前的通用搜索引擎技术未把类似文章过滤,经常导致相同的信息被多次索引,并多次显示内容相同、网址不同的搜索结果,严重影响用户体验; 三是目前搜索引擎技术的新闻搜索只能根据时间或关键词相关性排序,未能通过舆情分析技术,为某条新闻资讯设定一个影响力的评估值,从而很可能让用户错过一些对上市公司影响深远的新闻消息或公告,或导致用户被大量无关紧要的消息影响对投资品种的调研和判断。
技术实现思路
为解决现有技术中存在的上述问题,本专利技术结合网络舆情分析技术,提供了一种专门针对证券行业的时效性高、无重复,并可对抓取新闻网页内容进行关键字相关性和新闻影响力计算,且搜索结果可根据需要进行多种显示排序方式的实时垂直搜索方法。为解决上述技术问题,本专利技术采用如下技术方案: ,包括有:首先通过服务器高频定向抓取新闻网页,接着对抓取的新闻网页内容进行格式化处理,然后对格式化后的新闻内容与相关关键字的相关性和/或该新闻内容对公众的影响力进行评估计算,最后存入数据库,用户搜索数据时,服务器将根据多项参数计算搜索结果的权值并排序显示。进一步地,本搜索方法包括有以下步骤:S1.通过服务器高频定向抓取新闻网页的URL; 52.根据抓取新闻网页的URL判断是否已抓取过; 53.对抓取的新闻网页的新闻内容进行格式化处理,将来自各个网站的新闻内容格式化成统一的格式和呈现方式; 54.对格式化后的新闻内容与相关关键字的相关性进行计算; 55.对格式化后的新闻内容对公众的影响力进行评估计算; 56.将有关新闻内容的关键字相关性数值、新闻内容的影响力数值存入数据库,用户搜索数据时,查询服务器将根据相关关键字的相关性数值、相关新闻内容的影响力数值、以及相关新闻内容的发布时间计算搜索结果的权值并排序显示。进一步地,所述对格式化后的新闻内容与相关关键字的相关性进行计算,具体为:首先在格式化后的新闻内容中查找事先已设定好的、证券行业内搜索频率较高的专有词汇,若该新闻内容有出现这些词汇,则将这些词汇作为该新闻内容的关键字,并为各个关键字设定一个相关性初始值,然后分析各个关键字在该新闻内容中出现的位置、形式状态、出现次数,根据预先设定好各个位置、形式状态、出现次数对应的加成值进行相应加成,计算出各个关键字的相关性基础值;最后将各个关键字的相关性基础值在所有关键字的相关性基础值之和中的占比,得到各个关键字的相关性数值。进一步地,所述对格式化后的新闻内容对公众的影响力进行评估计算,具体为:首先根据定向抓取新闻网页的网站的周平均访问流量,预先设定好各个网站对应的影响力基准数值,且所抓取新闻网页的新闻内容的`影响力数值为该网站的影响力基准数值,若抓取同一新闻内容在多个网站发布,则该新闻内容的影响力数值为其在各抓取网站所对应的影响力数值之和。进一步地,在所述对格式化后的新闻内容对公众的影响力进行评估计算过程中,当抓取新闻网页的新闻内容的主题是预先设定好有加成值的特定主题时,所述抓取新闻网页的新闻内容的影响力数值为其发布网站的影响力基准数值加成该特定主题对应的加成值。进一步地,所述通过服务器高频定向抓取新闻网页,具体为:首先设置包括财经网站、证监会指定的上市公司公告发布网站、财经报章杂志媒体网站、证据研究机构网站在内的多个财经网站作为信息源头,然后通过服务器对这些财经网站进行实时高频抓取,以获得最新发布的新闻网页的URL。进一步地,所述供用户通过查询服务器进行搜索、排序显示,具体为:当用户需要搜索某关键字的新闻时,查询服务器将会从新闻索引数据库中找出相关新闻作为搜索结果以时间排列方式、相关性-影响力排列方式、或时间-相关性-影响力排列方式排序显示。进一步地,所述搜索结果以时间排列方式、相关性-影响力排列方式或时间-相关性-影响力排列方式中搜索结果的相关性-影响力排列方式,具体为:首先于数据库查询所有包含用户所搜索的关键字的新闻内容,根据每一篇新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,得出搜索结果中每一新闻内容的排名权重,并设定一个相关性和影响力的阀值,过滤掉相关性数值和影响力数值都较低的搜索结果,最后按照排名权重从高至低进行排列显示; 所述时间-相关性-影响力排列方式,具体为:把时间作为一个具有线性特征的参数加入到相关性-影响力搜索结果的权重排名计算中,让“最近一段时间内”影响力高的新闻排列靠前,即根据每一新闻内容与用户所搜索的关键字的相关性数值和该新闻内容的影响力数值相乘,再乘以每一新闻的发布时间对应的加成值,得出搜索结果中每一新闻内容的排名权重,最后按排名权重从高至低进行排列显示。进一步地,在所述根据抓取新闻网页的URL判断是否已抓取后,将新URL保存至待抓取新闻列表数据库,并多线程对所述新闻网页的新闻内容进行抓取。进一步地,本搜索方法还包括步骤:对抓取的格式化处理后的新闻内容从标题、日期、关键字频率、关键字分布情况、新闻摘要、文章字数等多方面特征与数据库中的已有新闻内容进行对比,经过对比如果数据库中没有新闻内容与之类似则归类为“首发”,将该新闻内容及其相关性数值和影响力数值写入到新闻索引表数据库中;如果发现本新闻内容已经存在于数据库或与新闻索引表数据库中某篇新闻内容极为相似,则归类为“转载”,将该新闻内容及其相关性数值写入到类似新闻索引表数据库中,同时将该“转载”的新闻内容的影响力数值叠加到新本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:黄拓
申请(专利权)人:珠海富讯网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1