【技术实现步骤摘要】
一种基于互联网金融信息的热点挖掘方法及系统
本专利技术涉及数据挖掘领域,特别是指一种基于互联网金融信息的热点挖掘方法及系统。
技术介绍
当今金融正处于信息化的时代,金融数据越来越丰富,如何有效分析金融数据,充分发挥金融数据的商业价值,正是金融业迫切需要解决的问题。方兴未艾的数据挖掘技术,正是用于解决大规模数据的处理和有效利用的问题。数据挖掘是指从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的、潜在有用的信息。这些被揭示出的有用的信息,可以为决策、市场策划和金融预测等方面提供依据。网络信息资源是一种数字化资源,与非网络信息资源相比有其独特的特点:1)数量庞大、增长迅速:互联网是一个集各种信息资源为一体的资源网,由于政府、机构、企业、个人随时都可以在网上发布信息,因此网络资源增长迅速,成为无所不有的庞杂信息源,并具有跨区域、分布广、多语种、高度共享的特点,因此金融领域的热点信息往往蕴含其中;2)内容丰富、覆盖面广:网络信息资源几乎是无所不包,而且类型丰富多样,覆盖了不同学科、不同领域、不同地区、不同语言的信息,在形式上包括文本、图像、声音、软件、数据库 ...
【技术保护点】
1.一种基于互联网金融信息的热点挖掘方法,其特征在于,包括:从网络上抓取财经新闻;提取每篇新闻的特征向量;根据提取的特征向量进行聚类,得到多个新闻簇,其中,每个新闻簇对应一个热点;对每个新闻簇中的所有标题进行重要程度排序,并获取重要程度最高的标题来描述相应新闻簇中的热点话题。
【技术特征摘要】
1.一种基于互联网金融信息的热点挖掘方法,其特征在于,包括:从网络上抓取财经新闻;提取每篇新闻的特征向量;根据提取的特征向量进行聚类,得到多个新闻簇,其中,每个新闻簇对应一个热点;对每个新闻簇中的所有标题进行重要程度排序,并获取重要程度最高的标题来描述相应新闻簇中的热点话题。2.根据权利要求1所述的基于互联网金融信息的热点挖掘方法,其特征在于,所述从网络上抓取财经新闻包括:通过聚焦网络爬虫,从网络上抓取与预先定义的财经主题相关的网络页面。3.根据权利要求1所述的基于互联网金融信息的热点挖掘方法,其特征在于,在提取每篇新闻的特征向量之前,所述方法还包括:对每篇新闻内容使用结巴分词法进行分词和词性筛选。4.根据权利要求3所述的基于互联网金融信息的热点挖掘方法,其特征在于,所述对每篇新闻内容使用结巴分词法进行分词和词性筛选包括:对新闻内容进行清洗,其中,清洗包括:去重、时间段过滤;基于预先构建的用户词词典,对清洗后的新闻内容文本进行结巴分词并进行词性标注;基于预先构建的停用词词典、消除歧义词词典和保留单字词典,过滤掉对话题无关且不影响聚类准确性的词,筛选出具备目标词性的词,其中,所述目标词性包括:名词、动词和简称词性。5.根据权利要求3所述的基于互联网金融信息的热点挖掘方法,其特征在于,所述提取每篇新闻的特征向量包括:根据词性筛选结果,通过词频-逆文本频率算法提取每篇新闻的特征向量。6.根据权利要求1所述的基于互联网金融信息的热点挖掘方法,其特征在于,所述提取每篇新闻的特征向量包括:根据提取的特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。