大数据信息采集传输系统技术方案

技术编号:23932747 阅读:31 留言:0更新日期:2020-04-25 02:03
本发明专利技术公开了一种大数据信息采集传输系统,包括信息输入模块、数据检索模块、大数据模块、数据过滤模块、控制器、显示模块、存储模块、传输排列模块、规则库和数据传输模块;所述信息输入模块用于用户输入搜索信息,所述搜索信息为用户所需采集的信息,所述搜索信息包括搜索主题和搜索信息简介;所属信息输入模块用于将搜索信息传输到数据检索模块,所述数据检索模块与大数据模块通信联接;本发明专利技术通过相关检索规则,能够确定到核准目标信息,在确定核准目标信息之后通过传输排列模块结合数据传输模块,能够按照对应规则,确定核准目标信息的排列顺序,并按照一定的间隔时间将核准目标信息一一传输到显示模块进行实时显示。

Big data information collection and transmission system

【技术实现步骤摘要】
大数据信息采集传输系统
本专利技术属于信息采集领域,涉及一种信息采集传输系统,具体是大数据信息采集传输系统。
技术介绍
信息采集是指未出版的生产在信息资源方面做准备的工作,包括对信息的收集和处理;它是选题策划的直接基础和重要依据,信息采集工作最后一个步骤的延伸,成选题策划的开端。而在当前,人们都比较习惯从网络上进行信息采集,而网络信息采集是将非结构化信息从大量的网页中抽取出来保存到结构化的数据库中的过程。信息采集系统:信息采集系统以网络信息挖掘引擎为基础构建而成,它可以在最短的时间内,帮您把最新的信息从不同的Internet站点上采集下来,并在进行分类和统一格式后,第一时间之内把信息及时发布到自己的站点上去。从而提高信息及时性和节省或减少工作量。但是当前的信息采集经常出现的问题是无法采集到采集人需要的一些准确信息,这无疑使得采集人员需要做进一步地筛选工作,加大了工作人员的工作量;而为了解决这一问题,现提供一种解决方案。
技术实现思路
本专利技术的目的在于提供大数据信息采集传输系统。本专利技术所要解决的技术问题为:(1)如何准确的检索到采集信息人所需要的信息;(2)如何根据采集到的信息判断其对应的有效值;(3)如何对采集到的信息进行有序传输,从而便于观看。本专利技术的目的可以通过以下技术方案实现:大数据信息采集传输系统,包括信息输入模块、数据检索模块、大数据模块、数据过滤模块、控制器、显示模块、存储模块、传输排列模块、规则库和数据传输模块;其中,所述信息输入模块用于用户输入搜索信息,所述搜索信息为用户所需采集的信息,所述搜索信息包括搜索主题和搜索信息简介;所属信息输入模块用于将搜索信息传输到数据检索模块,所述数据检索模块与大数据模块通信联接;所述大数据模块与互联网实时连通,用于从互联网中获取信息;所述数据检索模块用于根据搜索信息从大数据模块获取待选目标信息,具体获取过程为:步骤一:获取到搜索信息内的搜索主题,根据搜索主题利用大数据模块检索到对应主题的所有信息并将其标记为初步信息,初步信息包括对应信息主题和信息内容;信息主题可为初步信息的标题;步骤二:获取到初步信息的信息内容,并获取到搜索信息内的搜索信息简介;步骤三:根据逐字逐句比对技术,比对出搜索信息简介与信息内容的重复率;步骤四:将重复率大于预设值X1的初步信息标记为待选信息,X1为预设值;步骤五:获取到待选信息的最后更新时间,并将待选信息和最后更新时间融合形成待选目标信息;所述数据检索模块用于将待选目标信息传输到数据过滤模块,所述数据过滤模块用于根据过滤规则对待选目标信息进行过滤,具体规则表现为:步骤一:将待选目标信息标记为Dxi,i=1...n;步骤二:获取到待选目标信息的信息主题,逐字逐句对信息主题和搜索主题进行比对,得到对应待选目标信息的信息主题与搜索主题的重复率,并将重复率标记为Ci,i=1...n;Ci与Dxi一一对应;步骤三:获取到待选目标信息的信息内容,对信息内容进行断句处理,以句号为界限,得到信息内容的总句数;步骤四:将待选目标信息的信息主题与信息内容进行比对,得到信息主题在信息内容中出现的次数,并将信息主题出现次数除以总句数得到切题率,将切题率标记为Qti,i=1...n;Qti与Dxi一一对应;步骤五:获取到待选目标信息内的最后更新时间,根据最后更新时间得到待选目标时间距当下的天数信息,并将该天数信息除以预设值X2得到时效度,X2≤10;将时效度标记为Si,i=1...n;Si与Dxi一一对应;步骤六:将搜索信息简介与待选目标信息的信息内容进行比对,得到搜索信息简介与信息内容的相似度,具体方法为:S1:对搜索信息简介均进行断句处理,即以句号为界限,划分为一句句的内容,得到若干句搜索语句;对信息内容进行断句处理,得到若干句信息语句;S2:将断句后的搜索语句进行分词处理,得到若干个关键词;S3:将若干个关键词与全部的信息语句进行比对,获取到关键词在信息语句中出现的个数,将出现的个数除以关键词综述得到出现占比;S4:当关键词在信息语句中的出现占比超过预设值X3时,即认为关键词对应的搜索语句与信息语句为重合;X3为预设值;S5:获取到搜索语句的总句数,并获取到与信息语句重合的搜索语句重合句数,将重合句数除以总句数得到内容重复比;将内容重复比标记为Cfi,i=1...n;步骤七:根据重复率Ci、切题率Qti、时效度Si和内容重复比Cfi,计算信息有效值,信息有效值用于衡量信息对搜索人的价值程度,具体计算过程为:S1:因为重复率Ci、切题率Qti、时效度Si和内容重复比Cfi对信息有效值影响不同,为了体现这一影响,现加入修正值;S2:对重复率Ci赋予修正值A1,对切题率Qti赋予修正值A2,对时效度Si赋予修正值A3,对内容重复比Cfi赋予修正值A4;且A1+A2+A3+A4=1,A2<A4<A1<A3;S3:根据公式Wi=Ci*A1+Qti*A2+Si*A3+Cfi*A4计算得到信息有效值Wi,i=1...n;且Wi与Dxi一一对应;步骤八:按照Wi值由大到小的顺序对Dxi进行排序,获取到前X4名的Dxi并将对应的Dxi标记为核准目标信息,若干个核准目标信息组成核准目标信息组;所述数据过滤模块用于将核准目标信息组和对应的信息有效值传输到传输排列模块,所述规则库内存储有信息传输规则;所述传输排列模块用于根据信息传输规则对核准目标信息组内的信息进行一一传输,信息传输规则表现为:A:将核准目标信息组内核准目标信息按照其对应的信息有效值由大到小的顺序进行排序;并对对应的信息有效值标记为W1i,i=1...n;B:设置基础间隔时间T,根据公式T1i=W1i*T计算得到间隔时间T1i,i=1...n;其中T11表示将最大信息有效值对应的核准目标信息传输到数据传输模块之后,经过T11时间再将第二大信息有效值对应的核准目标信息传输到数据传输模块,依此类推;C:将核准目标信息一一传输到数据传输模块。进一步地,所述数据传输模块接收传输排列模块传输的核准目标信息并将其传输到控制器;所述控制器用于将核准目标信息传输到显示模块进行实时显示,所述控制器用于将核准目标信息传输到存储模块进行实时存储。进一步地,所述信息输入模块还用于用户输入基础间隔时间T,所述信息输入模块用于将基础间隔时间T传输到规则库;所述规则库接收信息输入模块传输的基础间隔时间T并替换原有的基础间隔时间。本专利技术的有益效果:(1)本专利技术通过信息输入模块输入用户需要的搜索信息,之后根据搜索信息的搜索主题和搜索信息简介,获取到搜索信息内的搜索主题,根据搜索主题利用大数据模块检索到对应主题的所有信息并将其标记为初步信息,初步信息包括对应信息主题和信息内容;信息主题可为初步信息的标题;获取到初步信息的信息内容,并获取到搜本文档来自技高网...

【技术保护点】
1.大数据信息采集传输系统,其特征在于,包括信息输入模块、数据检索模块、大数据模块、数据过滤模块、控制器、显示模块、存储模块、传输排列模块、规则库和数据传输模块;/n其中,所述信息输入模块用于用户输入搜索信息,所述搜索信息为用户所需采集的信息,所述搜索信息包括搜索主题和搜索信息简介;所属信息输入模块用于将搜索信息传输到数据检索模块,所述数据检索模块与大数据模块通信联接;所述大数据模块与互联网实时连通,用于从互联网中获取信息;所述数据检索模块用于根据搜索信息从大数据模块获取待选目标信息,具体获取过程为:/n步骤一:获取到搜索信息内的搜索主题,根据搜索主题利用大数据模块检索到对应主题的所有信息并将其标记为初步信息,初步信息包括对应信息主题和信息内容;信息主题可为初步信息的标题;/n步骤二:获取到初步信息的信息内容,并获取到搜索信息内的搜索信息简介;/n步骤三:根据逐字逐句比对技术,比对出搜索信息简介与信息内容的重复率;/n步骤四:将重复率大于预设值X1的初步信息标记为待选信息,X1为预设值;/n步骤五:获取到待选信息的最后更新时间,并将待选信息和最后更新时间融合形成待选目标信息;/n所述数据检索模块用于将待选目标信息传输到数据过滤模块,所述数据过滤模块用于根据过滤规则对待选目标信息进行过滤,具体规则表现为:/n步骤一:将待选目标信息标记为Dxi,i=1...n;/n步骤二:获取到待选目标信息的信息主题,逐字逐句对信息主题和搜索主题进行比对,得到对应待选目标信息的信息主题与搜索主题的重复率,并将重复率标记为Ci,i=1...n;Ci与Dxi一一对应;/n步骤三:获取到待选目标信息的信息内容,对信息内容进行断句处理,以句号为界限,得到信息内容的总句数;/n步骤四:将待选目标信息的信息主题与信息内容进行比对,得到信息主题在信息内容中出现的次数,并将信息主题出现次数除以总句数得到切题率,将切题率标记为Qti,i=1...n;Qti与Dxi一一对应;/n步骤五:获取到待选目标信息内的最后更新时间,根据最后更新时间得到待选目标时间距当下的天数信息,并将该天数信息除以预设值X2得到时效度,X2≤10;将时效度标记为Si,i=1...n;Si与Dxi一一对应;/n步骤六:将搜索信息简介与待选目标信息的信息内容进行比对,得到搜索信息简介与信息内容的相似度,具体方法为:/nS1:对搜索信息简介均进行断句处理,即以句号为界限,划分为一句句的内容,得到若干句搜索语句;对信息内容进行断句处理,得到若干句信息语句;/nS2:将断句后的搜索语句进行分词处理,得到若干个关键词;/nS3:将若干个关键词与全部的信息语句进行比对,获取到关键词在信息语句中出现的个数,将出现的个数除以关键词综述得到出现占比;/nS4:当关键词在信息语句中的出现占比超过预设值X3时,即认为关键词对应的搜索语句与信息语句为重合;X3为预设值;/nS5:获取到搜索语句的总句数,并获取到与信息语句重合的搜索语句重合句数,将重合句数除以总句数得到内容重复比;将内容重复比标记为Cfi,i=1...n;/n步骤七:根据重复率Ci、切题率Qti、时效度Si和内容重复比Cfi,计算信息有效值,信息有效值用于衡量信息对搜索人的价值程度,具体计算过程为:/nS1:因为重复率Ci、切题率Qti、时效度Si和内容重复比Cfi对信息有效值影响不同,为了体现这一影响,现加入修正值;/nS2:对重复率Ci赋予修正值A1,对切题率Qti赋予修正值A2,对时效度Si赋予修正值A3,对内容重复比Cfi赋予修正值A4;且A1+A2+A3+A4=1,A2<A4<A1<A3;/nS3:根据公式Wi=Ci*A1+Qti*A2+Si*A3+Cfi*A4计算得到信息有效值Wi,i=1...n;且Wi与Dxi一一对应;/n步骤八:按照Wi值由大到小的顺序对Dxi进行排序,获取到前X4名的Dxi并将对应的Dxi标记为核准目标信息,若干个核准目标信息组成核准目标信息组;/n所述数据过滤模块用于将核准目标信息组和对应的信息有效值传输到传输排列模块,所述规则库内存储有信息传输规则;所述传输排列模块用于根据信息传输规则对核准目标信息组内的信息进行一一传输,信息传输规则表现为:/nA:将核准目标信息组内核准目标信息按照其对应的信息有效值由大到小的顺序进行排序;并对对应的信息有效值标记为W1i,i=1...n;/nB:设置基础间隔时间T,根据公式T1i=W1i*T计算得到间隔时间T1i,i=1...n;其中T11表示将最大信息有效值对应的核准目标信息传输到数据传输模块之后,经过T11时间再将第二大信息有效值对应的核准目标信息传输到数据传输模块,依此类推;/nC:将核准目标信息一一传输到数据传输模块。/n...

【技术特征摘要】
1.大数据信息采集传输系统,其特征在于,包括信息输入模块、数据检索模块、大数据模块、数据过滤模块、控制器、显示模块、存储模块、传输排列模块、规则库和数据传输模块;
其中,所述信息输入模块用于用户输入搜索信息,所述搜索信息为用户所需采集的信息,所述搜索信息包括搜索主题和搜索信息简介;所属信息输入模块用于将搜索信息传输到数据检索模块,所述数据检索模块与大数据模块通信联接;所述大数据模块与互联网实时连通,用于从互联网中获取信息;所述数据检索模块用于根据搜索信息从大数据模块获取待选目标信息,具体获取过程为:
步骤一:获取到搜索信息内的搜索主题,根据搜索主题利用大数据模块检索到对应主题的所有信息并将其标记为初步信息,初步信息包括对应信息主题和信息内容;信息主题可为初步信息的标题;
步骤二:获取到初步信息的信息内容,并获取到搜索信息内的搜索信息简介;
步骤三:根据逐字逐句比对技术,比对出搜索信息简介与信息内容的重复率;
步骤四:将重复率大于预设值X1的初步信息标记为待选信息,X1为预设值;
步骤五:获取到待选信息的最后更新时间,并将待选信息和最后更新时间融合形成待选目标信息;
所述数据检索模块用于将待选目标信息传输到数据过滤模块,所述数据过滤模块用于根据过滤规则对待选目标信息进行过滤,具体规则表现为:
步骤一:将待选目标信息标记为Dxi,i=1...n;
步骤二:获取到待选目标信息的信息主题,逐字逐句对信息主题和搜索主题进行比对,得到对应待选目标信息的信息主题与搜索主题的重复率,并将重复率标记为Ci,i=1...n;Ci与Dxi一一对应;
步骤三:获取到待选目标信息的信息内容,对信息内容进行断句处理,以句号为界限,得到信息内容的总句数;
步骤四:将待选目标信息的信息主题与信息内容进行比对,得到信息主题在信息内容中出现的次数,并将信息主题出现次数除以总句数得到切题率,将切题率标记为Qti,i=1...n;Qti与Dxi一一对应;
步骤五:获取到待选目标信息内的最后更新时间,根据最后更新时间得到待选目标时间距当下的天数信息,并将该天数信息除以预设值X2得到时效度,X2≤10;将时效度标记为Si,i=1...n;Si与Dxi一一对应;
步骤六:将搜索信息简介与待选目标信息的信息内容进行比对,得到搜索信息简介与信息内容的相似度,具体方法为:
S1:对搜索信息简介均进行断句处理,即以句号为界限,划分为一句句的内容,得到若干句搜索语句;对信息内容进行断句处理,得到若干句信息语句;
S2:将断句后的搜索语句进行分词处理,得到若干个关键词;
S3:将若干个关键词与全部的信息语句进行比对,获...

【专利技术属性】
技术研发人员:任伟蔡军杰陆琴亚
申请(专利权)人:杭州桐硕教育科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1