一种在大数据背景下的数据查询获取方法技术

技术编号:12419110 阅读:71 留言:0更新日期:2015-12-02 14:00
一种互联网内容数据查询获取方法和装置,该方法包括步骤:确定在大数据背景下对互联网内容的数据查询获取目标和计划;根据确定的数据查询获取目标和计划,获取待分析的互联网内容对象;查询、获取互联网内容中的有用内容;对所述实体进行计算和汇总,确定并分析验证所查询和获取的有用互联网内容的正确性;对上述结果进行进一步的测试,并对上述方法进行修正。该方法及其装置能够迎接互联网内容的大数据时代的挑战,充分利用互联网内容信息而更有效满足主体感兴趣的互联网内容深度挖掘需求,并且提高互联网内容数据查询获取以及挖掘分析的准确性、及时性、效率和速度。

【技术实现步骤摘要】

本专利技术涉及电数据信息处理领域,更具体而言,涉及一种在大数据背景下的数据 查询获取方法和装置。
技术介绍
随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的 中心,云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O性能、数据 安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V: Volume (大量),数据量持续快速增加 ;Velocity (高速),数据I/O速度更快;Variety (多 样),数据类型和来源多样化;Value (价值),其存在各方面的可用价值。 另外,得益于移动互联网的发展,互联网内容数据的规模极其迅速地增长。针对互 联网内容数据的研究也成为如今的热点,诸如在感兴趣的互联网内容中查询、挖掘和获取 期望的结果。更具体而言,在互联网内容数据中包含有媒体的信息传播倾向,以及日益庞大 的自媒体发布的信息的舆论倾向,对互联网内容数据中的互联网舆情进行查询、挖掘、分析 和获取,是众多主体感兴趣或者亟待获取的。虽然如今的在互联网大数据背景下的信息查 询获取以及挖掘分析的方法有很多,或多或少地能够利用该信息获得较为理想的效果。然 而这些方法不能很好地适应数据海量增长的需求,无法准确、及时、高效高速地对数据进行 处理。 为了能够迎接互联网内容的大数据时代的挑战,更为充分地利用互联网内容信 息,更有效满足主体感兴趣的互联网内容深度挖掘需求,并且提高互联网内容数据查询获 取以及挖掘分析的准确性、及时性、效率和速度,本领域中迫切需要一种能够有效解决上述 技术问题的互联网内容数据查询获取方法。
技术实现思路
本专利技术的目的之一是提供一种互联网内容数据查询获取方法及其装置,通过该方 法和执行该方法的装置,能够迎接互联网内容的大数据时代的挑战,充分利用互联网内容 信息而更有效满足主体感兴趣的互联网内容深度挖掘需求,并且提高互联网内容数据查询 获取以及挖掘分析的准确性、及时性、效率和速度。 本专利技术为解决上述技术问题而采取的技术方案为:一种互联网内容数据查询获取 方法,包括步骤:确定在大数据背景下对互联网内容的数据查询获取目标和计划;根据确 定的数据查询获取目标和计划,获取待分析的互联网内容对象;查询、获取互联网内容中的 有用内容;对所述实体进行计算和汇总,确定并分析验证所查询和获取的有用互联网内容 的正确性;对上述结果进行进一步的测试,并对上述方法进行修正。 根据本专利技术的另一个方面,其中查询、获取互联网内容中的有用内容包括以下步 骤:将互联网内容对象分成多个片段;选择不同的多个片段中的部分或全部;计算片段的 重要程度;对重要程度赋值,并根据该值而对片段进行排序;选择重要程度值靠前的一个 或多个片段;根据设定的撷取规则,从中撷取重要的实体。将互联网内容对象分成多个片 段、计算片段的重要程度可通过以下方式获取:每个片段的重要程度与它所在的位置、占用 的版面面积、字体大小和字形、显示的颜色的因素有关。计算片段的重要程度并对其赋值可 通过公式获取。 根据本专利技术的再一个方面,提供了一种执行上述方法中步骤的装置。【附图说明】 在附图中通过实例的方式而不是通过限制的方式来示出本专利技术的实施例,其中: 根据本专利技术的实施例,图1例示了一种在大数据背景下基于互联网内容的数据查 询获取方法的流程图。 根据本专利技术的实施例,图2图示了查询互联网内容中有用内容的流程图。【具体实施方式】 在下面的描述中,参考附图并以例示的方式示出几个具体的实施例。将理解的是: 可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此,以下详细描述不应被 认为具有限制意义。 根据本专利技术的实施例,图1例示了一种在大数据背景下基于互联网内容的数据查 询获取方法的流程图。 首先,本文所述的"有用"(互联网)内容,通常是指上述主体感兴趣的内容,或者 关注的内容,或者与上述主体感兴趣的、想要的、期望的、所需的和/或关注的内容有关和/ 或相关联的内容。必须特别指出的是:所谓的有用的内容对于一些主体来说可能是有用的, 但同一内容对于另一些主体来说是无用的。上述主体可以是个人,也可以是机构、组织或者 能够自动地、机械地、电学地或以其他方式执行数据处理的机器(如计算机、处理器、ASIC、 SoC)、机制、逻辑、虚拟装置、实体装置、部件、设备或者软件、程序等等。以上所列举的仅仅 是实例,并不代表将本文及其权利要求的范围限制为所述的实例。以下详细描述该方法的 步骤。 首先,在步骤Sl中,确定在大数据背景下对互联网内容的数据查询获取目标和计 划。因为不同的数据具有不同的特征、特性和/或属性,例如在互联网环境中,社交媒体的 大数据基于人与人之间的交互;军事新闻的大数据隐含或集中了军用武器或军事动向的数 据;社会新闻的大数据反映了舆论导向和包括自媒体发布人员的意识倾向;针对某一个国 家、地区或研究机构的技术新闻的大数据包含了其研究重点、人员和资金投入情况、产出效 率、可能应用范围以及对研究和应用领域的引领作用/影响,等等。针对这些上下文背景, 需要有针对不同互联网内容数据的查询获取要求和计划,从而可以增强大数据查询获取的 针对性和准确性,为之后的查询获取的准确性奠定坚实的基础。 其次,在步骤S2中,根据确定的数据查询获取目标和计划,获取待分析的互联网 内容对象。该互联网内容对象可以是包含互联网内容的任何事物,例如但不限于是具有可 识别字符的互联网图片、网页、网页图片等等。优选地,该互联网内容对象优选为网页或者 由网页保存的数据文本。 再次,在步骤S3中,查询、获取互联网内容中的有用内容。根据本专利技术的实施例, 图2图示了查询互联网内容中有用内容的流程图。具体而言,在上述步骤S3中,查询、获 取互联网内容中的有用内容包括以下步骤:S31,将互联网内容对象分成多个片段;S32,选 择不同的多个片段中的部分或全部;S33,计算片段的重要程度;S34,对重要程度赋值,并 根据该值而对片段进行排序;S35,选择重要程度值靠前的一个或多个片段;S36,根据设定 的撷取规则,从中撷取重要的实体。在上述步骤中,其中步骤S34中,例如可基于某一门槛 值来对重要程度赋值,诸如高于该门槛值的重要程度可以使用一定的准则来赋予大于零的 值,如果等于或低于该门槛值,则赋值为零。在步骤S35中,根据需要来选择重要程度值最 高的前N个片段,其中N是正整数。在步骤S36中,所述实体可以是字符、图片等。其中字 符可以是各种语言的文字、字母、单词、短语、长句、短句、数字等。更进一步地,如果有必要, 还可包括步骤S37,可根据需要,将重要的实体进行分解。步骤37具体为,将实体进一步分 解成多个元素,在多个元素之间加入诸如!、〇、#、Y、%、···、&、*、(、)、,、?、、\、/、 和任意阿拉伯数字之类的字符,从而继续执行一次步骤S36。这样做的目的当前第1页1 2 本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105117500.html" title="一种在大数据背景下的数据查询获取方法原文来自X技术">在大数据背景下的数据查询获取方法</a>

【技术保护点】
一种互联网内容数据查询获取方法,其特征在于包括以下步骤:S1:确定在大数据背景下对互联网内容的数据查询获取目标和计划;S2:根据确定的数据查询获取目标和计划,获取待分析的互联网内容对象;S3:查询、获取互联网内容中的有用内容;S4:对所述实体进行计算和汇总,确定并分析验证所查询和获取的有用互联网内容的正确性;以及S5:对上述结果进行进一步的测试,并对上述方法进行修正。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘洋李雪颖敬皓代林张永宏
申请(专利权)人:成都携恩科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1