一种基于符号特征的数据检索方法及设备技术

技术编号：35345365 阅读：13 留言：0更新日期：2022-10-26 12:10

本申请提供了一种基于符号特征的数据检索方法及设备，该方法包括以下步骤：通过文件解析器将采集到的网页源文件解析成DOM树；通过剪枝器对所述DOM树进行过滤，并得到主题树；通过分析提取器从所述主题树中提取正文部分；通过主题清洗器从所述正文部分提取包含主题内容的文件。在上述技术方案中，通过对网页结构的研究，对网页在生成树模型方面进行了改进，找到网页其结构的通用规则，提出一种基于符号特征的提取方式，结合搜索的相关度对网页主题的内容进行获取。实验结果得出，此算法具有一定的通用性和准确性。有一定的通用性和准确性。有一定的通用性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于符号特征的数据检索方法及设备

[0001]本说明书一个或多个实施例涉及软件
，尤其涉及一种基于符号特征的数据检索方法及设备。

技术介绍

[0002]伴随着互联网的急速发展、广泛使用，网页上的大数据文本挖掘，尤其是网页中关键信息的获取带来了更大的挑战，现今的提取方法在保证高准确率的情况下，无法达到挖掘的通用性。
[0003]现今广泛采用到的统计信息的检索研究方式也大致上有以下两类：基于统计信息的检索方法和基于统计知识检索的研究方法、基于信息统计知识的检索方法主要是通过利用数据检索的目标变量数据本身特征以及在检索的目标对象数据中所涉及到的和其他的各种信息统计知识数据指标特征以进一步地解释出了在它们数据之间所具有着的各种数据的关联；基于知识库进行检索的基本方法之一是它要求用户将被引用对象在其知识库表中包含的各种有关的信息进行直接地进行分类查找并自动检索出相关的变量，从而就能够通过搜索来获取识别出具备或有某些特定的匹配变量特性相关的信息。
[0004]基于统计的方法在信息检索中的应用相当普遍，从简单的文本搜索到信息挖掘都能发现它的踪影，为了优化检索结果，部分研究引入遗传、神经网络等算法。实际上，基于知识的方法是在基于统计方法的基础上发展起来的，较为典型的研究为基于内容的检索，尤其在计算机图像和视频等领域，基于内容的检索吸引了大批研究者，其目的是提取对象的特征，并附以识别特征的知识库结构，MarkCraVen，Bruandat MF等提出了一些能够有效检索信息的知识库结构，并将其应用于特定的实体。...

【技术保护点】

【技术特征摘要】
1.一种基于符号特征的数据检索方法，其特征在于，包括以下步骤：通过文件解析器将采集到的网页源文件解析成DOM树；通过剪枝器对所述DOM树进行过滤，并得到主题树；通过分析提取器从所述主题树中提取正文部分；通过主题清洗器从所述正文部分提取包含主题内容的文件。2.根据权利要求1所述的基于符号特征的数据检索方法，其特征在于，所述通过剪枝器对所述DOM树进行过滤，并得到主题树；具体包括：通过所述剪枝器对所述DOM树中与提取正文主题不相关的标签过滤掉，得到所述主题树。3.根据权利要求2所述的基于符号特征的数据检索方法，其特征在于，所述通过所述剪枝器对所述DOM树中与提取正文主题不相关的标签过滤掉，具体包括：剔除不包含在<body>标签内的全部内容；保留顶层<div>、<table>标签及其内部内容，剔除其余内容；去除网页的注释信息内容；去除控制文件交互性和显示的标签；去除不是文本节点且没有子节点的节点。4.根据权利要求3所述的基于符号特征的数据检索方法，其特征在于，所述通过分析提取器从所述主题树中提取正文部分；具体为：根据分块节点将网页分割成小的信息块；根据信息块内连接个数和句号的个数确定信息块与主题之间的相关度；根据所述信息块与主题之间的相关度提取所述正文部分。5.根据权利要求1～4任一项所述的基于符号特征的数据检索方法，其特征在于，所述通过主题清洗器从所述正文部分提取包含主题内容的文件，具体包括：去除掉所述正文部分中与...

【专利技术属性】
技术研发人员：赵亚舟，张世通，史文强，
申请(专利权)人：北京关键科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人