一种基于符号特征的数据检索方法及设备技术

技术编号:35345365 阅读:13 留言:0更新日期:2022-10-26 12:10
本申请提供了一种基于符号特征的数据检索方法及设备,该方法包括以下步骤:通过文件解析器将采集到的网页源文件解析成DOM树;通过剪枝器对所述DOM树进行过滤,并得到主题树;通过分析提取器从所述主题树中提取正文部分;通过主题清洗器从所述正文部分提取包含主题内容的文件。在上述技术方案中,通过对网页结构的研究,对网页在生成树模型方面进行了改进,找到网页其结构的通用规则,提出一种基于符号特征的提取方式,结合搜索的相关度对网页主题的内容进行获取。实验结果得出,此算法具有一定的通用性和准确性。有一定的通用性和准确性。有一定的通用性和准确性。

【技术实现步骤摘要】
一种基于符号特征的数据检索方法及设备


[0001]本说明书一个或多个实施例涉及软件
,尤其涉及一种基于符号特征的数据检索方法及设备。

技术介绍

[0002]伴随着互联网的急速发展、广泛使用,网页上的大数据文本挖掘,尤其是网页中关键信息的获取带来了更大的挑战,现今的提取方法在保证高准确率的情况下,无法达到挖掘的通用性。
[0003]现今广泛采用到的统计信息的检索研究方式也大致上有以下两类:基于统计信息的检索方法和基于统计知识检索的研究方法、基于信息统计知识的检索方法主要是通过利用数据检索的目标变量数据本身特征以及在检索的目标对象数据中所涉及到的和其他的各种信息统计知识数据指标特征以进一步地解释出了在它们数据之间所具有着的各种数据的关联;基于知识库进行检索的基本方法之一是它要求用户将被引用对象在其知识库表中包含的各种有关的信息进行直接地进行分类查找并自动检索出相关的变量,从而就能够通过搜索来获取识别出具备或有某些特定的匹配变量特性相关的信息。
[0004]基于统计的方法在信息检索中的应用相当普遍,从简单的文本搜索到信息挖掘都能发现它的踪影,为了优化检索结果,部分研究引入遗传、神经网络等算法。实际上,基于知识的方法是在基于统计方法的基础上发展起来的,较为典型的研究为基于内容的检索,尤其在计算机图像和视频等领域,基于内容的检索吸引了大批研究者,其目的是提取对象的特征,并附以识别特征的知识库结构,MarkCraVen,Bruandat MF等提出了一些能够有效检索信息的知识库结构,并将其应用于特定的实体。在CAD领域,一些研究关注图形的特征识别,Jong将基于内容的检索方法引入到CAD领域,利用图形特征描述实现CAD图形检索。另外一些方法是利用文本描述产品特征,以及引入简单的文本检索方法实现产品的检索。

技术实现思路

[0005]有鉴于此,本说明书一个或多个实施例的目的在于提一种基于符号特征的数据检索方法及设备,用以改善代码溯源分析的效果。
[0006]第一方面,提供了一种基于符号特征的数据检索方法,该基于符号特征的数据检索方法包括以下步骤:
[0007]通过文件解析器将采集到的网页源文件解析成DOM树;
[0008]通过剪枝器对所述DOM树进行过滤,并得到主题树;
[0009]通过分析提取器从所述主题树中提取正文部分;
[0010]通过主题清洗器从所述正文部分提取包含主题内容的文件。
[0011]在上述技术方案中,通过对网页结构的研究,对网页在生成树模型方面进行了改进,找到网页其结构的通用规则,提出一种基于符号特征的提取方式CECS(contentextractioncharacteristicsymbols),结合搜索的相关度对网页主题的内容进行获取。实验结果
得出,此算法具有一定的通用性和准确性。无论是普通用户还是专业技术人员都希望能有效地利用Internet上的海量信息合理地组织这些信息,以及如何建立一种合理有效的信息搜索的方式来以更便于用户快速获取更准确有效的信息资讯。
[0012]在一个具体的可实施方案中,所述通过剪枝器对所述DOM树进行过滤,并得到主题树;具体包括:
[0013]通过所述剪枝器对所述DOM树中与提取正文主题不相关的标签过滤掉,得到所述主题树。
[0014]在一个具体的可实施方案中,所述通过所述剪枝器对所述DOM树中与提取正文主题不相关的标签过滤掉,具体包括:
[0015]剔除不包含在<body>标签内的全部内容;
[0016]保留顶层<div>、<table>标签及其内部内容,剔除其余内容;
[0017]去除网页的注释信息内容;
[0018]去除控制文件交互性和显示的标签;
[0019]去除不是文本节点且没有子节点的节点。
[0020]在一个具体的可实施方案中,所述通过分析提取器从所述主题树中提取正文部分;具体为:
[0021]根据分块节点将网页分割成小的信息块;
[0022]根据信息块内连接个数和句号的个数确定信息块与主题之间的相关度;
[0023]根据所述信息块与主题之间的相关度提取所述正文部分。
[0024]在一个具体的可实施方案中,所述通过主题清洗器从所述正文部分提取包含主题内容的文件,具体包括:
[0025]去除掉所述正文部分中与主题内容不相关的多余字符或标签。
[0026]在一个具体的可实施方案中,所述与主题内容不相关的多余字符或标签;具体包括:
[0027]多余的链接、多余的换行符、多余的空格符、多余的加粗符、多余的span标签、多余的font标签中至少一种字符或标签。
[0028]第二方面,提供了一种基于符号特征的数据检索设备,该数据检索设备包括:
[0029]文件解析器,用于将采集到的网页源文件解析成DOM树;
[0030]剪枝器,用于对所述DOM树进行过滤,并得到主题树;
[0031]分析提取器,用于从所述主题树中提取正文部分;
[0032]主题清洗器,用于从所述正文部分提取包含主题内容的文件。
[0033]在上述技术方案中,通过对网页结构的研究,对网页在生成树模型方面进行了改进,找到网页其结构的通用规则,提出一种基于符号特征的提取方式CECS(contentextractioncharacteristicsymbols),结合搜索的相关度对网页主题的内容进行获取。实验结果得出,此算法具有一定的通用性和准确性。无论是普通用户还是专业技术人员都希望能有效地利用Internet上的海量信息合理地组织这些信息,以及如何建立一种合理有效的信息搜索的方式来以更便于用户快速获取更准确有效的信息资讯,这一直是企业信息资源管理学领域研究中一个备受广泛重视关注的重要研究方向。
[0034]在一个具体的可实施方案中,
[0035]所述剪枝器具体用于对所述DOM树中与提取正文主题不相关的标签过滤掉,得到所述主题树。
[0036]在一个具体的可实施方案中,所述分析提取器,具体用于根据分块节点将网页分割成小的信息块;根据信息块内连接个数和句号的个数确定信息块与主题之间的相关度;根据所述信息块与主题之间的相关度提取所述正文部分。
[0037]第三方面,提供了一种电子设备,该电子设备包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及第一方面的任一所述的基于符号特征的数据检索方法。
[0038]第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及第一方面的任一所述的基于符号特征的数据检索方法。
[0039]第五方面,提供了一种非暂态计算机可读存储介质,所述非暂态计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于符号特征的数据检索方法,其特征在于,包括以下步骤:通过文件解析器将采集到的网页源文件解析成DOM树;通过剪枝器对所述DOM树进行过滤,并得到主题树;通过分析提取器从所述主题树中提取正文部分;通过主题清洗器从所述正文部分提取包含主题内容的文件。2.根据权利要求1所述的基于符号特征的数据检索方法,其特征在于,所述通过剪枝器对所述DOM树进行过滤,并得到主题树;具体包括:通过所述剪枝器对所述DOM树中与提取正文主题不相关的标签过滤掉,得到所述主题树。3.根据权利要求2所述的基于符号特征的数据检索方法,其特征在于,所述通过所述剪枝器对所述DOM树中与提取正文主题不相关的标签过滤掉,具体包括:剔除不包含在<body>标签内的全部内容;保留顶层<div>、<table>标签及其内部内容,剔除其余内容;去除网页的注释信息内容;去除控制文件交互性和显示的标签;去除不是文本节点且没有子节点的节点。4.根据权利要求3所述的基于符号特征的数据检索方法,其特征在于,所述通过分析提取器从所述主题树中提取正文部分;具体为:根据分块节点将网页分割成小的信息块;根据信息块内连接个数和句号的个数确定信息块与主题之间的相关度;根据所述信息块与主题之间的相关度提取所述正文部分。5.根据权利要求1~4任一项所述的基于符号特征的数据检索方法,其特征在于,所述通过主题清洗器从所述正文部分提取包含主题内容的文件,具体包括:去除掉所述正文部分中与...

【专利技术属性】
技术研发人员:赵亚舟张世通史文强
申请(专利权)人:北京关键科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1