噪声文档的筛除方法及计算机可读存储介质技术

技术编号:24331632 阅读:16 留言:0更新日期:2020-05-29 19:52
本发明专利技术公开了一种噪声文档的筛除方法及计算机可读存储介质,方法包括:根据种子词集合,检索得到原始语料;从原始语料中提取有效文本;对有效文本进行分句,并进行数据清洗;获取共现句中的重点词语,得到关键词集合;根据种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;分别计算相关类关键词表中的各相关词语在有效文本中作为重点句法成分的出现比例,得到各相关词语的关键词权重;分别计算各无关词语的关键词权重;获取有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算有效文本的得分;若得分小于预设的阈值,则判定为噪声文本。本发明专利技术可剔除无关文本,提高搜索结果语料质量。

Filtering method of noisy documents and computer readable storage medium

【技术实现步骤摘要】
噪声文档的筛除方法及计算机可读存储介质
本专利技术涉及数据处理
,尤其涉及一种噪声文档的筛除方法及计算机可读存储介质。
技术介绍
随着网络数据的快速膨胀增长,数据搜索是人们从海量数据中提取所需信息的关键途径。通过有效的设置搜索条件、关键字段可以获取到所关注事物事件的新闻、评论等相关知识。同时各个闭环大数据中心的建立也普遍需要脱离互联网环境的数据搜索服务。基于语义信息的精确数据搜索可以帮助人们在本地环境下获取到所需的信息,在保证数据闭环需求的同时提供高质量的搜索结果,为数据治理提供便利。现有技术对数据库检索内容优化主要分为两个方向,一是线上优化,主要基于网页链接的拓扑结构,如PageRank等;二是脱机数据搜索结果优化,其往往依靠机器学习方法进行标记训练,将数据分为相关与噪声两类样本,利用支持向量机或贝叶斯等方法进行训练分类。但线上算法依赖于内容之间的链接及互联网用户的浏览轨迹,这在脱机数据库中均是不存在或无法获取的特征信息;机器学习方法训练分类主要存在耗费人力大、泛化性能差的特点。组织人员或要求搜索者自身在搜索数据前进行标注都会降低数据库搜索频率,使得人机效率下降。
技术实现思路
本专利技术所要解决的技术问题是:提供一种噪声文档的筛除方法及计算机可读存储介质,可有效剔除搜索结果中与目标无关的噪声语料,保留与搜索目标相关的语料。为了解决上述技术问题,本专利技术采用的技术方案为:一种噪声文档的筛除方法,包括:根据预设的种子词集合,检索得到原始语料;根据所述原始语料的格式,从所述原始语料中提取有效文本;对所述有效文本进行分句,并对所述有效文本进行数据清洗;对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;从所述有效文本的各分句中获取包含至少一个种子词的共现句;根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;根据预设的无关类高频词集合,得到无关类关键词表;分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。本专利技术还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的步骤。本专利技术的有益效果在于:通过进行数据清洗,去除字符级的噪声信息和语义较少或残缺的语段;通过对有效文本进行分句、分词,便于后续对各分句的分析以及各词语的匹配;通过在共现句中获取重点词语,保证重点词语的相关性;通过合并种子词集合、关键词集合和预设的相关类高频词集合,得到的相关类关键词表可以形成一组基本覆盖事件的相关词语;通过计算相关词语和无关词语在有效文本中作为重点句法成分的出现比例,得到相关词语和无关词语的关键词权重,使得权重的评估是对不同位置的打分,部分位置较高,其他位置较低或为零;通过根据有效文本命中的相关词语和无关词语的数量及其关键词权重,计算有效文本的得分,最后根据得分来判定是否为噪声文本。本专利技术可用于解决数据库按种子词搜索中搜索结果差,噪声语料多的问题;通过语义扩充关键词表,从而得以对粗搜索数据进行筛选,剔除无关文本,提高搜索结果语料质量,为数据中心管理数据提供便捷。附图说明图1为本专利技术的一种噪声文档的筛除方法流程图;图2为本专利技术实施例一的方法流程图。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图详予说明。本专利技术最关键的构思在于:基于种子词,并结合词性信息及句法信息两维语义特征及特征权重提取出更多的关键词;根据相关样本和无关样本,提取相关类高频词和无关类高频词;将相关词语和无关词语作为重点句法成分的出现比例作为其对应的关键词权重;根据文本命中的相关词语和无关词语及其关键词权重,计算文本得分,并根据得分判定文本类型。请参阅图1,一种噪声文档的筛除方法,包括:根据预设的种子词集合,检索得到原始语料;根据所述原始语料的格式,从所述原始语料中提取有效文本;对所述有效文本进行分句,并对所述有效文本进行数据清洗;对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;从所述有效文本的各分句中获取包含至少一个种子词的共现句;根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;根据预设的无关类高频词集合,得到无关类关键词表;分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。从上述描述可知,本专利技术的有益效果在于:可用于解决数据库按种子词搜索中搜索结果差,噪声语料多的问题。进一步地,所述若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本之后,进一步包括:删除噪声文本。从上述描述可知,通过删除搜索结果中的噪声文本,提高搜索结果的准确性。进一步地,所述对所述有效文本进行分句,并对所述有效文本进行数据清洗具体为:根据预设的断句符,对所述有效文本进行分句;根据预设的字符黑名单,对所述有效文本中的字符进行过滤,所述字符黑名单包括英文符号、英文字母和断句符以外的中文符号;根据预设的语段长度,对所述有效文本中的分句进行过滤。由上述描述可知,可过滤有效文本中字符级的噪声信息,同时可过滤语义较少或缺失的语段。进一步地,所述根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合具体为:若所述共现句中的一词语的词性属于预设的重点词性且所述一词语的句法成分属于预设的重点句法成分,则将所述一词语作为重点词语;获取各共现句中的重点词语,得到关键词集合。进本文档来自技高网
...

【技术保护点】
1.一种噪声文档的筛除方法,其特征在于,包括:/n根据预设的种子词集合,检索得到原始语料;/n根据所述原始语料的格式,从所述原始语料中提取有效文本;/n对所述有效文本进行分句,并对所述有效文本进行数据清洗;/n对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;/n从所述有效文本的各分句中获取包含至少一个种子词的共现句;/n根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;/n根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;/n分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;/n根据预设的无关类高频词集合,得到无关类关键词表;/n分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;/n根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;/n若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。/n...

【技术特征摘要】
1.一种噪声文档的筛除方法,其特征在于,包括:
根据预设的种子词集合,检索得到原始语料;
根据所述原始语料的格式,从所述原始语料中提取有效文本;
对所述有效文本进行分句,并对所述有效文本进行数据清洗;
对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;
从所述有效文本的各分句中获取包含至少一个种子词的共现句;
根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;
根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;
分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;
根据预设的无关类高频词集合,得到无关类关键词表;
分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;
根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;
若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。


2.根据权利要求1所述的噪声文档的筛除方法,其特征在于,所述若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本之后,进一步包括:
删除噪声文本。


3.根据权利要求1所述的噪声文档的筛除方法,其特征在于,所述对所述有效文本进行分句,并对所述有效文本进行数据清洗具体为:
根据预设的断句符,对所述有效文本进行分句;
根据预设的字符黑名单,对所述有效文本中的字符进行过滤,所述字符黑名单包括英文符号、英文字母和断句符以外的中文符号;
根据预设的语段长度,对所述有效文本中的分句进行过滤。


4.根据权利要求1所述的噪声文档的筛除方法,其特征在于,所述根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合具体为:
若所述共现句中的一词语的词性属于预设的重点词性且所述一词语的句法成分属于预设的重点句法成分,则将所述一词语作为重点词语;
获取各共现句中的重点词语,得到关键词集合。
...

【专利技术属性】
技术研发人员:王子玥章正道栾江霞徐晓文
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1