【技术实现步骤摘要】
噪声文档的筛除方法及计算机可读存储介质
本专利技术涉及数据处理
,尤其涉及一种噪声文档的筛除方法及计算机可读存储介质。
技术介绍
随着网络数据的快速膨胀增长,数据搜索是人们从海量数据中提取所需信息的关键途径。通过有效的设置搜索条件、关键字段可以获取到所关注事物事件的新闻、评论等相关知识。同时各个闭环大数据中心的建立也普遍需要脱离互联网环境的数据搜索服务。基于语义信息的精确数据搜索可以帮助人们在本地环境下获取到所需的信息,在保证数据闭环需求的同时提供高质量的搜索结果,为数据治理提供便利。现有技术对数据库检索内容优化主要分为两个方向,一是线上优化,主要基于网页链接的拓扑结构,如PageRank等;二是脱机数据搜索结果优化,其往往依靠机器学习方法进行标记训练,将数据分为相关与噪声两类样本,利用支持向量机或贝叶斯等方法进行训练分类。但线上算法依赖于内容之间的链接及互联网用户的浏览轨迹,这在脱机数据库中均是不存在或无法获取的特征信息;机器学习方法训练分类主要存在耗费人力大、泛化性能差的特点。组织人员或要求搜索者自身在搜索数据前进行标注都会降低数据库搜索频率,使得人机效率下降。
技术实现思路
本专利技术所要解决的技术问题是:提供一种噪声文档的筛除方法及计算机可读存储介质,可有效剔除搜索结果中与目标无关的噪声语料,保留与搜索目标相关的语料。为了解决上述技术问题,本专利技术采用的技术方案为:一种噪声文档的筛除方法,包括:根据预设的种子词集合,检索得到原始语料;根据所述 ...
【技术保护点】
1.一种噪声文档的筛除方法,其特征在于,包括:/n根据预设的种子词集合,检索得到原始语料;/n根据所述原始语料的格式,从所述原始语料中提取有效文本;/n对所述有效文本进行分句,并对所述有效文本进行数据清洗;/n对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;/n从所述有效文本的各分句中获取包含至少一个种子词的共现句;/n根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;/n根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;/n分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;/n根据预设的无关类高频词集合,得到无关类关键词表;/n分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;/n根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述 ...
【技术特征摘要】
1.一种噪声文档的筛除方法,其特征在于,包括:
根据预设的种子词集合,检索得到原始语料;
根据所述原始语料的格式,从所述原始语料中提取有效文本;
对所述有效文本进行分句,并对所述有效文本进行数据清洗;
对所述有效文本进行分词,并对分词得到的各词语进行词性识别和句法分析,得到各词语的词性和句法成分;
从所述有效文本的各分句中获取包含至少一个种子词的共现句;
根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合;
根据所述种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;
分别计算所述相关类关键词表中的各相关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各相关词语的关键词权重,所述相关词语的关键词权重为正值;
根据预设的无关类高频词集合,得到无关类关键词表;
分别计算所述无关类关键词表中的各无关词语在所述有效文本中作为重点句法成分的出现比例,得到所述各无关词语的关键词权重,所述无关词语的关键词权重为负值;
根据所述相关类关键词表和无关类关键词表,获取所述有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算所述有效文本的得分;
若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本。
2.根据权利要求1所述的噪声文档的筛除方法,其特征在于,所述若所述有效文本的得分小于预设的阈值,则判定所述有效文本为噪声文本之后,进一步包括:
删除噪声文本。
3.根据权利要求1所述的噪声文档的筛除方法,其特征在于,所述对所述有效文本进行分句,并对所述有效文本进行数据清洗具体为:
根据预设的断句符,对所述有效文本进行分句;
根据预设的字符黑名单,对所述有效文本中的字符进行过滤,所述字符黑名单包括英文符号、英文字母和断句符以外的中文符号;
根据预设的语段长度,对所述有效文本中的分句进行过滤。
4.根据权利要求1所述的噪声文档的筛除方法,其特征在于,所述根据预设的重点句法成分和重点词性,获取所述共现句中的重点词语,得到关键词集合具体为:
若所述共现句中的一词语的词性属于预设的重点词性且所述一词语的句法成分属于预设的重点句法成分,则将所述一词语作为重点词语;
获取各共现句中的重点词语,得到关键词集合。
...
【专利技术属性】
技术研发人员:王子玥,章正道,栾江霞,徐晓文,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。