本发明专利技术提出一种文本分类噪声监测方法、装置、设备及计算机可读介质。该方法包括:获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;根据设定的置信水平,获取所述相似度分布的置信区间;根据所述相似度分布的置信区间,确定出噪声标题对。本发明专利技术实施例通过计算标题对之间的相似度,可以获取对应的相似度分布,通过相似度分布的置信区间确定噪声样本,从而可以保证噪声监测的准确性。
【技术实现步骤摘要】
文本分类噪声监测方法、装置、设备及计算机可读介质
本专利技术涉及文本分类噪声监测
,尤其涉及一种基于分布统计的文本分类噪声监测方法、装置、设备及计算机可读介质。
技术介绍
文本分类技术是信息检索和文本挖掘的重要基础,是人工智能领域的核心研究内容之一。在采用机器学习的方法进行文本分类时,分类器通过事先类别标注完毕的训练样本学习分类的知识并形成特征空间,从中自动挖掘出能够有效分类的规则,然后将这些规则用于对测试样本的分类。大致可分为两个阶段:(1)利用带有类别标签的训练文本集构造分类器;(2)使用分类器对新文本进行分类。可以看出分类器的质量对文本分类的最终结果具有直接的影响。而分类器的质量很大程度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面,得到的分类器质量就越高。但是,在实际应用中,这种全面准确的训练文本集是很难得到的。各个类别下的成员文档集合中,经常会存在一定数量的类别标记错误的文档,即文档内容与标记的类别不符。我们把这种类别标记错误的文档称为噪声数据。噪声数据是文本自动分类应用中经常遇到的问题,尤其是在数据规模很大的情况下更是如此。在真实的文本分类应用中,训练数据一般都不可避免地含有噪声,这些噪声样本将对最终的分类结果产生重要影响,影响最终的分类准确率和性能。
技术实现思路
本专利技术实施例提供一种文本分类噪声监测方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种文本分类噪声监测方法,包括:获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;根据设定的置信水平,获取所述相似度分布的置信区间;根据所述相似度分布的置信区间,确定出噪声标题对。结合第一方面,本专利技术实施例在第一方面的第一种实施方式中,所述获得属于同一文本类别的标题对的相似度分布,包括:在所述文本类别中随机抽取设定数量的标题;将抽取的标题进行两两配对,并计算每个标题对的相似度;根据获得的标题对的相似度进行分布统计。结合第一方面的第一种实施方式,本专利技术实施例在第一方面的第二种实施方式中,所述标题对的相似度的计算公式为式1:其中,和分别表示第i和j个标题的标题向量。结合第一方面,本专利技术实施例在第一方面的第三种实施方式中,还包括步骤:分别计算所述噪声标题对中出现的每个标题数量占所有噪声标题对数量的比例;当所述比例是否达到设定阈值时,则所述标题为噪声样本。结合第一方面,本专利技术实施例在第一方面的第四种实施方式中,还包括步骤:根据同一文本类别的标题相似度,计算该文本类别的聚类密度。结合第一方面的第四种实施方式,本专利技术实施例在第一方面的第五种实施方式中,所述计算文本类别的聚类密度的计算公式为式2:其中,ξH(z)表示语料H在文本类别z的聚类密度,N表示属于文本类别z的标题数量,表示属于文本类别z的第i个标题的词向量,表示标题向量和标题向量的余弦相似度,i、j为正整数。第二方面,本专利技术实施例还提供了一种文本分类噪声监测装置,包括:相似度分布获取模块,用于获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;置信区间获取模块,用于根据设定的置信水平,获取所述相似度分布的置信区间;噪声标题对获取模块,用于根据所述相似度分布的置信区间,确定出噪声标题对。结合第二方面,本专利技术实施例在第二方面的第一种实施方式中,所述相似度分布获取模块包括:抽取子模块,用于在所述文本类别中随机抽取设定数量的标题;计算子模块,用于将抽取的标题进行两两配对,并计算每个标题对的相似度;统计子模块,用于根据获得的标题对的相似度进行分布统计。结合第二方面的第一种实施方式,本专利技术实施例在第二方面的第二种实施方式中,所述计算子模块中,所述标题对的相似度的计算公式为式1:其中,和分别表示第i和j个标题的标题向量。结合第二方面,本专利技术实施例在第二方面的第三种实施方式中,还包括:噪声标题判断模块,用于分别计算所述噪声标题对中出现的每个标题数量占所有噪声标题对数量的比例;当所述比例是否达到设定阈值时,则所述标题为噪声样本。结合第二方面,本专利技术实施例在第二方面的第四种实施方式中,还包括:聚类密度计算模块,用于根据同一文本类别的标题相似度,计算该文本类别的聚类密度。结合第二方面的第四种实施方式,本专利技术实施例在第二方面的第五种实施方式中,所述聚类密度计算模块中,计算文本类别的聚类密度的计算公式为式2:其中,ξH(z)表示语料H在文本类别z的聚类密度,N表示属于文本类别z的标题数量,表示属于文本类别z的第i个标题的词向量,表示标题向量和标题向量的余弦相似度,i、j为正整数。所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。第三方面,在一个可能的设计中,文本分类噪声监测装置的结构中包括处理器和存储器,所述存储器用于存储支持文本分类噪声监测装置执行上述第一方面中文本分类噪声监测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述文本分类噪声监测装置还可以包括通信接口,用于文本分类噪声监测装置与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读介质,用于存储文本分类噪声监测装置所用的计算机软件指令,其包括用于执行上述第一方面的文本分类噪声监测方法所涉及的程序。本专利技术实施例通过计算标题对之间的相似度,可以获取对应的相似度分布,从而通过相似度分布的置信区间确定噪声样本,从而可以保证噪声监测的准确性。进一步地,通过调整置信水平可以调整置信区间的范围,通过调整噪声阈值可以调整过滤的准确性,通常阈值设定的越大,过滤后的文本所属类别的准确率越高。另外,本专利技术实施例适合分类数量比较多的情况,能快速监测处每个类别下的噪声数据。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1为本专利技术一实施例的文本分类噪声监测方法的流程图;图2为本专利技术实施例的步骤S110的具体步骤流程图;图3为本专利技术实施例的标题对的正态分布示意图;图4为本专利技术另一实施例的文本分类噪声监测方法的流程图;图5为本专利技术另一实施例的文本分类噪声监测方法的流程图;图6为本专利技术另本文档来自技高网...
【技术保护点】
1.一种文本分类噪声监测方法,其特征在于,包括:/n获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;/n根据设定的置信水平,获取所述相似度分布的置信区间;/n根据所述相似度分布的置信区间,确定出噪声标题对。/n
【技术特征摘要】
1.一种文本分类噪声监测方法,其特征在于,包括:
获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;
根据设定的置信水平,获取所述相似度分布的置信区间;
根据所述相似度分布的置信区间,确定出噪声标题对。
2.根据权利要求1所述的文本分类噪声监测方法,其特征在于,所述获得属于同一文本类别的标题对的相似度分布,包括:
在所述文本类别中随机抽取设定数量的标题;
将抽取的标题进行两两配对,并计算每个标题对的相似度;
根据获得的标题对的相似度进行分布统计。
3.根据权利要求2所述的文本分类噪声监测方法,其特征在于,所述标题对的相似度的计算公式为式1:
其中,和分别表示第i和j个标题的标题向量。
4.根据权利要求1所述的文本分类噪声监测方法,其特征在于,还包括步骤:
分别计算所述噪声标题对中出现的每个标题数量占所有噪声标题对数量的比例;当所述比例是否达到设定阈值时,则所述标题为噪声样本。
5.根据权利要求1所述的文本分类噪声监测方法,其特征在于,还包括步骤:根据同一文本类别的标题相似度,计算该文本类别的聚类密度。
6.根据权利要求5所述的文本分类噪声监测方法,其特征在于,所述计算文本类别的聚类密度的计算公式为式2:
其中,ξH(z)表示语料H在文本类别z的聚类密度,N表示属于文本类别z的标题数量,表示属于文本类别z的第i个标题的词向量,表示标题向量和标题向量的余弦相似度,i、j为正整数。
7.一种文本分类噪声监测装置,其特征在于,包括:
相似度分布获取模块,用于获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;
置信区间获取模块,用于根据设定的置信水平,获取所述相似度分布的置信区间;
噪声标题对获取模块,用于根据所...
【专利技术属性】
技术研发人员:田绍伟,姚源林,薛璐影,叶君健,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。