文本分类噪声监测方法、装置、设备及计算机可读介质制造方法及图纸

技术编号：23161718 阅读：37 留言：0更新日期：2020-01-21 21:59

本发明专利技术提出一种文本分类噪声监测方法、装置、设备及计算机可读介质。该方法包括：获得属于同一文本类别的标题对的相似度分布，所述标题对的相似度为属于同一文本类别的任意两个标题的相似度；根据设定的置信水平，获取所述相似度分布的置信区间；根据所述相似度分布的置信区间，确定出噪声标题对。本发明专利技术实施例通过计算标题对之间的相似度，可以获取对应的相似度分布，通过相似度分布的置信区间确定噪声样本，从而可以保证噪声监测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类噪声监测方法、装置、设备及计算机可读介质
本专利技术涉及文本分类噪声监测
，尤其涉及一种基于分布统计的文本分类噪声监测方法、装置、设备及计算机可读介质。
技术介绍
文本分类技术是信息检索和文本挖掘的重要基础，是人工智能领域的核心研究内容之一。在采用机器学习的方法进行文本分类时，分类器通过事先类别标注完毕的训练样本学习分类的知识并形成特征空间，从中自动挖掘出能够有效分类的规则，然后将这些规则用于对测试样本的分类。大致可分为两个阶段：(1)利用带有类别标签的训练文本集构造分类器；(2)使用分类器对新文本进行分类。可以看出分类器的质量对文本分类的最终结果具有直接的影响。而分类器的质量很大程度上取决于训练文本集的质量。一般说来，训练文本集类别越准确、内容越全面，得到的分类器质量就越高。但是，在实际应用中，这种全面准确的训练文本集是很难得到的。各个类别下的成员文档集合中，经常会存在一定数量的类别标记错误的文档，即文档内容与标记的类别不符。我们把这种类别标记错误的文档称为噪声数据。噪声数据是文本自动分类应用中经常遇...

【技术保护点】
1.一种文本分类噪声监测方法，其特征在于，包括：/n获得属于同一文本类别的标题对的相似度分布，所述标题对的相似度为属于同一文本类别的任意两个标题的相似度；/n根据设定的置信水平，获取所述相似度分布的置信区间；/n根据所述相似度分布的置信区间，确定出噪声标题对。/n

【技术特征摘要】
1.一种文本分类噪声监测方法，其特征在于，包括：
获得属于同一文本类别的标题对的相似度分布，所述标题对的相似度为属于同一文本类别的任意两个标题的相似度；
根据设定的置信水平，获取所述相似度分布的置信区间；
根据所述相似度分布的置信区间，确定出噪声标题对。

2.根据权利要求1所述的文本分类噪声监测方法，其特征在于，所述获得属于同一文本类别的标题对的相似度分布，包括：
在所述文本类别中随机抽取设定数量的标题；
将抽取的标题进行两两配对，并计算每个标题对的相似度；
根据获得的标题对的相似度进行分布统计。

3.根据权利要求2所述的文本分类噪声监测方法，其特征在于，所述标题对的相似度的计算公式为式1：

其中，和分别表示第i和j个标题的标题向量。

4.根据权利要求1所述的文本分类噪声监测方法，其特征在于，还包括步骤：
分别计算所述噪声标题对中出现的每个标题数量占所有噪声标题对数量的比例；当所述比例是否达到设定阈值时，则所述标题为噪声样本。

5.根据权利要求1所述的文本分类噪声监测方法，其特征在于，还包括步骤：根据同一文本类别的标题相似度，计算该文本类别的聚类密度。

6.根据权利要求5所述的文本分类噪声监测方法，其特征在于，所述计算文本类别的聚类密度的计算公式为式2：

其中，ξH(z)表示语料H在文本类别z的聚类密度，N表示属于文本类别z的标题数量，表示属于文本类别z的第i个标题的词向量，表示标题向量和标题向量的余弦相似度，i、j为正整数。

7.一种文本分类噪声监测装置，其特征在于，包括：
相似度分布获取模块，用于获得属于同一文本类别的标题对的相似度分布，所述标题对的相似度为属于同一文本类别的任意两个标题的相似度；
置信区间获取模块，用于根据设定的置信水平，获取所述相似度分布的置信区间；
噪声标题对获取模块，用于根据所...

【专利技术属性】
技术研发人员：田绍伟，姚源林，薛璐影，叶君健，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人