文本分类和展示方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：19009257 阅读：44 留言：0更新日期：2018-09-22 09:06

本申请涉及一种文本分类和展示方法、装置、计算机设备及存储介质，该文本分类方法包括：从待分类的文本的分词结果中确定部分目标类别的分词结果；为包括目标类别的分词结果的文本添加目标类别的分类标记，并为不包括目标类别的分词结果的文本添加非目标类别的分类标记；按待分类的文本和所添加的分类标记进行模型训练，得到分类模型；将各分词结果输入分类模型中，输出各分词结果属于目标类别的概率；将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果，返回为包括目标类别的分词结果的文本添加目标类别的分类标记并继续处理，直至满足迭代停止条件时得到待分类的文本的分类标记。本申请的方案提高了处理效率。

Text categorization and display method, device, computer equipment and storage medium

This application relates to a text categorization and display method, apparatus, computer equipment, and storage medium. The text categorization method includes: determining the result of a part of a target category from the result of a word segmentation of a text to be categorized; adding a categorization mark of the target category to a text including the result of a word segmentation of the target category, and not packing it. The text that includes the result of word segmentation of target category adds the classification marker of non-target category; trains the model according to the text to be classified and the added classification marker to get the classification model; inputs the result of word segmentation into the classification model, outputs the probability that the result of word segmentation belongs to the target category; the probability that the result belongs to the target category is greater than that of the target category. Or a word segmentation result equal to the first probability threshold is redefined as the result of the target category, which returns to add the classification marker of the target category to the text including the result of the word segmentation of the target category and continues processing until the classification marker of the text to be classified is obtained when the iteration stopping condition is satisfied. The scheme of this application improves the processing efficiency.

全部详细技术资料下载

【技术实现步骤摘要】
文本分类和展示方法、装置、计算机设备及存储介质
本专利技术涉及计算机
，特别是涉及一种文本分类和展示方法、装置、计算机设备及存储介质。
技术介绍
随着科学技术的飞速发展，大数据时代逐步到来，数据处理方式多种多样。其中，数据分类由于能够在多方面起到重要作用，所以越来越受到大家的重视。传统方法在一些场景下需要通过人工为大量数据添加分类标记。比如，在进行有监督的机器学习训练时，需要提前准备大批未分类的样本数据，通过人工为全量的大批未分类的样本数据一一添加分类标记，才能基于人工添加的分类标记后的样本数据进行有监督的机器学习训练。因此，传统方法通过人工方式为大量样本数据添加分类标记的效率比较低。
技术实现思路
基于此，有必要针对传统方法通过人工方式为大量样本数据添加分类标记的效率比较低的问题，提供一种文本分类和展示方法、装置、计算机设备及存储介质。一种文本分类方法，所述方法包括：从待分类的文本的分词结果中确定部分目标类别的分词结果；为包括所述目标类别的分词结果的文本添加目标类别的分类标记，以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记；根据待分类的文本和所添加的分类标记进行模型训练，得到分类模型；将各分词结果输入所述分类模型中，输出各分词结果属于目标类别的概率；将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果，返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理，直至满足迭代停止条件时得到待分类的文本的分类标记。一种文本分类装置，所述装置包括：分词结果确定模块，用于从待分类的文本的分词结果中确...
文本分类和展示方法、装置、计算机设备及存储介质

【技术保护点】
1.一种文本分类方法，所述方法包括：从待分类的文本的分词结果中确定部分目标类别的分词结果；为包括所述目标类别的分词结果的文本添加目标类别的分类标记，以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记；根据待分类的文本和所添加的分类标记进行模型训练，得到分类模型；将各分词结果输入所述分类模型中，输出各分词结果属于目标类别的概率；将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果，返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理，直至满足迭代停止条件时得到待分类的文本的分类标记。

【技术特征摘要】
1.一种文本分类方法，所述方法包括：从待分类的文本的分词结果中确定部分目标类别的分词结果；为包括所述目标类别的分词结果的文本添加目标类别的分类标记，以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记；根据待分类的文本和所添加的分类标记进行模型训练，得到分类模型；将各分词结果输入所述分类模型中，输出各分词结果属于目标类别的概率；将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果，返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理，直至满足迭代停止条件时得到待分类的文本的分类标记。2.根据权利要求1所述的方法，其特征在于，所述从待分类的文本的分词结果中确定部分目标类别的分词结果包括：对待分类的各文本进行分词处理，得到各文本的分词结果；从分词处理得到的分词结果中选取出部分分词结果并输出；接收针对输出的所述分词结果的目标类别标记指令；确定由所述目标类别标记指令所指定的目标类别的分词结果。3.根据权利要求2所述的方法，其特征在于，所述从分词处理得到的分词结果中选取出部分分词结果并输出包括：确定分词处理得到的分词结果的词频；将各分词结果按相应词频进行降序排名；从分词处理得到的各分词结果中，选取预设名次内的分词结果并输出。4.根据权利要求1所述的方法，其特征在于，所述目标类别存在多个；所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记包括：当同一文本包括属于不同目标类别的多个分词结果时，则统计所述同一文本中各目标类别的分词结果的数量；确定统计的分词结果的数量最大的目标类别；为所述同一文本添加确定的目标类别的分类标记。5.根据权利要求1所述的方法，其特征在于，还包括：在满足所述迭代停止条件后，获取通过相应的所述分类模型所确定的待分类的文本属于目标类别的概率和属于非目标类别的概率；筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本；按照筛选的文本和相应的分类标记进行模型训练，得到文本分类模型；通过所述文本分类模型确定待分类的文本属于目标类别的概率；按照待分类的文本属于目标类别的概率更新相应文本的分类标记。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后，返回所述筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本的步骤继续执行，直至满足更新停止条件时，得到待分类的文本更新后的分类标记。7.根据权利要求5或6所述的方法，其特征在于，还包括：获取更新所述分类标记后通过所述文本分类模型确定的各待分类的文本属于目标类别的概率和属于非目标类别的概率；挑选在更新所述分类标记后确定的属于目标类别的概率大于或等于第四概率阈值的文本和属于非目标类别的概率大于或等于第五概率阈值的文本；按挑选的文本和相应分类标记进行强分类模型训练，得到强分类模型；通过所述强分类模型确定各待分类...

【专利技术属性】
技术研发人员：方小敏，符帆，罗梓奇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人