文本分类和展示方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19009257 阅读:44 留言:0更新日期:2018-09-22 09:06
本申请涉及一种文本分类和展示方法、装置、计算机设备及存储介质,该文本分类方法包括:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括目标类别的分词结果的文本添加目标类别的分类标记,并为不包括目标类别的分词结果的文本添加非目标类别的分类标记;按待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。本申请的方案提高了处理效率。

Text categorization and display method, device, computer equipment and storage medium

This application relates to a text categorization and display method, apparatus, computer equipment, and storage medium. The text categorization method includes: determining the result of a part of a target category from the result of a word segmentation of a text to be categorized; adding a categorization mark of the target category to a text including the result of a word segmentation of the target category, and not packing it. The text that includes the result of word segmentation of target category adds the classification marker of non-target category; trains the model according to the text to be classified and the added classification marker to get the classification model; inputs the result of word segmentation into the classification model, outputs the probability that the result of word segmentation belongs to the target category; the probability that the result belongs to the target category is greater than that of the target category. Or a word segmentation result equal to the first probability threshold is redefined as the result of the target category, which returns to add the classification marker of the target category to the text including the result of the word segmentation of the target category and continues processing until the classification marker of the text to be classified is obtained when the iteration stopping condition is satisfied. The scheme of this application improves the processing efficiency.

【技术实现步骤摘要】
文本分类和展示方法、装置、计算机设备及存储介质
本专利技术涉及计算机
,特别是涉及一种文本分类和展示方法、装置、计算机设备及存储介质。
技术介绍
随着科学技术的飞速发展,大数据时代逐步到来,数据处理方式多种多样。其中,数据分类由于能够在多方面起到重要作用,所以越来越受到大家的重视。传统方法在一些场景下需要通过人工为大量数据添加分类标记。比如,在进行有监督的机器学习训练时,需要提前准备大批未分类的样本数据,通过人工为全量的大批未分类的样本数据一一添加分类标记,才能基于人工添加的分类标记后的样本数据进行有监督的机器学习训练。因此,传统方法通过人工方式为大量样本数据添加分类标记的效率比较低。
技术实现思路
基于此,有必要针对传统方法通过人工方式为大量样本数据添加分类标记的效率比较低的问题,提供一种文本分类和展示方法、装置、计算机设备及存储介质。一种文本分类方法,所述方法包括:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。一种文本分类装置,所述装置包括:分词结果确定模块,用于从待分类的文本的分词结果中确定部分目标类别的分词结果;标记添加模块,用于为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;模型训练模块,用于根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;分类模块,用于将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,并通知标记添加模块工作,直至满足迭代停止条件时得到待分类的文本的分类标记。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。上述文本分类方法、装置、计算机设备和存储介质,从待分类的文本的分词中确定出一部分的目标类别的分词结果,根据包括或不包括该确定出目标类别的分词结果为待分类的文本概略地添加相应的分类标记,根据添加分类标记的待分类的文本训练分类模型,通过分类模型确定各分词结果属于目标类别的概率,将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,即根据重新确定的目标类别的分词结果对待分类的文本所添加的分类标记进行更新以进行迭代处理,直至满足迭代停止条件时,所确定出的属于目标类别的分词结果最为准确,那么在满足迭代停止条件时得到的待分类的文本的分类标记也就最为准确。相较于传统的通过人工为全量文本添加分类标记的方式而言,本申请方案提高了处理效率。一种文本展示方法,所述方法包括:获取当前社交通信对象所对应的待展示的社交内容;确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;按照确定的所述分类标记确定所述社交内容的展示方式;按照确定的展示方式展示所述社交内容。一种文本展示装置,所述装置包括:获取模块,用于获取当前社交通信对象所对应的待展示的社交内容;分类标记确定模块,用于确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;展示方式确定模块,用于按照确定的所述分类标记确定所述社交内容的展示方式;展示模块,用于按照确定的展示方式展示所述社交内容。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取当前社交通信对象所对应的待展示的社交内容;确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;按照确定的所述分类标记确定所述社交内容的展示方式;按照确定的展示方式展示所述社交内容。一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:获取当前社交通信对象所对应的待展示的社交内容;确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;按照确定的所述分类标记确定所述社交内容的展示方式;按照确定的展示方式展示所述社交内容。上述文本展示方法、装置、计算机设备和存储介质,通过获取由分类模型确定的社交内容的分类标记,来确定待展示的社交内容的展示方式。其中,分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到,即不需要对全部用于训练的文本添加分类标记,只需要对用于训练的文本中部分的文本添加有推广类别的分类标记就可以进行迭代训练得到分类模型。按照确定的展示方式对待展示的社交内容进行展示,即可以对推广类别的分类标记和非推广类别的本文档来自技高网...
文本分类和展示方法、装置、计算机设备及存储介质

【技术保护点】
1.一种文本分类方法,所述方法包括:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。

【技术特征摘要】
1.一种文本分类方法,所述方法包括:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。2.根据权利要求1所述的方法,其特征在于,所述从待分类的文本的分词结果中确定部分目标类别的分词结果包括:对待分类的各文本进行分词处理,得到各文本的分词结果;从分词处理得到的分词结果中选取出部分分词结果并输出;接收针对输出的所述分词结果的目标类别标记指令;确定由所述目标类别标记指令所指定的目标类别的分词结果。3.根据权利要求2所述的方法,其特征在于,所述从分词处理得到的分词结果中选取出部分分词结果并输出包括:确定分词处理得到的分词结果的词频;将各分词结果按相应词频进行降序排名;从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。4.根据权利要求1所述的方法,其特征在于,所述目标类别存在多个;所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记包括:当同一文本包括属于不同目标类别的多个分词结果时,则统计所述同一文本中各目标类别的分词结果的数量;确定统计的分词结果的数量最大的目标类别;为所述同一文本添加确定的目标类别的分类标记。5.根据权利要求1所述的方法,其特征在于,还包括:在满足所述迭代停止条件后,获取通过相应的所述分类模型所确定的待分类的文本属于目标类别的概率和属于非目标类别的概率;筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本;按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型;通过所述文本分类模型确定待分类的文本属于目标类别的概率;按照待分类的文本属于目标类别的概率更新相应文本的分类标记。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后,返回所述筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本的步骤继续执行,直至满足更新停止条件时,得到待分类的文本更新后的分类标记。7.根据权利要求5或6所述的方法,其特征在于,还包括:获取更新所述分类标记后通过所述文本分类模型确定的各待分类的文本属于目标类别的概率和属于非目标类别的概率;挑选在更新所述分类标记后确定的属于目标类别的概率大于或等于第四概率阈值的文本和属于非目标类别的概率大于或等于第五概率阈值的文本;按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型;通过所述强分类模型确定各待分类...

【专利技术属性】
技术研发人员:方小敏符帆罗梓奇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1