文本的分类方法、装置、终端设备及可读存储介质制造方法及图纸

技术编号:35817543 阅读:13 留言:0更新日期:2022-12-03 13:41
本发明专利技术公开了一种文本的分类方法、装置、终端设备以及计算机存储介质,通过根据样本文本的目标标签和分词确定所述分词的二项集,确定所述二项集的第一置信度和词频量;根据所述第一置信度和所述词频量确定所述目标标签的分词是否为所述目标标签的关联词,若确定所述目标标签的分词为所述关联词,则根据所述关联词和所述样本文本的其他标签确定所述关联词的停止词和非目标标签;将所述关联词、所述停止词、所述目标标签和所述非目标标签加入到文本类词库中,根据所述文本类词库针对文本进行分类,本发明专利技术实现了根据文本类词库针对文本分类,从而,提高了针对文本进行分类的时效性和准确率。准确率。准确率。

【技术实现步骤摘要】
文本的分类方法、装置、终端设备及可读存储介质


[0001]本专利技术属于数据处理
,尤其涉及一种文本的分类方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]目前针对文本进行分类的技术一般是基于机器学习与深度学习的算法,该算法的局限性在于,一方面基于机器学习与深度学习的算法的中文语义分析依赖于jieba(优秀的中文分词第三方库)等词库,而计算该jieba词库的计算量非常大并且该jieba词库的更新频率不高,导致该算法的时效性非常差,另一方面机器学习与深度学习在实际操作中的过程训练类似盲盒,只有量化的调整参数但是没有异常防止机制,因此,利用传统的基于机器学习与深度学习的算法针对文本分类的准确率非常低,导致根据该文本分类预测分析素材的的准确率也非常低。

技术实现思路

[0003]本专利技术的主要目的在于提供一种文本的分类方法、装置、终端设备及计算机可读存储介质。旨在实现进行文本分类时,提高文本分类的时效性和准确率。
[0004]为了实现上述目的,本专利技术提供一种文本的分类方法,所述文本的分类方法包括以下步骤:
[0005]根据样本文本的目标标签和分词确定所述分词的二项集,确定所述二项集的第一置信度和词频量;
[0006]根据所述第一置信度和所述词频量确定所述目标标签的分词是否为所述目标标签的关联词,若确定所述目标标签的分词为所述关联词,则根据所述关联词和所述样本文本的其他标签确定所述关联词的停止词和非目标标签;
[0007]将所述关联词、所述停止词、所述目标标签和所述非目标标签加入到文本类词库中,根据所述文本类词库针对文本进行分类。
[0008]可选地,所述关联词包括:第一关联词和第二关联词,所述根据所述第一置信度和所述词频量确定所述目标标签的分词是否为所述目标标签的关联词的步骤,包括:
[0009]确定所述第一置信度是否大于预设的第一置信度阈值;
[0010]若确定所述第一置信度大于所述第一置信度阈值,则确定所述目标标签的分词为所述目标标签的所述第一关联词;
[0011]若确定所述第一置信度小于或等于所述第一置信度阈值,则确定所述第一置信度是否大于预设的第二置信度阈值,其中,所述第二置信度阈值小于所述第一置信度阈值;
[0012]若确定所述第一置信度大于所述第二置信度阈值并小于所述第一置信度阈值,则确定所述词频量是否大于预设的词频量阈值;
[0013]若确定所述词频量大于所述词频量阈值,则确定所述二项集的所述分词为所述目标标签的所述第二关联词。
[0014]可选地,所述关联词包括:第二关联词,所述若确定所述分词为所述关联词,则根据所述关联词和所述样本文本的其他标签确定所述关联词的停止词和非目标标签的步骤,包括:
[0015]若确定所述分词为所述第二关联词,则确定所述样本文本的其他标签的分词中是否有所述第二关联词;
[0016]若确定有所述第二关联词,则根据所述第二关联词、所述其他标签的待处理分词和所述其他标签确定多项集;
[0017]根据所述多项集确定所述第二关联词的停止词和非目标标签。
[0018]可选地,所述根据所述多项集确定所述第二关联词的停止词和非目标标签的步骤,包括:
[0019]确定所述多项集的第二置信度,确定所述第二置信度是否大于预设的第三置信度阈值;
[0020]若确定所述第二置信度大于预设的第三置信度阈值,则确定所述多项集的其他标签为非目标标签,确定所述待处理分词为停止词。
[0021]可选地,所述将所述关联词、所述停止词、所述目标标签和所述非目标标签加入到文本类词库的步骤,包括:
[0022]将所述关联词、所述停止词、所述目标标签和所述非目标标签加入到所述文本类词库,并建立所述目标标签与所述第一关联词之间的对应关系,和,并建立所述非目标标签和所述目标标签与所述第二关联词和所述停止词之间的对应关系。
[0023]可选地,在所述根据样本文本的目标标签和分词确定二项集,确定所述二项集的第一置信度和词频量的步骤之前,所述方法还包括:
[0024]针对所述样本文本进行分词处理得到所述样本文本的所述目标标签和所述目标标签对应的分词。
[0025]可选地,在所述针对所述样本文本进行分词处理得到所述样本文本的所述目标标签和所述目标标签对应的所述分词的步骤之后,所述方法还包括:
[0026]根据预设的分词条件针对所述目标标签的分词进行筛选得到筛选后的目标标签的分词;
[0027]根据所述筛选后的目标标签的分词和所述目标标签确定二项集,并执行所述确定所述二项集的第一置信度和词频量的步骤。
[0028]此外,为实现上述目的,本专利技术还提供一种文本的分类装置,其特征在于,所述文本的分类装置包括:
[0029]第一确定模块,用于根据样本文本的目标标签和分词确定二项集,确定所述二项集的第一置信度和词频量;
[0030]第二确定模块,用于根据所述第一置信度和所述词频量确定所述目标标签的分词是否为所述目标标签的关联词,若确定所述目标标签的分词为所述关联词,则根据所述关联词和所述样本文本的其他标签确定所述关联词的停止词和非目标标签;
[0031]分类模块,将所述关联词、所述停止词、所述目标标签和所述非目标标签加入到文本类词库中,根据所述文本类词库针对文本进行分类。
[0032]此外,为实现上述目的,本专利技术还提供一种终端设备,所述终端设备包括:存储器、
处理器及存储在所述存储器上并可在所述处理器上运行的文本的分类程序,所述文本的分类程序被所述处理器执行时实现如上所述的文本的分类方法的步骤。
[0033]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本的分类程序,所述文本的分类程序被处理器执行时实现如上所述的文本的分类方法的步骤。
[0034]本专利技术实施例提出的一种文本的分类方法、装置、终端设备及计算机可读存储介质,通过根据样本文本的目标标签和分词确定所述分词的二项集,确定所述二项集的第一置信度和词频量;根据所述第一置信度和所述词频量确定所述目标标签的分词是否为所述目标标签的关联词,若确定所述目标标签的分词为所述关联词,则根据所述关联词和所述样本文本的其他标签确定所述关联词的停止词和非目标标签;;将所述关联词、所述停止词、所述目标标签和所述非目标标签加入到文本类词库中,根据所述文本类词库针对文本进行分类。
[0035]本专利技术技术方案根据样本文本的目标标签和分词确定所述目标标签的分词的二项集,然后确定该二项集的第一置信度和词频量,根据该第一置信度和词频量确定该目标标签的关联词,根据该关联词和该样本文本的其他标签确定该关联词对应的停止词和非目标标签,将该关联词、该停止词、该目标标签和该非目标标签加入到文本类词库中,最后根据该文本类词库针对文本进行分类。
[0036]相比于传统的基于机器学习与深度学习的方式,本专利技术通过针对样本文本的目标标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的分类方法,其特征在于,所述文本的分类方法包括:根据样本文本的目标标签和分词确定所述分词的二项集,确定所述二项集的第一置信度和词频量;根据所述第一置信度和所述词频量确定所述目标标签的分词是否为所述目标标签的关联词,若确定所述目标标签的分词为所述关联词,则根据所述关联词和所述样本文本的其他标签确定所述关联词的停止词和非目标标签;将所述关联词、所述停止词、所述目标标签和所述非目标标签加入到文本类词库中,根据所述文本类词库针对文本进行分类。2.如权利要求1所述的文本的分类方法,其特征在于,所述关联词包括:第一关联词和第二关联词,所述根据所述第一置信度和所述词频量确定所述目标标签的分词是否为所述目标标签的关联词的步骤,包括:确定所述第一置信度是否大于预设的第一置信度阈值;若确定所述第一置信度大于所述第一置信度阈值,则确定所述目标标签的分词为所述目标标签的所述第一关联词;若确定所述第一置信度小于所述第一置信度阈值,则确定所述第一置信度是否大于预设的第二置信度阈值,其中,所述第二置信度阈值小于所述第一置信度阈值;若确定所述第一置信度大于所述第二置信度阈值并小于所述第一置信度阈值,则确定所述词频量是否大于预设的词频量阈值;若确定所述词频量大于所述词频量阈值,则确定所述二项集的所述分词为所述目标标签的所述第二关联词。3.如权利要求1所述的文本的分类方法,其特征在于,所述关联词包括:第二关联词,所述若确定所述分词为所述关联词,则根据所述关联词和所述样本文本的其他标签确定所述关联词的停止词和非目标标签的步骤,包括:若确定所述分词为所述第二关联词,则确定所述样本文本的其他标签的分词中是否有所述第二关联词;若确定有所述第二关联词,则根据所述第二关联词、所述其他标签的待处理分词和所述其他标签确定多项集;根据所述多项集确定所述第二关联词的停止词和非目标标签。4.如权利要求3所述的文本的分类方法,其特征在于,所述根据所述多项集确定所述第二关联词的停止词和非目标标签的步骤,包括:确定所述多项集的第二置信度,确定所述第二置信度是否大于预设的第三置信度阈值;若确定所述第二置信度大于预设的第三置信度阈值,则确定所述多项集的其他标签为非目标标签,确定所述待处理分...

【专利技术属性】
技术研发人员:慕畅
申请(专利权)人:深圳市梦网视讯有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1