文本分类方法、装置、设备及介质制造方法及图纸

技术编号:30823820 阅读:22 留言:0更新日期:2021-11-18 12:13
本申请公开了一种文本分类方法、装置、设备及存储介质,该方法包括:获取待分类的文本集合,建立文本列表;基于预设参数及标签体系定义规则,建立一级领域标签列表;对文本列表中的文本进行预处理,建立词语集合列表,词语集合列表中包括与每个文本对应的词语集合;基于知识图谱和所述词语集合列表进行路径检索,确定文本列表中所有文本对应的候选一级领域标签;通过第一指针遍历一级领域标签列表的所有一级领域标签,基于文本列表中所有文本的候选一级标签,确定文本列表的文本分类结果。该技术方案避免了标注数据所花费的高昂人工成本,提高了文本分类的准确度,进一步很大程度上提高了用户体验。上提高了用户体验。上提高了用户体验。

【技术实现步骤摘要】
文本分类方法、装置、设备及介质


[0001]本专利技术一般涉及自然语言处理
,具体涉及一种文本分类方法、装置、设备及介质。

技术介绍

[0002]随着互联网和电子技术的不断发展,互联网上在线文本资讯信息数量急剧增加,在实际业务运用中,为了使得用户根据所属领域类别从海量信息资讯中获取用户所需类别资讯,需要对文本资讯信息进行处理,其中,文本分类是处理较大规模文本资讯信息的关键技术,在信息处理中起着至关重要的作用。文本分类是对文本数据按照一定的分类体系或标准进行自动分类,得到一个或多个对应的标签。
[0003]目前,对于具有明确特征的文本或所属领域类别体系简单时,相关技术中通过采用深度学习训练模型的方式进行文本分类,该模型例如可以是CNN、LSTM、BERT模型等。然而采用该方案只能增加训练样本或对分类结果进行人工干预的方式提升模型整体的分类准确度,需要高质量的人工标注数据和高性能的计算机,在实际业务应用中,面对复杂标签体系时带来高昂的人工标注数据的成本。

技术实现思路

[0004]鉴于现有技术中的上述缺陷或不足,期望提供一种文本分类方法、装置、设备及介质。
[0005]第一方面,本专利技术提供了一种文本分类方法,该方法包括:
[0006]获取待分类的文本集合,建立文本列表;
[0007]基于预设参数及标签体系定义规则,建立一级领域标签列表;
[0008]对所述文本列表中的文本进行预处理,建立词语集合列表,所述词语集合列表中包括与每个所述文本对应的词语集合;r/>[0009]基于知识图谱和所述词语集合列表进行路径检索,确定所述文本列表中所有文本对应的候选一级领域标签;
[0010]通过第一指针遍历所述一级领域标签列表的所有一级领域标签,基于所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果。
[0011]在其中一个实施例中,基于知识图谱和所述词语集合列表进行路径检索,确定所述文本列表中所有文本的候选一级领域标签,包括:
[0012]对于所述文本列表中的每个文本,执行第一指定操作,得到所述文本列表中所有文本的候选一级领域标签;
[0013]所述第一指定操作包括:
[0014]基于知识图谱进行路径检索,统计所述文本中词语集合指向所述一级领域标签列表中各一级领域标签的次数;
[0015]将所述次数与预设次数阈值进行比对,所述预设次数阈值为最大次数与预设系数
的乘积;
[0016]将所述次数大于或等于所述预设次数阈值对应的标签作为所述词语集合对应的所述文本的候选一级领域标签。
[0017]在其中一个实施例中,通过第一指针遍历所述一级领域标签列表的所有一级领域标签,基于所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果,包括:
[0018]获取所述一级领域标签列表中的所有一级领域标签;
[0019]循环执行第二指定操作,直至所述第一指针指向所述一级领域标签列表的尾部为止;
[0020]所述第二指定操作包括:
[0021]确定所述一级领域标签列表的当前一级领域标签,将所述第一指针指向所述当前一级领域标签,并判断所述当前一级领域标签是否遍历完成,所述第二指定操作第一次执行时,所述当前一级领域标签为所述一级领域标签列表的第一个一级领域标签,所述第二指定操作非第一次执行时,所述当前一级领域标签为所述第二指定操作执行时对应的标签的下个一级领域标签;
[0022]当所述当前一级领域标签遍历完成时,则控制进入下一次所述第二指定操作;
[0023]当所述当前一级领域标签未遍历完成时,则根据所述当前一级领域标签和所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果。
[0024]在其中一个实施例中,根据所述当前一级领域标签和所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果,包括:
[0025]获取所述文本列表中的所有文本;
[0026]循环执行第三指定操作,直至所述第二指针指向所述文本列表的尾部为止;
[0027]所述第三指定操作包括:
[0028]确定所述文本列表中的当前文本,将所述第二指针指向所述当前文本,并判断所述当前文本的候选一级领域标签中是否包含所述当前一级领域标签,所述第三指定操作第一次执行时,所述当前文本为所述文本列表的第一个文本,所述第三指定操作非第一次执行时,所述当前文本为所述第三指定操作执行时对应的文本的下个文本;
[0029]当所述当前文本的候选一级领域标签中不包含所述当前一级领域标签时,则控制进入下一次所述第三指定操作;
[0030]当所述当前文本的候选一级领域标签中包含所述当前一级领域标签时,则基于所述当前一级领域标签,确定当前文本的文本分类结果。
[0031]在其中一个实施例中,基于所述当前一级领域标签,确定当前文本的文本分类结果,包括:
[0032]基于所述当前一级领域标签,确定所述当前文本的当前分类结果;
[0033]将所述当前分类结果与历史分类结果进行比对;
[0034]将权重得分较高的分类结果作为所述当前文本的文本分类结果。
[0035]在其中一个实施例中,基于所述当前一级领域标签,确定所述当前文本的当前分类结果,包括:
[0036]采用文本特征提取算法从所述当前文本中的词语集合中抽取特征词语;
[0037]将所述特征词语转化为特征向量,并对所述特征向量进行加权求和处理,得到所述当前文本的特征向量;
[0038]基于当前一级领域标签对应的词向量模型,计算所述当前文本的特征向量与所述当前一级领域标签中所有标签及其所有子标签的关联度,确定权重得分;
[0039]将所述权重得分最高且超过预设阈值的标签作为所述当前文本的当前分类结果。
[0040]在其中一个实施例中,对所述文本列表中的所述文本进行预处理,建立词语集合列表,包括:
[0041]去除所述文本中的停用词;
[0042]基于预先存储在知识图谱中的同义词关系及同义词数据,确定并替换所述文本中的同义词,得到处理后的词语集合;
[0043]基于所述处理后的词语集合,建立词语集合列表。
[0044]第二方面,本申请实施例提供了一种文本分类装置,该装置包括:
[0045]获取模块,用于获取待分类的文本集合,建立文本列表;
[0046]第一建立模块,用于基于预设参数及标签体系定义规则,建立一级领域标签列表;
[0047]第二建立模块,用于对所述文本列表中的文本进行预处理,建立词语集合列表,所述词语集合列表中包括与每个所述文本对应的词语集合;
[0048]第一确定模块,用于基于知识图谱和所述词语集合列表进行路径检索,确定所述文本列表中所有文本对应的候选一级领域标签;
[0049]第二确定模块,用于通过第一指针遍历所述一级领域标签列表的所有一级领域标签,基于所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类的文本集合,建立文本列表;基于预设参数及标签体系定义规则,建立一级领域标签列表;对所述文本列表中的文本进行预处理,建立词语集合列表,所述词语集合列表中包括与每个所述文本对应的词语集合;基于知识图谱和所述词语集合列表进行路径检索,确定所述文本列表中所有文本对应的候选一级领域标签;通过第一指针遍历所述一级领域标签列表的所有一级领域标签,基于所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果。2.根据权利要求1所述的方法,其特征在于,基于知识图谱和所述词语集合列表进行路径检索,确定所述文本列表中所有文本的候选一级领域标签,包括:对于所述文本列表中的每个文本,执行第一指定操作,得到所述文本列表中所有文本的候选一级领域标签;所述第一指定操作包括:基于知识图谱进行路径检索,统计所述文本中词语集合指向所述一级领域标签列表中各一级领域标签的次数;将所述次数与预设次数阈值进行比对,所述预设次数阈值为最大次数与预设系数的乘积;将所述次数大于或等于所述预设次数阈值对应的标签作为所述词语集合对应的所述文本的候选一级领域标签。3.根据权利要求1所述的方法,其特征在于,通过第一指针遍历所述一级领域标签列表的所有一级领域标签,基于所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果,包括:获取所述一级领域标签列表中的所有一级领域标签;循环执行第二指定操作,直至所述第一指针指向所述一级领域标签列表的尾部为止;所述第二指定操作包括:确定所述一级领域标签列表的当前一级领域标签,将所述第一指针指向所述当前一级领域标签,并判断所述当前一级领域标签是否遍历完成,所述第二指定操作第一次执行时,所述当前一级领域标签为所述一级领域标签列表的第一个一级领域标签,所述第二指定操作非第一次执行时,所述当前一级领域标签为所述第二指定操作执行时对应的标签的下个一级领域标签;当所述当前一级领域标签遍历完成时,则控制进入下一次所述第二指定操作;当所述当前一级领域标签未遍历完成时,则根据所述当前一级领域标签和所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果。4.根据权利要求3所述的方法,其特征在于,根据所述当前一级领域标签和所述文本列表中所有文本的候选一级标签,确定所述文本列表的文本分类结果,包括:获取所述文本列表中的所有文本;循环执行第三指定操作,直至所述第二指针指向所述文本列表的尾部为止;所述第三指定操作包括:
确定所述文本列表中的当前文本,将所述第二指针指向所述当前文本,并判断所述当前文本的候选一级领域标签中是否包含所述当前一级领域标签,所述第三指定操作第一次执行时,所述当前文本为所述...

【专利技术属性】
技术研发人员:余经先王彬宋建锋
申请(专利权)人:北京亿欧网盟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1