文本内容分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34109457 阅读:10 留言:0更新日期:2022-07-12 01:05
本发明专利技术提供了一种文本内容分类方法、装置、电子设备及存储介质,将“捕捉内容中的行业特征”和“对内容进行行业分类”的两个逻辑拆分处理,并独立优化和有机整合的策略,来确保在实际使用的场景下,兼顾内容行业分类的准确率和召回率。同时,在上述的两个功能之间,加入一定的人工标注处理流程,修正从内容中识别出的各行业的代表性特征,有效的提升了对文本内容分类的准确率。分类的准确率。分类的准确率。

【技术实现步骤摘要】
文本内容分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,具体而言,涉及一种文本内容分类方法、装置、电子设备及存储介质。

技术介绍

[0002]随着社交媒体和自媒体平台的不断兴起,在微博、微信等社交媒体,抖音、B站等视频网站,以及小红书等社交电商平台中,每天都会有各类用户的发文文章。比如普通用户对各行业产品的日常使用体验和分享,各行业品牌主的营销推广文案,以及大V主播的代言带货等。在很多的场景下,需要对各类更新的文本信息进行提取和分类,以判断相关内容所涉及的行业和所提及的品牌。而上述的这些网络文本特点是,普通用户的发文内容大多口语化,表达随意,覆盖场景和行业品类众多,以及不受语法规则约束等;而在官推的营销文案中经常使用一些表达套路,比如内容的前期有大段的意境铺垫,指东打西,最后尾部翻转点出要推广的品牌;或者在大V和主播带货的一篇内容中,通常也会覆盖众多的行业和品类等。这些都为准确判断内容带来很大的困难。
[0003]因此,如何针对互联网文本内容,根据行业进行准确有效的分类,是目前亟待解决的问题。

技术实现思路

[0004]为了改善上述问题,本专利技术提供了一种文本内容分类方法、装置、电子设备及存储介质。
[0005]本专利技术实施例的第一方面,提供了一种文本内容分类方法,所述方法包括:
[0006]获取各个行业的内容数据,通过特征挖掘提取各个行业有代表性的特征信息,所述特征信息包括特征词和词语组合;
[0007]接收外部输入的人工标注信息,对提取的所述特征词和词语组合搭配进行修复和保留,并去掉挖掘有误的特征信息;
[0008]将处理后的各个行业的特征信息,保存至行业特征数据库;
[0009]获取待分类的文本内容,根据所述行业特征数据库中保存的特征信息,匹配提取所述文本内容中的特征信息;
[0010]按预设的概率掩盖掉所述文本内容中其它不相关的内容片段;
[0011]根据行业分类模型,对处理后的文本内容进行预测,得到该文本内容的行业分类结果;
[0012]使用处理后的文本内容对行业分类模型进行训练。
[0013]可选地,所述根据所述行业特征数据库中保存的特征信息,匹配提取所述文本内容中的特征信息的步骤,具体包括:
[0014]从所述行业特征数据库加载各行业的特征信息;
[0015]按字符遍历当前获取的文本内容,提取匹配到的特征信息。
[0016]可选地,所述按预设的概率掩盖掉所述文本内容中其它不相关的内容片段的步骤,具体包括:
[0017]对所述文本内容中没有匹配到字符,按以下公式的概率进行随机掩盖:
[0018]Pm=(1

1.0/(a*log(len(Text)/(len(F)+1))+1))*(1

b*(Wl*Rl+Wr*Rr)/2)
[0019]其中,Pm表示当前字符被掩盖的概率,Text表示输入的文本内容,len(Text)是输入文本的字符长度,F表示提取到的特征信息的字符串的拼接,len(F)是这些提取到的字符的累计长度,Wl表示当前遍历位置左侧最近的特征词的分类权重,Wr表示当前遍历位置右侧最近特征词的分类权重,Rl和Rr分别表示当前遍历到的未匹配字符位置,相对左右两侧特征词的距离比,a、b是调节因子,a的取值范围是0到正无穷的非负整数,b的取值范围是[0,1]。
[0020]可选地,所述方法还包括:
[0021]使用经过预测的文本内容,结合其预测得到的行业分类结果,对所述行业特征数据库中的特征信息进行更新。
[0022]本专利技术实施例的第二方面,提供了一种文本内容分类装置,所述装置包括:
[0023]数据获取单元,用于获取各个行业的内容数据,通过特征挖掘提取各个行业有代表性的特征信息,所述特征信息包括特征词和词语组合;
[0024]标注修复单元,接收外部输入的人工标注信息,对提取的所述特征词和词语组合搭配进行修复和保留,并去掉挖掘有误的特征信息;
[0025]数据库管理单元,用于将处理后的各个行业的特征信息,保存至行业特征数据库;
[0026]特征匹配单元,用于获取待分类的文本内容,根据所述行业特征数据库中保存的特征信息,匹配提取所述文本内容中的特征信息;
[0027]随机掩盖单元,用于按预设的概率掩盖掉所述文本内容中其它不相关的内容片段;
[0028]分类预测单元,用于根据行业分类模型,对处理后的文本内容进行预测,得到该文本内容的行业分类结果;
[0029]模型训练单元,用于使用处理后的文本内容对行业分类模型进行训练。
[0030]可选地,所述特征匹配单元,具体用于:
[0031]从所述行业特征数据库加载各行业的特征信息;
[0032]按字符遍历当前获取的文本内容,提取匹配到的特征信息。
[0033]可选地,所述随机掩盖单元,具体用于:
[0034]对所述文本内容中没有匹配到字符,按以下公式的概率进行随机掩盖:
[0035]Pm=(1

1.0/(a*log(len(Text)/(len(F)+1))+1))*(1

b*(Wl*Rl+Wr*Rr)/2)
[0036]其中,Pm表示当前字符被掩盖的概率,Text表示输入的文本内容,len(Text)是输入文本的字符长度,F表示提取到的特征信息的字符串的拼接,len(F)是这些提取到的字符的累计长度,Wl表示当前遍历位置左侧最近的特征词的分类权重,Wr表示当前遍历位置右侧最近特征词的分类权重,Rl和Rr分别表示当前遍历到的未匹配字符位置,相对左右两侧特征词的距离比,a、b是调节因子,a的取值范围是0到正无穷的非负整数,b的取值范围是[0,1]。
[0037]可选地,所述装置还包括:
[0038]信息反馈单元,用于使用经过预测的文本内容,结合其预测得到的行业分类结果,对所述行业特征数据库中的特征信息进行更新。
[0039]本专利技术实施例的第三方面,提供了一种电子设备,其特征在于,包括:
[0040]一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如第一方面所述的方法。
[0041]本专利技术实施例的第四方面,提供了一种一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如第一方面所述的方法。
[0042]综上所述,本专利技术提供了一种文本内容分类方法、装置、电子设备及存储介质,将“捕捉内容中的行业特征”和“对内容进行行业分类”的两个逻辑拆分处理,并独立优化和有机整合的策略,来确保在实际使用的场景下,兼顾内容行业分类的准确率和召回率。同时,在上述的两个功能之间,加入一定的人工标注处理流程,修正从内容中识别出的各行业的代表性特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容分类方法,其特征在于,所述方法包括:获取各个行业的内容数据,通过特征挖掘提取各个行业有代表性的特征信息,所述特征信息包括特征词和词语组合;接收外部输入的人工标注信息,对提取的所述特征词和词语组合搭配进行修复和保留,并去掉挖掘有误的特征信息;将处理后的各个行业的特征信息,保存至行业特征数据库;获取待分类的文本内容,根据所述行业特征数据库中保存的特征信息,匹配提取所述文本内容中的特征信息;按预设的概率掩盖掉所述文本内容中其它不相关的内容片段;根据行业分类模型,对处理后的文本内容进行预测,得到该文本内容的行业分类结果;使用处理后的文本内容对行业分类模型进行训练。2.根据权利要求1所述的文本内容分类方法,其特征在于,所述根据所述行业特征数据库中保存的特征信息,匹配提取所述文本内容中的特征信息的步骤,具体包括:从所述行业特征数据库加载各行业的特征信息;按字符遍历当前获取的文本内容,提取匹配到的特征信息。3.根据权利要求2所述的文本内容分类方法,其特征在于,所述按预设的概率掩盖掉所述文本内容中其它不相关的内容片段的步骤,具体包括:对所述文本内容中没有匹配到字符,按以下公式的概率进行随机掩盖:Pm=(1

1.0/(a*log(len(Text)/(len(F)+1))+1))*(1

b*(Wl*Rl+Wr*Rr)/2)其中,Pm表示当前字符被掩盖的概率,Text表示输入的文本内容,len(Text)是输入文本的字符长度,F表示提取到的特征信息的字符串的拼接,len(F)是这些提取到的字符的累计长度,Wl表示当前遍历位置左侧最近的特征词的分类权重,Wr表示当前遍历位置右侧最近特征词的分类权重,Rl和Rr分别表示当前遍历到的未匹配字符位置,相对左右两侧特征词的距离比,a、b是调节因子,a的取值范围是0到正无穷的非负整数,b的取值范围是[0,1]。4.根据权利要求3所述的文本内容分类方法,其特征在于,所述方法还包括:使用经过预测的文本内容,结合其预测得到的行业分类结果,对所述行业特征数据库中的特征信息进行更新。5.一种文本内容分类装置,其特征在于,所述装置包括:数据获取单元,用于获取各个行业的内容数据,通过特征挖掘提取各个行业有代表性的特征信息,所述特征信息包括特征词和词语组合;标注修复单元,接收外部输入的人工标注信息,对提取的所述特征词和词语组合搭配...

【专利技术属性】
技术研发人员:唐亮曹特磊赵伟
申请(专利权)人:时趣互动北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1