一种基于全局和局部信息抽取的多标签分类方法技术

技术编号:24853848 阅读:34 留言:0更新日期:2020-07-10 19:07
本发明专利技术提供了一种基于全局和局部信息抽取的多标签分类方法,包括如下步骤:S10、通过文本数据获取词汇表,并获得所有词以及所有所述候选标签的分布式表示;S20、经计算获得所有所述词的综合全局编码结果和局部求和结果;S30、将全局编码和局部求和结果进行加权求和,获得求和结果,将每个所述候选标签的分布式表示依次与所述求和结果计算内积,获得每个所述候选标签的概率;以及S40、保留所有概率大于0.5的所述候选标签作为选中标签,输出结果。本发明专利技术的一种基于全局和局部信息抽取的多标签分类方法,通过全局和局部信息的抽取,对输入文本进行不同维度的数据处理,进一步提升数据编码的准确性,提升分类的精度。

【技术实现步骤摘要】
一种基于全局和局部信息抽取的多标签分类方法
本专利技术涉及数据处理
,具体涉及一种基于全局和局部信息抽取的多标签分类方法。
技术介绍
随着互联网的发展以及人工智能时代的到来,信息交流变得日益频繁,使得信息总量有着巨大增长。在电子商务广泛应用的背景下,背后的各大电商平台的海量数据将具有不可估计的挖掘价值。虽然电子商务发展迅猛,但是也存在着不少问题。其中一个重要的问题就是电子商务产品质量。在电商数据中进行缺陷产品预测是一个全新的尝试,缺陷级别的分类属于多标签分类问题。多标签分类问题是指在一个标签集合下,一个样本可能具有多个标签。具体来说,一个产品的事件描述中,可能体现出气味、密闭性、功能性、漏电方面的问题,需要通过文本来识别出这些类别。为了处理这个问题,有很多有效的方法被提出来。经典的方法,如BinaryRelevence(BR)将多标签分类问题转换为多个单标签的分类问题,采用独立的方式,在训练每个标签的二元分类模型时,忽略其余标签的存在,然而该方法忽视了标签之前的相关性。另外一种方法关注于神经网络的使用,尤其是Sequenc本文档来自技高网...

【技术保护点】
1.一种基于全局和局部信息抽取的多标签分类方法,其特征在于,包括如下步骤:/nS10、对电商应用场景中的关于缺陷产品的文本数据进行预处理,建立词汇表,将所述词汇表中的词与候选标签通过所述词汇表转换为对应的词汇id与标签id;通过Word2Vec算法得到所述词汇表内所有词以及所有所述候选标签的分布式表示;/nS20、使用双向长短时记忆网络作为所述词的全局和局部编码器,经计算获得所有所述词的综合全局编码结果和局部求和结果;/nS30、将全局编码和局部求和结果进行加权求和,获得求和结果,将每个所述候选标签的分布式表示依次与所述求和结果计算内积,每个所述候选标签对应的内积即为每个所述候选标签的分数,将...

【技术特征摘要】
1.一种基于全局和局部信息抽取的多标签分类方法,其特征在于,包括如下步骤:
S10、对电商应用场景中的关于缺陷产品的文本数据进行预处理,建立词汇表,将所述词汇表中的词与候选标签通过所述词汇表转换为对应的词汇id与标签id;通过Word2Vec算法得到所述词汇表内所有词以及所有所述候选标签的分布式表示;
S20、使用双向长短时记忆网络作为所述词的全局和局部编码器,经计算获得所有所述词的综合全局编码结果和局部求和结果;
S30、将全局编码和局部求和结果进行加权求和,获得求和结果,将每个所述候选标签的分布式表示依次与所述求和结果计算内积,每个所述候选标签对应的内积即为每个所述候选标签的分数,将所有所述候选标签的分数归一化后,获得每个所述候选标签的概率;以及
S40、保留所有概率大于0.5的所述候选标签作为选中标签,并将概率大于0.5的所述选中标签的标签id转换成对应的字符序列,输出结果。


2.根据权利要求1所述的一种基于全局和局部信息抽取的多标签分类方法,其特征在于,所述步骤S20包括:
S21将当前所有所述词通过全局编码器得到全局编码结果;以及
S22将当前所有所述词通过第i个类别的局部编码器,得到K个局部编码结果,将K个所述局部编码结果进行对应列求和,获得局部求和结果;
其中,K为局部编码器的数量,i∈[1,K],所述局部编码结果以及...

【专利技术属性】
技术研发人员:张天龙殷姣马世申
申请(专利权)人:江苏省质量和标准化研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1