一种文档分类方法及装置制造方法及图纸

技术编号:20160520 阅读:21 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开一种文档分类方法及装置。该文档分类方法包括:根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;将所有交互信息表示成交互矩阵;通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。本发明专利技术提供的方案,能更好反映文档中各成分间的语义联系,也可以提升文档分类效率。

【技术实现步骤摘要】
一种文档分类方法及装置
本专利技术涉及计算机网络
,具体涉及一种文档分类方法及装置。
技术介绍
在自然语言处理中,文档分类通常是赋予文本一个或多个类别标签。现有技术中,文档分类有广泛的应用,例如应用在情感分类、文档排序以及话题标识等方面。传统用于文档分类的方法主要根据该文档与某一类标签的相关性赋予标签,这通常是根据统计性指标进行估计,例如:共现词的频率、共现词对的频率和每个词在不同文档中的权重分数等。这种统计性分类方法已经取得了明显的进步,但当它们应用于大规模语料库上时,会遭受到数据稀疏性和维度爆炸问题。为了解决这个问题,现有技术中还出现了基于神经网络的文档分类方法,该方法通过学习低维的文档表示来应对这种现象。这种基于神经网络的文档分类,具有解决文档表示维度问题的优势,但通常依赖于网络的结构,并没有直接刻画存在于文档中的成分间交互,也即并没有直接模拟存在于文档中各元素间的交互,例如词或句子,这导致了语义的缺失。因此,现有的文档分类方法,仍有待改进。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种文档分类方法及装置,能更好反映文档中各成分间的语义联系。根据本专利技术的一个方面,提供一种文档分类方法,包括:根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;将所有交互信息表示成交互矩阵;通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。优选的,所述根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建,包括:将获取的输入源元素进行向量化,得到输入源元素向量;通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;确定所述输入源元素和所述输入背景的交互。优选的,所述确定所述输入源元素和所述输入背景的交互,包括:使用注意力机制确定所述输入源元素和所述输入背景的交互。优选的,所述通过平均化交互层、最大化交互层将所述交互矩阵转化为文本表示,包括:在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。优选的,所述通过注意力层将所述交互矩阵转化为文本表示,包括:将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;获得所述交互对应的隐形表示的权重分布;根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。优选的,所述方法还包括:所述注意力层在词水平上采用标准注意力机制,在句子水平上采用自交互注意力机制。根据本专利技术的另一个方面,提供一种文档分类装置,包括:交互模块,用于根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;矩阵模块,用于将所述交互模块的所有交互信息表示成交互矩阵;转化模块,用于通过平均化交互层、最大化交互层和注意力层将所述矩阵模块的交互矩阵转化为文本表示。优选的,所述交互模块包括:向量子模块,用于将获取的输入源元素进行向量化,得到输入源元素向量;隐形子模块,用于通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;交互处理子模块,用于确定所述输入源元素和所述输入背景的交互。优选的,所述转化模块包括:平均化交互层子模块,用于在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;最大化交互层子模块,用于在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。优选的,所述转化模块还包括:注意力层子模块,用于将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示,获得所述交互对应的隐形表示的权重分布,根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。可以发现,本专利技术实施例的技术方案,是根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,并且其中所述输入背景根据所述输入源元素来构建,这与标准注意力机制中输入背景常常作为额外的输入不相同,本专利技术实施例是将每个源元素视为对应的背景来设计一种深度交互而不用额外的信息输入;另外,本专利技术将所有交互信息表示成交互矩阵,再通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示,也就是通过三种聚合策略来将交互信息融入分层架构,得到不同层的文本表示,以此进行文档分类,能更好反映文档中各成分间的语义联系。本专利技术实施例通过将源元素与背景之间的交互融入分层架构,因此可以保留文本的整体语义,并且提升文档分类的性能。进一步的,本专利技术实施例可以将获取的输入源元素进行向量化,得到输入源元素向量;通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;确定所述输入源元素和所述输入背景的交互。进一步的,本专利技术实施例可以在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。进一步的,本专利技术实施例可以将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;获得所述交互对应的隐形表示的权重分布;根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1是根据本专利技术的一个实施例的一种文档分类方法的示意性流程图;图2是根据本专利技术的一个实施例的一种文档分类方法的另一示意性流程图;图3是根据本专利技术的一个实施例的文档分类方法中的自交互注意力机制的原理示意图;图4是根据本专利技术的一个实施例的文档分类方法中的自交互注意力机制的过程示意图;图5是根据本专利技术的一个实施例的文档分类方法中在聚合策略中的池化过程的示意图;图6是根据本专利技术的一个实施例的文档分类方法中在聚合策略中的自交互过程的示意图;图7是根据本专利技术的一个实施例的在Yelp2016中不同句子数目的文档分类精度的示意图;图8是根据本专利技术的一个实施例的在AmazonReviews(Electronics)中不同句子数目的文档分类精度的示意图;图9是根据本专利技术的一个实施例的一种文档分类装置的示意性方框图;图10是根据本专利技术的一个实施例的一种文档分类装置的另一示意性方框图;图11是根据本专利技术的一个实施例的一种文档分类设备的示意性方框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。本专利技术提出一种文档分类方法,尤其是一种基于自交互注意力机制的文档分类方法,能更好反映文档中各成分间的语义联系,也可以提升文档分类效率。以下结合附图详细描述本专利技术实施例的技术方案。图1是根据本专利技术的一个实施例的一种文档分类方法的示意性流程图。该本文档来自技高网...

【技术保护点】
1.一种文档分类方法,其特征在于,包括:根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;将所有交互信息表示成交互矩阵;通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。

【技术特征摘要】
1.一种文档分类方法,其特征在于,包括:根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;将所有交互信息表示成交互矩阵;通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。2.根据权利要求1所述的方法,其特征在于,所述根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建,包括:将获取的输入源元素进行向量化,得到输入源元素向量;通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;确定所述输入源元素和所述输入背景的交互。3.根据权利要求2所述的方法,其特征在于,所述确定所述输入源元素和所述输入背景的交互,包括:使用注意力机制确定所述输入源元素和所述输入背景的交互。4.根据权利要求1至3任一项所述的方法,其特征在于,所述通过平均化交互层、最大化交互层将所述交互矩阵转化为文本表示,包括:在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。5.根据权利要求1至3任一项所述的方法,其特征在于,所述通过注意力层将所述交互矩阵转化为文本表示,包括:将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;获得所述交互对应的隐形表示的权重分布;根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文...

【专利技术属性】
技术研发人员:陈洪辉刘俊先蔡飞舒振陈涛罗爱民潘志强张鑫陈皖玉
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1