一种文档分类方法及装置制造方法及图纸

技术编号：20160520 阅读：21 留言：0更新日期：2019-01-19 00:13

本发明专利技术公开一种文档分类方法及装置。该文档分类方法包括：根据获取的输入源元素和输入背景，确定所述输入源元素和输入背景的交互，其中所述输入背景根据所述输入源元素来构建；将所有交互信息表示成交互矩阵；通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。本发明专利技术提供的方案，能更好反映文档中各成分间的语义联系，也可以提升文档分类效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档分类方法及装置
本专利技术涉及计算机网络
，具体涉及一种文档分类方法及装置。
技术介绍
在自然语言处理中，文档分类通常是赋予文本一个或多个类别标签。现有技术中，文档分类有广泛的应用，例如应用在情感分类、文档排序以及话题标识等方面。传统用于文档分类的方法主要根据该文档与某一类标签的相关性赋予标签，这通常是根据统计性指标进行估计，例如：共现词的频率、共现词对的频率和每个词在不同文档中的权重分数等。这种统计性分类方法已经取得了明显的进步，但当它们应用于大规模语料库上时，会遭受到数据稀疏性和维度爆炸问题。为了解决这个问题，现有技术中还出现了基于神经网络的文档分类方法，该方法通过学习低维的文档表示来应对这种现象。这种基于神经网络的文档分类，具有解决文档表示维度问题的优势，但通常依赖于网络的结构，并没有直接刻画存在于文档中的成分间交互，也即并没有直接模拟存在于文档中各元素间的交互，例如词或句子，这导致了语义的缺失。因此，现有的文档分类方法，仍有待改进。
技术实现思路
有鉴于此，本专利技术的目的在于提出一种文档分类方法及装置，能更好反映文档中各成分间的语义联系。根据本专利技术的一个方面，提供一种文档分类方法，包括：根据获取的输入源元素和输入背景，确定所述输入源元素和输入背景的交互，其中所述输入背景根据所述输入源元素来构建；将所有交互信息表示成交互矩阵；通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。优选的，所述根据获取的输入源元素和输入背景，确定所述输入源元素和输入背景的交互，其中所述输入背景根据所述输入源元素来构建，包括：将获取的输入源...

【技术保护点】
1.一种文档分类方法，其特征在于，包括：根据获取的输入源元素和输入背景，确定所述输入源元素和输入背景的交互，其中所述输入背景根据所述输入源元素来构建；将所有交互信息表示成交互矩阵；通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。

【技术特征摘要】
1.一种文档分类方法，其特征在于，包括：根据获取的输入源元素和输入背景，确定所述输入源元素和输入背景的交互，其中所述输入背景根据所述输入源元素来构建；将所有交互信息表示成交互矩阵；通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。2.根据权利要求1所述的方法，其特征在于，所述根据获取的输入源元素和输入背景，确定所述输入源元素和输入背景的交互，其中所述输入背景根据所述输入源元素来构建，包括：将获取的输入源元素进行向量化，得到输入源元素向量；通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示，其中所述输入背景是将每个输入源元素视为对应的背景；确定所述输入源元素和所述输入背景的交互。3.根据权利要求2所述的方法，其特征在于，所述确定所述输入源元素和所述输入背景的交互，包括：使用注意力机制确定所述输入源元素和所述输入背景的交互。4.根据权利要求1至3任一项所述的方法，其特征在于，所述通过平均化交互层、最大化交互层将所述交互矩阵转化为文本表示，包括：在平均化交互层采用平均池化，将所述交互矩阵转化为文本表示；在最大化交互层应用最大化池化，将所述交互矩阵转化为文本表示。5.根据权利要求1至3任一项所述的方法，其特征在于，所述通过注意力层将所述交互矩阵转化为文本表示，包括：将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示；获得所述交互对应的隐形表示的权重分布；根据获得的权重分布，在注意力层将交互矩阵转化为固定维度的文...

【专利技术属性】
技术研发人员：陈洪辉，刘俊先，蔡飞，舒振，陈涛，罗爱民，潘志强，张鑫，陈皖玉，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人