【技术实现步骤摘要】
篇章级文本的层级多标签分类方法、系统、设备及介质
[0001]本专利技术涉及数据处理
,尤其涉及一种篇章级文本的层级多标签分类方法、系统、设备及介质。
技术介绍
[0002]目前,在数据爆炸的互联网信息时代,智能移动设备的广泛普及和人们对新闻热点的关注度的上升催发了大量的新闻媒体网站、公众号,由此产生了海量的新闻类数据。这些数据大多是包含标题和内容的、长度偏长的篇章类文本的形式,是典型的新闻类文本,其标题精简且要点突出,其内容覆盖全面但特征相对不明显。因此,如何对篇章类文本进行高效的自动化分类,从而为文章的快速推送、快速捕捉文章要点等进一步的应用打下基础,已经成为自然语言处理领域的研究热点。
[0003]文本分类是NLP应用领域中最常见也最重要的任务类型,其难点在于长文本、按粒度层级化、多标签三个方面。现在的文本分类方法基本都使用深度学习方法,通过训练层数很深的神经网络模型来强力捕捉文本特征,从而解决上述难点并获得较高的准确度。但深度学习方法有着昂贵的计算代价,无论是模型训练还是使用模型进行分类预测都将造成计算 ...
【技术保护点】
【技术特征摘要】
1.一种篇章级文本的层级多标签分类方法,其特征在于,包括:获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集,其中,所述有监督文本数据集包括标题文本和内容文本;分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集;利用在大规模语料上训练好的词向量模型作为向量化层对所述标题特征项集和所述内容特征项集中的每个特征项进行向量化;将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型,以及,将向量化后的内容特征项集合训练分级注意力网络,得到内容分类模型;将所述标题特征项集输入所述标题分类模型,得到一级预测结果;根据所述层级标签体系,将所述内容特征项集根据所述一级预测结果输入与其对应的内容分类模型,得到二级预测结果。2.根据权利要求1所述的方法,其特征在于,所述获取篇章类文本数据集并按层级标签体系对所述篇章类文本数据集进行多标签标注,得到有监督文本数据集的步骤,包括:按所述层级标签体系将所述篇章类文本数据集中每个数据标注所属一级标签;根据每个所述数据对应的一级标签和所述层级标签体系,将每个所述数据标注所属二级标签;根据每个所述数据及其对应的一级标签和二级标签形成所述监督文本数据集。3.根据权利要求1所述的方法,其特征在于,所述分别对所述标题文本和所述内容文本进行预处理,得到标题特征项集和内容特征项集的步骤,包括:对所述标题文本进行分词操作后进行去除停用词操作和词性过滤操作,得到所述标题特征项集;对所述内容文本进行分句操作后进行所述分词操作,并进行所述去除停用词操作和所述词性过滤操作,得到所述内容特征项集。4.根据权利要求1所述的方法,其特征在于,所述将向量化后的标题特征项集合训练长短时记忆神经网络,得到标题分类模型的步骤,包括:冻结所述词向量模型的向量化层参数,并采用随机失活策略和代价函数将所述向量化后的标题特征项集合训练所述长短时记忆神经网络,得到所述标题分类模型。5.根据权利要求1所述的方法,其特征在于,所述将向量化后的内容特征项集合训练分级注意力网络...
【专利技术属性】
技术研发人员:李芳芳,崔玉峰,张健,龙军,陈先来,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。