【技术实现步骤摘要】
基于语义相关性的文本分类方法
[0001]本专利技术涉及自然语言处理索领域,具体涉及一种基于语义相关性的文本分类方法。
技术介绍
[0002]随着互联网和大数据时代的到来,文本数据海量增长,文本分类成为了人们处理海量数据的关键性技术,对于数据挖掘与信息检索至关重要,并在情感分析、话题检测、垃圾邮件过滤、网页分类等等领域得到广泛应用。
[0003]传统的文本分类技术只关注了文本中某个或者几个目标词来实现文本分类问题,这样存在的缺陷是对有上下文语义联系的短语将会将会出现判断错误。随着深度学习的发展,利用神经网络方法使用大量人工标注数据集能够针对特定数据训练得到高性能的文本分类模型,并取得不错的效果,至今已经有很多优秀的算法被提出,Tang等人利用递归神经网络(RecurrentNeural Network,RNN)可以学习到词序信息,在文档建模方面取得了很好的成果;基于RNN的变体如LSTM网络引入“门控”来控制信息的累计速度从而解决了RNN网络中存在的长距离依赖问题;双向长短时记忆网络是LSTM网络的进一步扩展,通过将 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于语义相关性的文本分类方法,其特征在于,所述方法包括以下步骤:对有标签文本数据进行预处理,从而获取有标签文本数据中的文本监督器,所述文本监督器为文本中与文本类别语义密切相关的一系列词;通过文本关联结构信息,构建文本监督器识别子模型,获取无标签文本中的文本监督器;根据文本监督器和文本类别之间的强关联性,将标注有文本监督的文本数据作为输入,采用经典的双向长短时记忆网络(Bi
‑
directional Long Short
‑
Term Memory,BILSTM)模型,提取原始文本的语义特征;利用特征增强机制获取基于文本监督器增强表示的文本特征,采用拼接的方式将原始文本的语义特征和基于文本监督器增强表示的文本特征进行融合;将融合结果经SoftMax函数,进而获取文本分类结果。2.根据权利要求1所述的一种语义相关性的文本分类方法,其特征在于,所述对有标签文本数据进行预处理,从而获取有标签文本数据中的文本监督器包括:将有标签文本数据进行词嵌入,所述词嵌入采用基于词级别和字符级别的向量进行拼接,获取有标签文本中每一个词所对应的词向量,以及文本类别词的语义特征;然后通过文本中每一个词所对应的词向量和文本类别词的语义特征进行内积得到内积分数向量E
score
,再利用归一化方法将E
score
归一化到区间[0,1],选择归一化分数大于阈值α1的词作为文本监督器词,所述α1设置为0.6。3.根据权利要求1所述的一种语义相关性的文本分类方法,其特征在于,所述构建文本监督器识别子模型包括图构造、图分解、图嵌入、词节点分类:对于图构造方式是基于输入的文本序列信息构造句子图,并通过顺序边和语义边两种边融合进行句子图的连接;其中顺序边按照文本中词节点的顺序依次连接;语义边是根据文本中各个词节点所对应的词向量之间相互内积得到内积分数向量E
score
,再利用归一化方法将E
score
技术研发人员:薛非,张成鲁,刘宝琪,李聪颖,席欢,余翌帆,周玉秀,雷帅,
申请(专利权)人:中国人民解放军军事科学院军事科学信息研究中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。