一种基于语义迁移的文本分类方法技术

技术编号:23085117 阅读:35 留言:0更新日期:2020-01-11 01:10
本发明专利技术公开了一种基于语义迁移的文本分类方法,考虑到数据量的庞大,采用一种选举机制,先将将原始文本分组,对每组的待分类的文本数据集进行预处理构造文本‑词矩阵,再用神经网络模型BERT计算词间相似度矩阵,从而获得任务集中词语的分布式表示,然后,对该相似度矩阵进行截断奇异值分解获得转移矩阵,将该转移矩阵蕴含的语义信息迁移至文本向量化的过程中,获得任务集文本的低维度表示,接着,使用K‑Means算法对每个分组进行聚类,最后从所有小类中选择若干代表进行第二轮聚类,采用多数表决原则实现最终的文本分类。

A text classification method based on semantic migration

【技术实现步骤摘要】
一种基于语义迁移的文本分类方法
本专利技术属于自然语言处理
,更为具体地讲,涉及一种基于语义迁移的文本分类方法。
技术介绍
文本分类是指计算机根据文本表达的主题内容,自动地将文本分为若干类别。处于信息爆炸的时代,计算机自动文本分类可以帮助用户从海量文本中快速获取所需信息,大大提高人工处理信息的效率。在人工智能浪潮席卷全球的今天,文本分类已经被广泛地应用在文本审核、广告过滤、网络舆情等领域,成为了自然语言处理的一个非常重要研究方向。文本分类的方法可以大致分为基于监督式和无监督式学习的文本分类方法。由于基于监督式学习的文本分类方法需要使用大量具有分类标签的文本进行模型训练,但是在实际应用中这些标签数据难于获得。因此本专利技术主要关注无监督文本分类。无监督文本分类能从大量文本数据中发现潜在的知识和规律,它不仅可以获得知识,同时也对文本数据进行了处理,所以目前已经成为对文本信息进行有效地组织,摘要和导航的重要手段,被越来越多的研究人员关注。对文本进行分类,首先要进行文本向量化,然后再对文本向量进行分类。其中,文本向量化是整本文档来自技高网...

【技术保护点】
1.一种基于语义迁移的文本分类方法,其特征在于,包括以下步骤:/n(1)、采用选举机制将待分类的文本数据集分为G组,记为g

【技术特征摘要】
1.一种基于语义迁移的文本分类方法,其特征在于,包括以下步骤:
(1)、采用选举机制将待分类的文本数据集分为G组,记为g1,g2,…,gG;将分组后的每一组文本数据表示为X={x1,x2,…,x|X|},其中,xi表示第i篇待分类的文本,1≤i≤|X|,|X|表示文本数据集X中的文本篇数;|X|篇文本构成词库集W={w1,w2...w|W|},wj表示第j个词语,|W|表示词库集W中的词语个数;
(2)、对g1组文本数据X进行分词处处理,去除停用词;
(3)、构造文本-词矩阵A|X|×|W|,其中,矩阵的每一行代表文本,每一列代表词语,矩阵中的每个元素aij表示第j个词语在第i篇文本中的出现情况,若词语出现则为1,否则为0;
(4)、利用神经网络模型BERT构造词间相似度矩阵S|W|×|W|;
将每个词语输至入BERT,获得每个词语的向量表示,其中,第j个词语的向量表示为
利用余弦函数计算词间相似度:



其中,j'≠j*,分别代表第j'个词语和第j*...

【专利技术属性】
技术研发人员:王雄任朝俊吴环宇任婧
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1