【技术实现步骤摘要】
一种基于门控机制的自适应稀疏采样文本分类仪
[0001]本专利技术涉及文本分类识别领域,具体是一种基于门控机制的自适应稀疏采样文本分类仪。
技术介绍
[0002]文本分类,就是把文本按照一定的规则分门别类。“规则”可以由人来定,也可以用算法从有标签数据中自动归纳。目前,文本分类算法应用广泛,其作为情感分析、意图识别、问答匹配、句子匹配和指代消解问题的基石问题,分类算法的性能很大程度决定了各类下游任务的表现。
[0003]文本分类问题是自然语言处理领域中的一个经典问题,相关研究最早可以追溯到利用专家规则(Pattern)进行分类,但该方法费时费力,覆盖的范围和准确率都非常有限。后随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了人工特征工程结合浅层分类建模的流程。传统做法的主要问题在于其文本表示是高纬度高稀疏的,特征表达能力很弱,此外需要高成本的人工特征工程构建。而深度学习方法最初在图像和语音取得巨大成功,也相应的推动了深度学习在NLP上的发展,使得深度学习模型在文本分类任务
【技术保护点】
【技术特征摘要】
1.一种基于门控机制的自适应稀疏采样文本分类仪,由文本数据采集器、数据库、文本分类识别仪、分类结果显示仪等几部分构成。所述文本采集器负责在海量文本数据中采集符合要求的文本,其与数据库相连;数据库与文本分类识别仪、分类结果显示仪依次连接,能够通过文本分类数据实现文本分类。其特征在于:所述文本分类识别仪,包括数据预处理模块、参数寻优模块、稀疏采样模块、门控自适应分类模块以及集成模块;所述数据预处理模块与参数寻优模块相连,将文本分类数据作为输入,将经过处理后的输出文本数据作为参数寻优模块的输入;所述参数寻优模块与对应稀疏采样模块连接,引入错位采样以提升分类速度;所述稀疏采样模块与对应门控自适应分类模块相连,根据任务难度动态调整分类结构深度;各门控自适应分类模块均和同一个集成模块相连,集成模块将各个门控自适应分类模块的分类结果进行集成推理,输出最终结果;2.根据权利要求1所述的一种基于门控机制的自适应稀疏采样文本分类仪,其特征在于,所述数据预处理模块的输入来自话题文本数据,筛选其中文本长度大于1000字的文本数据,经标注后,得到由m(m>1000)个字组成的文本数据对text*进行无效词处理得到text={x
′1,x
′2,...,x
′
m
‑
k
}={x
′1,x
′2,...,x
′
n
},其中text为处理后的文本数据,x为具体字符,上标*号表示处理前,上标
’
号表示处理后,k为删除的无效词个数,n为无效词处理后的句长。对无效词处理后的text进行关键词提取,具体步骤如下:(1)将训练文本合并成标签集合文本set
i
={text
i1
,text
i2
,...,text
im
},不同的训练集标签文本组成不同标签的文本集合Set={set1,set2,...,set
n
},其中i为对应标签类别,m为对应类别下的文本数量。(2)统计每个词相对于每个标签集合内文本的平均词频,计算公式如下:其中,TF
ik
表示词word
k
在标签集set
i
中的平均词频,count(word
k
,text
ij
)表示word
k
在text
ij
中出现的次数。(3)计算每个词相对于标签的逆向词频,计算公式如下。其中,count(word
k
,set
j
)表示词word
k
在标签集set
i
中次数,|set
j
|表示标签集set
i
中的总词数。(4)计算每个词相对于标签的重要程度得分:TF
‑
IDF
ik
=TF
ik
×
IDF
ik
ꢀꢀꢀꢀ
(3)(5)训练集文本的词的重要程度得分由该文本所属标签词集中查找。每段文本得分最高的前m个词组成该类别文本数据的关键词库Keywords
i
={word1,word2,...,word
m
},其中i为对应类别标签。由训练集得出的每个词相对于每个标签的重要程度得分,由此关键词库对后续的稀疏采样模块进行指导,将其作为衡量字段重要程度与文本分类难度的依据。3.根据权利要求1所述的一种基于门控机制的自适应稀疏采样文本分类仪,其特征在
于,所述参数寻优模块,通过基于引力搜索算法的参数寻优策略,优化后文稀疏采样模块中涉及到的关键词中心程度κ,实现各个门控自适应分类模块的全局最优,其具体实现步骤如下:所述基于改进引力搜索算法的参数寻优模块用于优化后文稀疏采样模块中涉及到的关键词中心程度κ,实现具体步骤如下:(1)算法初始化,随机初始化所有粒子,每个粒子代表问题的一个候选解;在一个D维的搜索空间中,假设有NP个粒子,定义第i个粒子的位置为设定迭代结束条件,iter
max
即最大迭代次数;(2)在某t时刻,定义第j个粒子作用在第i个粒子上的引力大小为:其中,M
aj
(t)和M
pi
(t)分别为作用粒子j的惯性质量和被作用粒子i的惯性质量,R
ij
(t)是第i个粒子和第j个粒子之间的欧氏距离,ε是一个很小的常量,G(t)是在t时刻的引力常数:其中,α是下降系数,G0是初始引力常数,iter
max
是最大迭代次数;(3)粒子的惯性质量依据其适应度值的大小来计算,惯性质量越大表明它越接近最优值,同时意味着该粒子的吸引力越大,但其移动速度却越慢;假设引力质量与惯性质量相等,粒子的质量可以通过适当的运算规则去更新,更新算法如下所示:M
ai
=M
pi
=M
ii
=M
i
,i=1,2,...,NP
ꢀꢀꢀꢀ
(7)(7)其中,fit
i
(t)代表在t时刻第i个粒子的适应度值的大小;M
i
(t)是第i个粒子的惯性质量;m
i
表示第i个粒子的绝对质量,m
j
表示第j个粒子的绝对质量;M
ii
表示第i个粒子的自身引力质量。对求解最小值问题,best(t)和worst(t)定义如下:引力质量。对求解最小值问题,best(t)和worst(t)定义如下:对求解最大值问题,best(t)和worst(t)定义如下:对求解最大值问题,best(t)和worst(t)定义如下:(4)假设t时刻在第d维上作用在第i个粒子上的总作用力等于其他所有粒子对它
的作用力之和,计算公式如下:其中,rand
j
是范围在[0,1]的随机数,Kbest是一开始具有最佳适应度的前K个粒子的集合;根据牛顿第二定律,t时刻粒子i在第d维上的加速度为:(5)在下一次迭代中,粒子的新速度为部分当前速度与其加速度的总和;因此,GSA在每一次迭代运算过程中,粒子都会根据以下公式更新它的速度和位置:v
i
(t+1)=ωv
i
(t)+c1r
i1
a
i
(t)+c2r
i2
(gbest
‑
x
i
(t))
ꢀꢀꢀꢀ
(16)x
i
(t+1)=x
i
(t)+v
i
(t+1)
ꢀꢀꢀꢀ
(17)其中,v
i
(t)是粒子i在第t次迭代的速度,x
i
(t)是粒子i在第t次迭代的位置,a
i
(t)是粒子i在第t次迭代的加速度,gbest是当前的最优解,r
i1
和r
i2
是[0,1]之间的两个随机数;ω逐渐减...
【专利技术属性】
技术研发人员:刘兴高,陈欣杰,陈士超,王文海,张志猛,张泽银,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。