【技术实现步骤摘要】
一种基于词向量的层次多标签文本分类方法及系统
本专利技术涉及一种基于词向量的层次多标签文本分类方法,同时涉及一种实现该方法的系统。
技术介绍
科研成果作为科研单位和人员科研活动产出的主要内容,是学术研究、学术交流的主要途径。随着互联网和信息技术的发展,科研成果的数量在过去的几十年指数级增长,每个月都会产生几百万篇新的论文。为了更加方便地进行知识资源传播和共享,如何科学地管理这些科研成果以及为用户提供方便高效的检索服务成为了一个重点课题。目前,管理科研成果的形式主要有两种:机构知识库和文献检索引擎。机构知识库的兴起源于学术开放获取运动。它成为开放获取运动中重要的学术机构文献资源汇聚、存储和服务平台,在促进知识资源共享、提升学者学术影响力等方面有着重大意义。但是目前机构知识库在中国高校中的普及程度还不是很高,很多高校都没有建立自己的机构知识库。另外,在高校的机构知识库中只能检索到该高校的科研成果,筛选条件一般只有按院系、学者或者时间检索,没有将科研成果按其所属领域标签化,因此无法检索属于某个研究领域或其相关领域的 ...
【技术保护点】
1.一种基于词向量的层次多标签文本分类方法,其特征在于包括如下步骤:/n获取词向量模型;/n将科研成果信息和领域标签信息分别输入到词向量模型得到词向量;其中,领域标签信息为层次多标签文本;/n按照领域标签的层次,通过词向量逐级计算科研成果与领域标签的相似度,确定科研成果所属的研究领域。/n
【技术特征摘要】
1.一种基于词向量的层次多标签文本分类方法,其特征在于包括如下步骤:
获取词向量模型;
将科研成果信息和领域标签信息分别输入到词向量模型得到词向量;其中,领域标签信息为层次多标签文本;
按照领域标签的层次,通过词向量逐级计算科研成果与领域标签的相似度,确定科研成果所属的研究领域。
2.如权利要求1所述的基于词向量的层次多标签文本分类方法,其特征在于将科研成果信息输入到词向量模型得到词向量之前,还包括如下步骤:
将科研成果信息转化为文本向量。
3.如权利要求2所述的基于词向量的层次多标签文本分类方法,其特征在于:
采用单词向量平均的方式将科研成果信息转化为文本向量;即通过计算科研成果信息中单词的词向量的平均值得到科研成果信息的文本向量。
4.如权利要求1所述的基于词向量的层次多标签文本分类方法,其特征在于将领域标签信息输入到词向量模型得到词向量之前,还包括如下步骤:
为标签体系中的每一级的每个标签配置一个初步匹配文本,其中,所述标签的初步匹配文本为标签的一段解释;
将初步匹配文本中的内容提取特征词,将提取出的特征词作为标签体系中的标签配置的匹配文本。
5.如权利要求1所述的基于词向量的层次多标签文本分类方法,其特征在于将初步匹配文本中的内容提取特征词使用互信息的方法;包括如下步骤:
根据同级标签及其所有子标签的解释,对解释中每个单词a,分别统计单词a出现,解释属于标签A、不属于标签A的个数,以及单词a不出现,解释属于标签A、不属于标签A的个数;
计算单词a与标签A的互信息,采用如下计算公式:
其中,I(a;A)为单词a与标签A的互信息;N00为单词a不出现,解释不属于标签A的个数;N01为单词a不出现,解释属于标签A的个数;N0·为没有单词a的解释的总个数;N·1为有单词a的解释的总个数;N·0为不属于标签A的解释的总个数;N1·为属于标签A的解释的总个数;N为解释的总个数;
取每个标签互信息最大的M个单词作为该标签的特征词,并删除同级标签之间共有的特征词;其中,M为正整数;
得到每个标签的特征词后,特征词为标签的匹配文本。
6.如权利要求1所述的基于词向量的层次多标签文本分类方法,其特征在于:
按照领域标签的层次,通过词向量逐级计算科研成果与领域标签的相似度,确定科研成果所属的研究领域在标签体系中采用自底向上搜索方法或者...
【专利技术属性】
技术研发人员:王德庆,赵正阳,刘文韬,
申请(专利权)人:北京国信利斯特科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。