【技术实现步骤摘要】
一种科技论文文本建模方法
本专利技术涉及计算机科学与
,更具体地,涉及一种科技论文文本建模方法。
技术介绍
现有的对科技论文进行分析的技术主要是由各大学术数据库网站提供的基于关键词的知识主题趋势分析、基于引文统计的论文引文分析等。传统的基于关键词或统计信息的处理方法已不能满足对大量科技论文的内在规律的发现。在主题识别过程中,学科与学科之间的区分度大而较容易进行主题识别。但对于学科内部的主题信息,其区分度小且交叉程度大,并且随着学科的发展而动态变化,使得难以提前进行主题的识别。传统的基于关键词共现的主题识别方法未考虑科技论文全文信息,分析深度有限。科技论文区别与一般文本的地方在于有固定的行文规范,其全文信息主要包括标题、摘要、关键字、段落标题、前言、正文、结语、参考文献等。许多学者对传统的TF-IDF权重计算方法提出改进的办法,都认为TF-IDF方法对特征词的某些特点考虑不足,如路永和(路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015,31(4):18-25.)等人引入词性改进特征权重计算方法,进而影响文本特征权重的取值 ...
【技术保护点】
1.一种科技论文文本建模方法,其特征在于:包括以下步骤:阶段一、预处理:Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;Step3.通过word2vec计算特征词的词向量,利用k‑means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMC ...
【技术特征摘要】
1.一种科技论文文本建模方法,其特征在于:包括以下步骤:阶段一、预处理:Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;Step3.通过word2vec计算特征词的词向量,利用k-means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;Step9.利用k-means算法对产生的最优解进行聚类,利...
【专利技术属性】
技术研发人员:路永和,周月鹏,罗嘉仪,翟媛媛,郑雅文,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。