一种科技论文文本建模方法技术

技术编号：19424901 阅读：32 留言：0更新日期：2018-11-14 10:32

传统的TF‑IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本发明专利技术认为在考虑特征词的不同特点如词性、位置等时候，应当使用不同加权方法对TF‑IDF进行改进。因此首先对科技论文的不同结构进行分类，区分出随着文本长度增加而同比例增加的结构，如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构，如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权，对后者使用加法进行加权，最终得到基于科技论文结构的改进TF‑IDF权重计算公式。在传统TF‑IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权，解决了传统方法中未考虑特征词的位置信息这一缺点。

全部详细技术资料下载

【技术实现步骤摘要】
一种科技论文文本建模方法
本专利技术涉及计算机科学与
，更具体地，涉及一种科技论文文本建模方法。
技术介绍
现有的对科技论文进行分析的技术主要是由各大学术数据库网站提供的基于关键词的知识主题趋势分析、基于引文统计的论文引文分析等。传统的基于关键词或统计信息的处理方法已不能满足对大量科技论文的内在规律的发现。在主题识别过程中，学科与学科之间的区分度大而较容易进行主题识别。但对于学科内部的主题信息，其区分度小且交叉程度大，并且随着学科的发展而动态变化，使得难以提前进行主题的识别。传统的基于关键词共现的主题识别方法未考虑科技论文全文信息，分析深度有限。科技论文区别与一般文本的地方在于有固定的行文规范，其全文信息主要包括标题、摘要、关键字、段落标题、前言、正文、结语、参考文献等。许多学者对传统的TF-IDF权重计算方法提出改进的办法，都认为TF-IDF方法对特征词的某些特点考虑不足，如路永和(路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015,31(4):18-25.)等人引入词性改进特征权重计算方法，进而影响文本特征权重的取值...

【技术保护点】
1.一种科技论文文本建模方法，其特征在于：包括以下步骤：阶段一、预处理：Step1.导入科技论文集，经过格式转换、结构识别和数据清洗构成未分词数据库；Step2.抽取关键词集，结合结巴分词系统进行文本分词，然后去停用词，利用词性过滤以后，完成科技论文数据库的构建；Step3.通过word2vec计算特征词的词向量，利用k‑means聚类算法进行词聚类，然后基于word2vec的特征构造方法构造主题特征；阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值，其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1]，设置和声搜索算法的记忆思考概率HMCR，音调调整概率PA...

【技术特征摘要】
1.一种科技论文文本建模方法，其特征在于：包括以下步骤：阶段一、预处理：Step1.导入科技论文集，经过格式转换、结构识别和数据清洗构成未分词数据库；Step2.抽取关键词集，结合结巴分词系统进行文本分词，然后去停用词，利用词性过滤以后，完成科技论文数据库的构建；Step3.通过word2vec计算特征词的词向量，利用k-means聚类算法进行词聚类，然后基于word2vec的特征构造方法构造主题特征；阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值，其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1]，设置和声搜索算法的记忆思考概率HMCR，音调调整概率PAR、步长bw、迭代次数；Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM；Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解；Step7.判断新解是否优于HM内的最差解，若是，则将新的解替换最差解，得到新的HM；Step8.重复Step6到Step8，直到达到最大的迭代次数或满足停止准则后结束循环，输出最优解；Step9.利用k-means算法对产生的最优解进行聚类，利...

【专利技术属性】
技术研发人员：路永和，周月鹏，罗嘉仪，翟媛媛，郑雅文，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人