当前位置: 首页 > 专利查询>中山大学专利>正文

一种科技论文文本建模方法技术

技术编号:19424901 阅读:12 留言:0更新日期:2018-11-14 10:32
传统的TF‑IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本发明专利技术认为在考虑特征词的不同特点如词性、位置等时候,应当使用不同加权方法对TF‑IDF进行改进。因此首先对科技论文的不同结构进行分类,区分出随着文本长度增加而同比例增加的结构,如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构,如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权,对后者使用加法进行加权,最终得到基于科技论文结构的改进TF‑IDF权重计算公式。在传统TF‑IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权,解决了传统方法中未考虑特征词的位置信息这一缺点。

【技术实现步骤摘要】
一种科技论文文本建模方法
本专利技术涉及计算机科学与
,更具体地,涉及一种科技论文文本建模方法。
技术介绍
现有的对科技论文进行分析的技术主要是由各大学术数据库网站提供的基于关键词的知识主题趋势分析、基于引文统计的论文引文分析等。传统的基于关键词或统计信息的处理方法已不能满足对大量科技论文的内在规律的发现。在主题识别过程中,学科与学科之间的区分度大而较容易进行主题识别。但对于学科内部的主题信息,其区分度小且交叉程度大,并且随着学科的发展而动态变化,使得难以提前进行主题的识别。传统的基于关键词共现的主题识别方法未考虑科技论文全文信息,分析深度有限。科技论文区别与一般文本的地方在于有固定的行文规范,其全文信息主要包括标题、摘要、关键字、段落标题、前言、正文、结语、参考文献等。许多学者对传统的TF-IDF权重计算方法提出改进的办法,都认为TF-IDF方法对特征词的某些特点考虑不足,如路永和(路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015,31(4):18-25.)等人引入词性改进特征权重计算方法,进而影响文本特征权重的取值,在引入词性的特征权重计算方法中,采用粒子群算法迭代计算最优词性权重。兰均(兰均,施化吉,李星毅,等.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190.)等人利用网页标签信息所体现的位置特征计算特征词的复合权重,并以此权重为基础建立分类规则,对网页进行分类。路永和(路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95.)等人从特征项重要性和类别区分能力出发,研究文本分类中向量化时的特征权重计算。综合已有研究分析,科技论文具有固定的行文规范,有特定的文本结构,是一种半结构化数据,而出现在不同结构的词对于科技论文的表示程度是不同的。例如“甲”词出现在摘要或者关键词中,“乙”词只出现在正文中,则对于该篇科技论文,“甲”词应当比“乙”词具有更大的表示能力,在特征词权重计算时应赋予更大的权重。传统的TF-IDF权重计算方法只统计特征词的词频和文档频率,没有考虑该词所出现的位置信息。
技术实现思路
本专利技术旨在提出一种更有效的科技论文文本建模方法,结合科技论文的结构位置信息,提出一种基于科技论文结构的改进TF-IDF权重计算方法,利用词所在的结构位置信息计算位置影响系数,并使用和声搜索算法进行系数的寻优,以更好的进行科技论文的文本表示。为实现以上专利技术目的,采用的技术方案是:一种科技论文文本建模方法,包括以下步骤:阶段一、预处理:Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;Step3.通过word2vec计算特征词的词向量,利用k-means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;Step9.利用k-means算法对产生的最优解进行聚类,利用CH指标和轮廓系数对聚类效果进行评判;Step10.完成一次聚类分析,等待下一个科技论文集的到达,转步骤Step1。优选地,所述Step6通过记忆思考、音调调整、随机选取产生新解的具体机理如下:①记忆思考:以HMCR概率随机对HM的某些解分量进行保留,即新产生的是以HMCR的概率从记忆库中第i个解分量的集合Xi={x1i,x2i,…,xHMSi,}中随机选择;②音调调整:对记忆思考中得到的解分量按概率PAR进行扰动,得到音调调整后产生的新解分量;扰动原则为:其中,等式右边的是扰动前新解的第i个解分量;bw为带宽;rand()为-1到1的随机数,表示与邻近的值;③随机选取:新产生的是以1-HMCR的概率从可行解空间中随机选择的。优选地,收集科技论文数据,得到由PDF文件格式的科技论文所组成的科技论文文本集;然后,使用PDF2Text工具进行文本集格式转换,同时根据科技论文不同结构中文本字号大小信息,自动识别出科技论文的各个结构,并进行数据清洗以去除无法识别结构的论文,构成未分词数据库。与现有技术相比,本专利技术的有益效果是:(1)传统的向量空间模型是将每个单独的特征词作为向量空间中的每个特征项,它假设空间中各个维度是正交的,即对应的特征词之间是相互独立的,而这恰恰忽略了特征词之间的语义关联信息。本专利技术提出基于word2vec的科技论文主题特征构造方法,首先利用word2vec计算全部特征词的词向量并进行聚类,然后将聚类后形成的多个特征词集合抽象为多个主题特征,以作为向量空间中的特征项,最后针对构造的主题特征进行相应的权重计算。(2)传统的TF-IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本专利技术认为在考虑特征词的不同特点如词性、位置等时候,应当使用不同加权方法对TF-IDF进行改进。特征词的不同特点应分为两类:一类是会随着文本长度的增加而同比例增加的,如词性特点。一个词作为不同词性在文本中出现的次数随着文本长度增加而保持比例不变,例如一个词作为名词出现的概率是不会文本长度增加而改变的;另一类则是不会随着文本长度的增加而增加的,如位置特点。因此首先对科技论文的不同结构进行分类,区分出随着文本长度增加而同比例增加的结构,如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构,如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权,对后者使用加法进行加权,最终得到基于科技论文结构的改进TF-IDF权重计算公式。在传统TF-IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权,解决了传统方法中未考虑特征词的位置信息这一缺点。附图说明图1为方法的流程示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。下面结合附图对本专利技术做进一步的说明,在本实施方式中以情报学学科中的10个核心期刊科技论文文本建模为例。如图1,科技论文文本建模方法,首先进行科技论文的预处理,经过数据清洗、抽取关键词、去停用词和词性过滤以后,完成科技论文数据库的构建,再通过word2vec将科技论文文档转换为词向量文件,进行词聚类,然后构造主题特征,然后送入参数优化阶段。在参数优化阶段,利用和声搜索算法,先设置初始的位置影响参数,产生新的解后与和声库中的解进行对比,如果优于和声库中最差的解,则替换最差解,然后继续产生新解进行对本文档来自技高网
...

【技术保护点】
1.一种科技论文文本建模方法,其特征在于:包括以下步骤:阶段一、预处理:Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;Step3.通过word2vec计算特征词的词向量,利用k‑means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;Step9.利用k‑means算法对产生的最优解进行聚类,利用CH指标和轮廓系数对聚类效果进行评判;Step10.完成一次聚类分析,等待下一个科技论文集的到达,转步骤Step1。...

【技术特征摘要】
1.一种科技论文文本建模方法,其特征在于:包括以下步骤:阶段一、预处理:Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;Step3.通过word2vec计算特征词的词向量,利用k-means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;Step9.利用k-means算法对产生的最优解进行聚类,利...

【专利技术属性】
技术研发人员:路永和周月鹏罗嘉仪翟媛媛郑雅文
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1