当前位置: 首页 > 专利查询>万迅专利>正文

一种基于机器学习排序的学术文本词汇功能识别方法技术

技术编号:15822631 阅读:20 留言:0更新日期:2017-07-15 04:51
本发明专利技术公开了一种基于机器学习排序的学术文本词汇功能识别方法,包括构造训练数据;基于排序的识别方法;特征构造;模型训练;利用训练得到的模型对文档摘要包含的词汇序列进行排序,对排序生成的结果,使用 top1 的结果作为抽取结果等5步骤,本发明专利技术通过在构建的训练集(CNKI数据库中收集的18690篇标题符合特定模式的文档摘要数据)中学习模型,对测试数据(从 ACM 和 ACL 收录文献中抽取并筛选后得到156篇文献)包含的词汇序列进行排序。其实验结果表明,在识别论文的核心问题和核心方法上具有较好的识别效果。

【技术实现步骤摘要】
一种基于机器学习排序的学术文本词汇功能识别方法
本专利技术属于智能识别
,尤其涉及一种基于机器学习排序的文档级词汇功能自动识别方法。
技术介绍
现有的学术信息检索和知识管理主要考虑的是文档级别的信息,在文档表示上也多采用词袋模型。这样的处理带来了计算上的便利,但同时也失去了对学术文本的深层语义理解,它们无法回答学术文献有关内容和主题的更具体的问题。并且,在学术文献的存量和增长速度都到了令人难以接受的地步的今天,传统的学术信息检索和知识管理已经没有办法对学科的全部文献予以掌握,这给学者们查找和阅读文献带来的压力也是巨大的。已有的直接相关研究成果中,Ding关注到这一话题,但Ding的成果也只是提及到词汇功能的概念,并没有得到深入的研究成果,也没有在技术方法上取得突破。其他相关的研究如信息抽取、本体知识库构建研究已经出现了大量成果:研究者围绕信息抽取、本体知识库构建提出了一系列理论和技术研究成果,也出现了大量成熟的技术产品和成果应用。总体而言,已有的成果数量较少,也存在着一定的不足:(1)已有研究成果对学术文本的词汇功能语义框架设置得过于简单,仅给出了两类分类或者三类分类,无法涵盖学术文本中词汇的所有功能属性;(2)已有的识别方法的实际效果能以保证,从相关论文中报告的结果看,识别方法的性能和效果都有所不足,难以付诸实际的语义分析应用;(3)已有的研究成果仅仅识别了词汇的功能,却没有对词汇间语义关系进行深入分析,这样得到的分析结果只是几个孤立的词汇,无法在真正意义上做到对文本的语义理解,例如,不但要得到表述评估指标的词汇(如信息检索中的“召回率”和“准确率”),还需要得到与之相关联的具体指标数值。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于机器学习排序的文档级词汇功能识别方法。本专利技术所采用的技术方案是:一种基于机器学习排序的学术文本词汇功能识别方法,其特征在于,包括以下步骤:步骤1:构造训练数据;步骤1.1:收集若干篇标题形式为“基于X的Y”的文档,对于每篇文档,将其英文题名转换成词性和频繁词性的表示方式;步骤1.2:通过对转换后的文本表示模式进行统计,得到“基于X的Y”类型标题模式;步骤1.3:经过对步骤1.2中得到的模式进行标注,得到从标题中抽取问题和方法的文本匹配模式;步骤2:基于排序的识别方法;步骤2.1:给定词汇组合P={w1,w2,...,wm}和标注结果词汇序列P′={w′1,w′2,...,w′n};首先使用最长字符串匹配方法对文本进行术语抽取,通过在不同粒度上进行切分,构造字符串切分树进行同义词归并;切分树归并后,文本中匹配了的字符串在各自归属的词袋中被去除,由此得到P和P′的新表示Pprocessed和P′processed;步骤2.2:利用停用词表,对Pprocessed和P′processed中的词汇做停用词过滤处理;步骤2.3:计算P和P′的相似性得分;步骤3:特征构造;为待排序词汇序列构造特征包括:词汇特征、句法特征和TextRank特征;步骤4:模型训练;步骤5:利用训练得到的模型对文档摘要包含的词汇序列进行排序,对排序生成的结果,使用top1的结果作为抽取结果。相对于现有技术,本专利技术的有益效果是,基于机器学习排序的文档级词汇功能自动识别方法中,通过在构建的训练集(CNKI数据库中收集的18690篇标题符合特定模式的文档摘要数据)中学习模型,对测试数据(从ACM和ACL收录文献中抽取并筛选后得到156篇文献)包含的词汇序列进行排序。其实验结果表明,在识别论文的核心问题和核心方法上具有较好的识别效果。附图说明图1为本专利技术实施例的字符串切分树示例。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术提供的一种基于机器学习排序的文档级词汇功能识别方法,包括以下步骤:步骤1,训练数据的构造。本实施例从CNKI的计算机领域和图情领域期刊数据中收集了88865篇标题形式为“基于X的Y”的文档,对于每篇文献,将其英文题名转换成词性和频繁词性的表示方式。构造方法如下:步骤1.1,句子s表示为词汇序列{w1,w2,…,wn},wi表示句子中第i个词汇,n是s的长度。频繁词汇列表F记录了预先给定的一系列频繁词汇。通过将s中所有非频繁词汇,即不出现在F中的词汇替换成词汇对应的组块(Chunk)标记,即可得到句子s对应的基于频繁词项和词性的文本表示。例如,句子“Inthispaper,wepresentamethodforinformationretrieval.”,F为in,we,present,for,则句子对应的星号模式为“InNN,wepresentNNforNN.”。步骤1.2,通过对转换后的文本表示模式进行统计,得到“基于X的Y”类型标题最为常见英文标题模式,见表1。表1为本专利技术实施例的抽取模式示例;经过对上述模式的标注,可以得到从标题中抽取问题和方法的文本匹配模式,抽取模式标注示例见表2。表2抽取模式标注示例利用这些模式,从CNKI论文的英文题名中抽取对应的词汇组合,并为这些词汇组合赋上类别。通过抽取,供得到核心问题与核心方法标注数据共18690条。这些抽取出来的问题与方法数据构成了对所在文本的核心问题与核心方法的标注。为了说明这些规则的可靠性和跨来源适用性,使用表2所示的抽取规则对ACM数据库收录论文的标题进行信息抽取,如果这些论文的标题能够匹配模板,则输出相应的词汇序列作为识别结果。评测时随机选择了1555条标题的抽取结果,人工判断抽取结果的准确性。评测结果显示:核心问题识别准确率为99.55%;核心方法抽取的准确率随着评测标准的变化有所变动,如果将实验中主要使用的工具也视作解决问题的方法,则准确率为为98.65%,如将工具类排除在外,则准确率为90.23%。步骤2,基于排序的识别方法,本实施例使用机器学习排序模型中的PairWise方法。步骤2.1,给定词汇组合P={w1,w2,…,wm}和标注结果词汇序列P′={w1′,w2′,…,wn′}。首先对文本进行术语抽取,本实施例使用了最长字符串匹配方法抽取术语,通过在不同粒度上进行切分,构造字符串切分树。例如,对文本“supportvectormachinebasedmethod”,假设存在术语“supportvector”和“supportvectormachine”,则可以构造字符串切分树结构,如图1所示。步骤2.2,构造得到两个字符串的切分树表示以后,接下来的计算便基于两棵树进行。利用同义词词典给出的同义词列表,每次选择两个树中归并收益最大的两个节点进行归并,一旦某个节点被归并,则其父节点和子孙节点将不再参与后续的归并,如此重复,直到没有节点可以被归并。通过切分树归并,可以将文本对中的同义词进行匹配,被匹配的字符串被认为是同义词汇,在各自的归属的词袋中需要被去除。由此,得到P={w1,w2,….,wm}和P′={w1′,w2′,…,wn′}的新表示Pprocessed={w1,w2,….,wm}和P′processed={w1′,w2′,…,wn′}。步骤2.3,为了避免噪音词本文档来自技高网
...
一种基于机器学习排序的学术文本词汇功能识别方法

【技术保护点】
一种基于机器学习排序的学术文本词汇功能识别方法,其特征在于,包括以下步骤:步骤1:构造训练数据;步骤1.1:收集若干篇标题形式为“基于X的Y”的文档,对于每篇文档,将其英文题名转换成词性和频繁词性的表示方式;步骤1.2:通过对转换后的文本表示模式进行统计,得到“基于X的Y”类型标题模式;步骤1.3:经过对步骤1.2中得到的模式进行标注,得到从标题中抽取问题和方法的文本匹配模式;步骤2:基于排序的识别方法;步骤2.1:给定词汇组合P={w

【技术特征摘要】
1.一种基于机器学习排序的学术文本词汇功能识别方法,其特征在于,包括以下步骤:步骤1:构造训练数据;步骤1.1:收集若干篇标题形式为“基于X的Y”的文档,对于每篇文档,将其英文题名转换成词性和频繁词性的表示方式;步骤1.2:通过对转换后的文本表示模式进行统计,得到“基于X的Y”类型标题模式;步骤1.3:经过对步骤1.2中得到的模式进行标注,得到从标题中抽取问题和方法的文本匹配模式;步骤2:基于排序的识别方法;步骤2.1:给定词汇组合P={w1,w2,...,wm}和标注结果词汇序列P′={w′1,w′2,...,w′n};首先使用最长字符串匹配方法对文本进行术语抽取,通过在不同粒度上进行切分,构造字符串切分树进行同义词归并;切分树归并后,文本中匹配了的字符串在各自归属的词袋中被去除,由此得到P和P′的新表示Pprocessed和P′processed;步骤2.2:利用停用词表,对Pprocessed和P′processed中的词汇做停用词过滤处理;步骤2.3:计算P和P′的相似性得分;步骤3:特征构造;为待排序词汇序列构造特征包括:词汇特征、句法特征和TextRank特征;步骤4:模型训练;步骤5:利用训练得到的模型对文档摘要包含的词汇序列进行排序,对排序生成的结果,使用top1的结果作为抽取结果。2.根据权利要求1所述的基于机器学习排序的学术文本词汇功能识别方法,其特征在于:步骤1.1中所述对于每篇文档,将其英文题名转换成词性和频繁词性的表示方式,首先将句子s表示为词汇序列{w1,w2,…,wn},wi表示句子中第i个词汇,n是s的长度;频繁词汇列表F记录了预先给定的一系列频繁词汇;通过将s中所有非频繁词汇,即不出现在F中的词汇替换成词汇对应的组块Chunk标记,即可得到句子s对应的基于频繁词项和词性的文本表示。3.根据权利要求1所述的基于机器学习排序的学术文本词汇功能识别方法,其特征在于:步骤2.3中所述计算P和P′的相似性得分,计算公式为:其中,|*|表示长度。4.根据权利要求1所述的基于机器学习排序的学术文本词汇功能识别方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:构造词汇特征,包括组合内的各个词汇、当前词汇序列的前一个词汇、当前词汇序列的后一个词汇、当前词汇组合的前两个词汇、当前词汇组合的后两个词汇以及当前词汇的前一个...

【专利技术属性】
技术研发人员:万迅程齐凯陆伟
申请(专利权)人:万迅
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1