当前位置: 首页 > 专利查询>万迅专利>正文

一种基于机器学习排序的学术文本词汇功能识别方法技术

技术编号：15822631 阅读：20 留言：0更新日期：2017-07-15 04:51

本发明专利技术公开了一种基于机器学习排序的学术文本词汇功能识别方法，包括构造训练数据；基于排序的识别方法；特征构造；模型训练；利用训练得到的模型对文档摘要包含的词汇序列进行排序，对排序生成的结果，使用 top1 的结果作为抽取结果等5步骤，本发明专利技术通过在构建的训练集（CNKI数据库中收集的18690篇标题符合特定模式的文档摘要数据）中学习模型，对测试数据（从 ACM 和 ACL 收录文献中抽取并筛选后得到156篇文献）包含的词汇序列进行排序。其实验结果表明，在识别论文的核心问题和核心方法上具有较好的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习排序的学术文本词汇功能识别方法
本专利技术属于智能识别
，尤其涉及一种基于机器学习排序的文档级词汇功能自动识别方法。
技术介绍
现有的学术信息检索和知识管理主要考虑的是文档级别的信息，在文档表示上也多采用词袋模型。这样的处理带来了计算上的便利，但同时也失去了对学术文本的深层语义理解，它们无法回答学术文献有关内容和主题的更具体的问题。并且，在学术文献的存量和增长速度都到了令人难以接受的地步的今天，传统的学术信息检索和知识管理已经没有办法对学科的全部文献予以掌握，这给学者们查找和阅读文献带来的压力也是巨大的。已有的直接相关研究成果中，Ding关注到这一话题，但Ding的成果也只是提及到词汇功能的概念，并没有得到深入的研究成果，也没有在技术方法上取得突破。其他相关的研究如信息抽取、本体知识库构建研究已经出现了大量成果：研究者围绕信息抽取、本体知识库构建提出了一系列理论和技术研究成果，也出现了大量成熟的技术产品和成果应用。总体而言，已有的成果数量较少，也存在着一定的不足：(1)已有研究成果对学术文本的词汇功能语义框架设置得过于简单，仅给出了两类分类或者三类分类，无法涵盖学术文本中词汇的所有功能属性；(2)已有的识别方法的实际效果能以保证，从相关论文中报告的结果看，识别方法的性能和效果都有所不足，难以付诸实际的语义分析应用；(3)已有的研究成果仅仅识别了词汇的功能，却没有对词汇间语义关系进行深入分析，这样得到的分析结果只是几个孤立的词汇，无法在真正意义上做到对文本的语义理解，例如，不但要得到表述评估指标的词汇(如信息检索中的“召回率”和“准确率...
一种基于机器学习排序的学术文本词汇功能识别方法

【技术保护点】
一种基于机器学习排序的学术文本词汇功能识别方法，其特征在于，包括以下步骤：步骤1：构造训练数据；步骤1.1：收集若干篇标题形式为“基于X的Y”的文档，对于每篇文档，将其英文题名转换成词性和频繁词性的表示方式；步骤1.2：通过对转换后的文本表示模式进行统计，得到“基于X的Y”类型标题模式；步骤1.3：经过对步骤1.2中得到的模式进行标注，得到从标题中抽取问题和方法的文本匹配模式；步骤2：基于排序的识别方法；步骤2.1：给定词汇组合P＝{w

【技术特征摘要】
1.一种基于机器学习排序的学术文本词汇功能识别方法，其特征在于，包括以下步骤：步骤1：构造训练数据；步骤1.1：收集若干篇标题形式为“基于X的Y”的文档，对于每篇文档，将其英文题名转换成词性和频繁词性的表示方式；步骤1.2：通过对转换后的文本表示模式进行统计，得到“基于X的Y”类型标题模式；步骤1.3：经过对步骤1.2中得到的模式进行标注，得到从标题中抽取问题和方法的文本匹配模式；步骤2：基于排序的识别方法；步骤2.1：给定词汇组合P＝{w1,w2,...,wm}和标注结果词汇序列P′＝{w′1,w′2,...,w′n}；首先使用最长字符串匹配方法对文本进行术语抽取，通过在不同粒度上进行切分，构造字符串切分树进行同义词归并；切分树归并后，文本中匹配了的字符串在各自归属的词袋中被去除，由此得到P和P′的新表示Pprocessed和P′processed；步骤2.2：利用停用词表，对Pprocessed和P′processed中的词汇做停用词过滤处理；步骤2.3：计算P和P′的相似性得分；步骤3：特征构造；为待排序词汇序列构造特征包括：词汇特征、句法特征和TextRank特征；步骤4：模型训练；步骤5：利用训练得到的模型对文档摘要包含的词汇序列进行排序，对排序生成的结果，使用top1的结果作为抽取结果。2.根据权利要求1所述的基于机器学习排序的学术文本词汇功能识别方法，其特征在于：步骤1.1中所述对于每篇文档，将其英文题名转换成词性和频繁词性的表示方式，首先将句子s表示为词汇序列{w1,w2,…,wn}，wi表示句子中第i个词汇，n是s的长度；频繁词汇列表F记录了预先给定的一系列频繁词汇；通过将s中所有非频繁词汇，即不出现在F中的词汇替换成词汇对应的组块Chunk标记，即可得到句子s对应的基于频繁词项和词性的文本表示。3.根据权利要求1所述的基于机器学习排序的学术文本词汇功能识别方法，其特征在于：步骤2.3中所述计算P和P′的相似性得分，计算公式为：其中，|*|表示长度。4.根据权利要求1所述的基于机器学习排序的学术文本词汇功能识别方法，其特征在于，步骤3的具体实现包括以下子步骤：步骤3.1：构造词汇特征，包括组合内的各个词汇、当前词汇序列的前一个词汇、当前词汇序列的后一个词汇、当前词汇组合的前两个词汇、当前词汇组合的后两个词汇以及当前词汇的前一个...

【专利技术属性】
技术研发人员：万迅，程齐凯，陆伟，
申请(专利权)人：万迅，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人