一种基于引用关系的科技文献高关注度句子提取方法技术

技术编号：20160712 阅读：28 留言：0更新日期：2019-01-19 00:13

本发明专利技术涉及句子级知识抽取的技术领域，更具体地，涉及一种基于引用关系的科技文献高关注度句子提取方法。本发明专利技术的主要步骤包括：对领域文档集预处理工作、统计高被引文章、提取高关注度句子以及CNN句子分类器训练。本发明专利技术提出一种更具客观性和适用性的科技论文高关注度句子提取方法，以所要研究的某一学科领域的大量科技文献为对象，基于引文分析研究方法，统计高被引文献，从中进行相应引证句子的相似度匹配，提取出相似度高的句子组成高关注度句子集；接着，对高关注度句子进行词性标注，使用标注序列集作为训练语料，通过CNN的训练，得到能自动识别论文中创新点句子的分类器。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于引用关系的科技文献高关注度句子提取方法
本专利技术涉及句子级知识抽取的
，更具体地，涉及一种基于引用关系的科技文献高关注度句子提取方法。
技术介绍
识别科技文献中的高关注度句子属于句子级知识抽取的研究范畴。传统的知识抽取方式大多以规则和学习为基础，而随着大数据时代的到来，知识抽取的对象多且复杂，国内外开始采用机器学习和自然语言分析技术相结合的方法。基于机器学习的知识抽取系统，提出了自适应的信息抽取(AdaptiveIE)、开放信息抽取(OpenIE)等新的技术思路，并向着自动本体学习(OntologyLearning)的方向发展；而基于自然语言分析的知识抽取系统，则提出了基于模式标注(Pattern-BasedAnnotation)、语义标注(SemanticAnnotation)等新的技术思路，并且都在向着基于Ontology的信息抽取(OBIE)的方向发展。具体到针对科技文献创新点的抽取，目前采用的方法主要有基于语言学特征的方法、基于本体或词表的方法以及基于句子分类的方法三种。(1)基于语言学特征的方法主要通过分析和选择创新点句子的语言特征进行抽取或制定相应规则抽取。但该类方法涉及到明确的语言特征和规则的选取和制定，精确度要求高，同时难以覆盖抽取目标的所有语言学现象。(2)基于本体或词表抽取的方法认为通过词表或本体中实体之间的关联可以发现潜在的新知识。但该方法偏向词表或本体中存在的概念，对本体中没有的新概念、新术语的揭示能力较弱。然而，这些新概念、新术语正是我们所要挖掘的创新点信息。(3)基于句子分类的方法则是将创新点信息抽取问题转化成分...

【技术保护点】
1.一种基于引用关系的科技文献高关注度句子提取方法，其特征在于，包括以下步骤：S1：对领域文档集做相关预处理工作，所述预处理工作包括核对以及统一正文中的引用标注，保证领域文档集与参考文献一一匹配，同时便于后续试验的统一处理，所述预处理工作还包括对领域文档集中论文进行分句处理；S2：根据参考文献列表对文章被引次数进行统计，根据被引次数分布情况确定一个被引量阈值，取被引量大于阈值的高被引文章作为进一步抽取高关注度句子的文本对象；同时提取出高被引文章对应的引述句子，用于下一步高被引文章中高关注度句子的提取；S3：基于LSI潜在语义索引模型训练文本并计算句子的相似度，设定相似度阈值，从高被引文章中找出与对应引述句子有最高句子相似度且该相似度达到相似度阈值的句子，加入到高关注度句子训练集；S4：利用自然语言处理工具包NLTK中的词性标注器对高关注度句子和非高关注度句子进行词性标注，对高关注句子和非高关注句子分别加以标签1和0；输入词性符号序列和对应标签，进行CNN训练得到高关注度句子的分类器。

【技术特征摘要】
1.一种基于引用关系的科技文献高关注度句子提取方法，其特征在于，包括以下步骤：S1：对领域文档集做相关预处理工作，所述预处理工作包括核对以及统一正文中的引用标注，保证领域文档集与参考文献一一匹配，同时便于后续试验的统一处理，所述预处理工作还包括对领域文档集中论文进行分句处理；S2：根据参考文献列表对文章被引次数进行统计，根据被引次数分布情况确定一个被引量阈值，取被引量大于阈值的高被引文章作为进一步抽取高关注度句子的文本对象；同时提取出高被引文章...

【专利技术属性】
技术研发人员：陆遥，余丹填，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人