融合分布式语义和句义特征的人物关系抽取方法技术

技术编号:15447581 阅读:148 留言:0更新日期:2017-05-29 21:32
本发明专利技术涉及一种融合分布式语义和句义特征的人物关系抽取方法,属于自然语言处理领域。本发明专利技术首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过元素距离最优化规则构造语句的三元组实例,融合分布式语义信息及语义信息构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。本发明专利技术实现了特征关系词典的自动生成,将传统的关系多分类问题转化为三元组是非二元判定问题,更加适应传统的机器学习分类算法,且利用分布式语义信息,提升了关系分类的准确率。

Character relation extraction method based on distributed semantic and sentence semantic features

The invention relates to a method for extracting character relations, which integrates distributed semantic and sentence semantic features, belonging to the field of Natural Language Processing. The invention firstly using word frequency statistics features and Bootstrapping algorithm, respectively, in a small number of related training feature dictionary labeled corpus and a large number of unlabeled data, and then through the optimization rules of sentence structure elements from the three instance, fusion distributed semantic information and semantic information to construct three tuple feature space, the last of the three tuple is non two yuan determined by using confidence maximization principle to get the relationship between the characters category. The invention realizes the automatic generation of feature dictionary, the traditional multi classification problem is transformed into three tuple is two yuan decision problem, to adapt to the traditional machine learning classification algorithm, and use distributed semantic information to enhance the accuracy of classification of the relationship.

【技术实现步骤摘要】
融合分布式语义和句义特征的人物关系抽取方法
本专利技术涉及一种从中文文本或中文文本集中自动抽取人物关系的方法,属于计算机科学与信息抽取

技术介绍
人物关系抽取是把分散在文本中的人物实体及人物之间的关系准确、快速的自动抽取,属于信息抽取领域的研究内容。信息抽取技术(IE,InformationExtraction)要完成两大研究任务:实体识别(EDR,EntityDetectionandRecognition)和关系识别(RDR,RelationDetectionandRecognition)。其中关系识别(也称作“关系抽取”)就是从文本中抽取实体之间的存在的关系,而这些关系的类型是预先定义的。人物关系属于实体关系中的一种,是指文本或文本集中所描述的两个人物之间的关联关系。对于人物关系抽取,主要解决:①获取两个人物之间的关系属性(关系属性抽取);②计算两个人物之间的关联程度(关系强度计算)。除此之外,对于分散在文本和文本集中的人物关系的组织方式和展示形式也是需要考虑的问题。人物关系抽取方法主要有两类:基于模式识别的方法和基于机器学习的方法。1.基于模式识别的方法:1)早期的基于模式识别的人物关系抽取方法:基于模式识别的方法是通过词法、句法等方面的特征,构建识别所需的知识库(或称作规则库),采用该知识库来进行模式的匹配,达到关系抽取的目的。对于基于模式识别的人物关系抽取方法,最困难的步骤是人物关系模式(人物关系规则库)的建立。这些人物关系模式的建立需要依靠语言学家,社会学家对抽取任务所涉及领域的语料进行细致深入的分析,穷举各种可能的人物关系编制人物关系模式。这种方法编制周期太长,应用成本很高。2)对早期方法的改进方法:针对早期的纯手工编织人物关系模式的问题,后来的学者们提出了一些解决方法。a)如Appelt等人提出的FASTUS抽取系统中,通过引入“宏”的概念将各种领域依赖规则以一种具有扩展性、通用性的方式表达。用户只需要修改相应“宏”中的参数设置,就可以快速配置好特定领域任务的关系模式规则;所谓宏,就是一些命令组织在一起,作为一个单独命令完成一个特定任务。b)Roman等人提出的Proteus抽取系统采用了基于样本泛化的人物关系抽取模式构建方法,这种方法通过对编制的人物关系模式进行泛化,从而使模式能适用更广领域的人物关系抽取;c)Aone等人构建的REES系统(Large-ScaleRelationandEventExtractionSystem)中通过构造包含100多种人物关系模式的知识库来进行关系抽取。d)此外,在中文方面,国内也有一些学者采用模式识别的方法用于抽取人物关系,如姜吉发等人为了减轻模式编制人员的劳动量提出了一种自举的二元关系和二元关系模式获取方法——BRPAM,该方法可以通过自举已有的二元关系扩充知识库(人物关系规则库),依据该放法,姜吉发他们设计了一个能够从自由文本中进行二元关系抽取的IE系统BRPAM2Texts;邓擘等人将词汇语义匹配引入到了关系模式匹配中,提出了一种全新的关系抽取的方法。这种方法由于引入了词汇的语义特性,使得人物关系抽取的结果更符合客观的逻辑,准确率有了一定的提高,对于不同领域的人物关系可以借助相关领域的词典实现人物关系抽取。以上基于模式识别的人物关系抽取方法仍然存在开发成本高昂,适用性低的不足。2.基于机器学习的方法:基于机器学习的人物关系抽取方法是通过机器学习算法,在人工标引语料的基础上构造分类器,然后将其应用在领域语料人物关系的类别判断过程中。目前使用比较多的机器学习算法有MBL算法和SVM算法。如:a)Zhang等人构建的中文命名实体及关系抽取系统就是采用MBL算法从训练数据中构建分类规则,抽取过程中基于该规则进行实体和关系的抽取;b)Zhang和车万翔等则采用SVM算法进行关系抽取规则的学习;何婷婷等人提出了利用少量人工选取的实体关系作为种子(初始关系),通过自学习的方式不断扩充关系种子集合,来抽取实体关系的方法;c)刘路等人则提出了一种基于SVM正、反例训练的实体关系抽取方法。基于机器学习的方法已经比较成熟,但是仍存在问题,例如,在语料不够丰富的情况下,特征词的覆盖力度不够,影响分类效果;特征选择对于机器学习算法至关重要,而特征选择没有充分利用句义特征信息和分布式信息,导致特征分析不够深入,分类效果不优。
技术实现思路
针对机器学习算法的特征选择困难和特征分析不够深入,导致分类效果差的问题,本专利技术提出了一种融合分布式语义和句义特征的人物关系抽取方法,提高了从中文文本或中文文本集中自动抽取人物关系的效果。本专利技术的技术方案包括如下内容:首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。本专利技术实现了特征关系词典的自动生成,将传统的关系多分类问题转化为三元组是非二元判定问题,更加适应传统的机器学习分类算法,且利用句义特征,提升了关系分类的准确率,如图1所示。步骤1,关系特征词典自动生成;将人物关系抽取看作分类任务,本专利技术定义八大类人物关系,包括师从关系、家庭关系、上下级关系、竞争关系、朋友关系、爱恋关系、干亲关系、看护关系和其他关系。关系特征词表征着描述人物之间的双向关系,对人物之间关系属性的判别至关重要,以下介绍本专利提出的自动生成关系特征词典算法的具体流程。步骤1.1,经过文本预处理,对带标签的语料进行训练,得到初始种子词集,具体流程如下:步骤1.1.1,首先利用中科院计算所的分词工具ICTCLAS2013、BFS实验室的汉语句义结构模型自动构建系统ACSM(AutomaticChineseSententialSemanticModel)和工具scikit-learn对语料进行预处理,分别得到分词、词性标注、人名实体识别、每个词的TF-IDF值及句义结构分析结果。然后去除停用词,对带标签的语料进行训练,得到初始种子词集。其中,句义结构模型(CSM)是对句义中的成分以及成分之间组合关系的结构化、形式化表示,将抽象的句义表示成计算机可处理的结构化数据,目的是帮助计算机从深层的语义角度去理解汉语句子。通过该模型将抽象的句义形式化表达为成分之间的数理结构,让计算机能够识别和处理汉语句义。句义结构模型的要素有:句义类型、话题、述题、语义格、谓词项、汉语时间系统、时空范围信息、成分组合关系等。针对上述要素,句义结构模型被划分为4个层次:句型层、描述层、对象层和细节层,其基本形式如图2(见附图)所示。通过句义结构模型分析得到的句子结构信息和语义信息,抽取能够表述句子语义的特征,这些特征能够表达人物实体重要信息。句义特征构造是利用句义成分之间的组合关系,具体是在句义结构模型自动构建的基础上依次查询语义格(表1)对应的项作为特征词,并根据语义格的依存关系(参考附图2)构造不同组合方式形成具有更精确语义表达能力的特征词组。表1语义格类型说明步骤1.1.2,将带标记的语料按所含关系类别Ci(0<i<N,N表示关系该类别数量)区分本文档来自技高网
...
融合分布式语义和句义特征的人物关系抽取方法

【技术保护点】
一种融合分布式语义和句义特征的人物关系抽取方法,其特征在于,利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过分布式语义信息结合元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别,包括如下步骤:步骤1,经过预处理,对带标签的语料进行训练,得到初始种子词集,然后使用Bootstrapping算法对初始种子词集进行拓展,生成关系特征词典,具体步骤如下:步骤1.1,对训练集语料进行划分类别、文本预处理,训练,生成初始种子词集,具体流程如下:步骤1.1.1,将带标记的语料划分到相对应的关系类别C

【技术特征摘要】
1.一种融合分布式语义和句义特征的人物关系抽取方法,其特征在于,利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过分布式语义信息结合元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别,包括如下步骤:步骤1,经过预处理,对带标签的语料进行训练,得到初始种子词集,然后使用Bootstrapping算法对初始种子词集进行拓展,生成关系特征词典,具体步骤如下:步骤1.1,对训练集语料进行划分类别、文本预处理,训练,生成初始种子词集,具体流程如下:步骤1.1.1,将带标记的语料划分到相对应的关系类别Ci(0<i<N,N表示关系类别数量)中,若句子包含多种关系,即将其重复划分入对应的多种类别中;步骤1.1.2,对语料进行预处理,得到分词、词性标注、人名实体识别、每个词的TF-IDF值及句义结构分析结果;步骤1.1.3,对于每一个类别C,抽取名词和动词作为候选种子词,并计算这些词的关键程度K,K的计算公式如下:其中seni表示句子i,word表示候选种子词,|C|表示类别C中句子总数,K(word)表示候选种子词和训练集中所有句子的关联程度,n表示该类所有语句中所含词总数,wordtfidf表示该候选词在训练集中的TF-IDF值,word∈sen表示词在句子中;步骤1.1.4,根据《同义词林》的编码信息,将候选种子词word所有同义词的K加和表示该词新的关键程度,按最终的K将候选种子词进行排序,然后设定阈值,抽取K大于阈值的词形成该类的初始种子词集,阈值通常与句子数量有关并通过实验得到;步骤1.2,通过步骤1.1抽取的初始种子词集以及大量未标注语料,使用Bootstrapping算法拓展初始种子词集,生成关系特征词典,具体步骤如下:步骤1.2.1,在大量未标注的语料中,抽取名词和动词作为候选词;步骤1.2.2,分别考虑每一个关系类别C中的种子词集,利用互信息的方法计算M值,计算公式为:其中sword表示种子词,F(w)表示在整个语料中包含w的语句数;F(sword)表示整个语料中包含初始词sword的句子数;共现频数F(w,sword)表示候选词与初始词sword出现在同一个句子的句子数;Fall表示整个语料中的句子总数;步骤1.2.3,选择出来满足F(w)>Fmin(w)且M>Mmin的词与种子词集合并作为新的种子词集,其中,Fmin(w)表示最少句子个数,设为5个,Mmin是设置的最小权重;步骤1.2.4,重复步骤1.2.2、1.2.3直到没有新的满足条件的词产生为止,通过上述步骤自动生成了所有类别的关系特征词典;步骤2,三元组特征空间构造,定义<人物-关系-人物>为一个关系三元组实例,通过是非二元判定人物关系属性的归属,将多分类问题转化为二分类问题,具体步骤如下:步骤2.1,抽取每一句中的人名实体,得到该句的人名列表<Name1、Name2、…Namen>,...

【专利技术属性】
技术研发人员:罗森林焦龙龙潘丽敏郭佳吴舟婷陈倩柔
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1