The invention relates to a method for extracting character relations, which integrates distributed semantic and sentence semantic features, belonging to the field of Natural Language Processing. The invention firstly using word frequency statistics features and Bootstrapping algorithm, respectively, in a small number of related training feature dictionary labeled corpus and a large number of unlabeled data, and then through the optimization rules of sentence structure elements from the three instance, fusion distributed semantic information and semantic information to construct three tuple feature space, the last of the three tuple is non two yuan determined by using confidence maximization principle to get the relationship between the characters category. The invention realizes the automatic generation of feature dictionary, the traditional multi classification problem is transformed into three tuple is two yuan decision problem, to adapt to the traditional machine learning classification algorithm, and use distributed semantic information to enhance the accuracy of classification of the relationship.
【技术实现步骤摘要】
融合分布式语义和句义特征的人物关系抽取方法
本专利技术涉及一种从中文文本或中文文本集中自动抽取人物关系的方法,属于计算机科学与信息抽取
技术介绍
人物关系抽取是把分散在文本中的人物实体及人物之间的关系准确、快速的自动抽取,属于信息抽取领域的研究内容。信息抽取技术(IE,InformationExtraction)要完成两大研究任务:实体识别(EDR,EntityDetectionandRecognition)和关系识别(RDR,RelationDetectionandRecognition)。其中关系识别(也称作“关系抽取”)就是从文本中抽取实体之间的存在的关系,而这些关系的类型是预先定义的。人物关系属于实体关系中的一种,是指文本或文本集中所描述的两个人物之间的关联关系。对于人物关系抽取,主要解决:①获取两个人物之间的关系属性(关系属性抽取);②计算两个人物之间的关联程度(关系强度计算)。除此之外,对于分散在文本和文本集中的人物关系的组织方式和展示形式也是需要考虑的问题。人物关系抽取方法主要有两类:基于模式识别的方法和基于机器学习的方法。1.基于模式识别的方法:1)早期的基于模式识别的人物关系抽取方法:基于模式识别的方法是通过词法、句法等方面的特征,构建识别所需的知识库(或称作规则库),采用该知识库来进行模式的匹配,达到关系抽取的目的。对于基于模式识别的人物关系抽取方法,最困难的步骤是人物关系模式(人物关系规则库)的建立。这些人物关系模式的建立需要依靠语言学家,社会学家对抽取任务所涉及领域的语料进行细致深入的分析,穷举各种可能的人物关系编制人物关 ...
【技术保护点】
一种融合分布式语义和句义特征的人物关系抽取方法,其特征在于,利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过分布式语义信息结合元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别,包括如下步骤:步骤1,经过预处理,对带标签的语料进行训练,得到初始种子词集,然后使用Bootstrapping算法对初始种子词集进行拓展,生成关系特征词典,具体步骤如下:步骤1.1,对训练集语料进行划分类别、文本预处理,训练,生成初始种子词集,具体流程如下:步骤1.1.1,将带标记的语料划分到相对应的关系类别C
【技术特征摘要】
1.一种融合分布式语义和句义特征的人物关系抽取方法,其特征在于,利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过分布式语义信息结合元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别,包括如下步骤:步骤1,经过预处理,对带标签的语料进行训练,得到初始种子词集,然后使用Bootstrapping算法对初始种子词集进行拓展,生成关系特征词典,具体步骤如下:步骤1.1,对训练集语料进行划分类别、文本预处理,训练,生成初始种子词集,具体流程如下:步骤1.1.1,将带标记的语料划分到相对应的关系类别Ci(0<i<N,N表示关系类别数量)中,若句子包含多种关系,即将其重复划分入对应的多种类别中;步骤1.1.2,对语料进行预处理,得到分词、词性标注、人名实体识别、每个词的TF-IDF值及句义结构分析结果;步骤1.1.3,对于每一个类别C,抽取名词和动词作为候选种子词,并计算这些词的关键程度K,K的计算公式如下:其中seni表示句子i,word表示候选种子词,|C|表示类别C中句子总数,K(word)表示候选种子词和训练集中所有句子的关联程度,n表示该类所有语句中所含词总数,wordtfidf表示该候选词在训练集中的TF-IDF值,word∈sen表示词在句子中;步骤1.1.4,根据《同义词林》的编码信息,将候选种子词word所有同义词的K加和表示该词新的关键程度,按最终的K将候选种子词进行排序,然后设定阈值,抽取K大于阈值的词形成该类的初始种子词集,阈值通常与句子数量有关并通过实验得到;步骤1.2,通过步骤1.1抽取的初始种子词集以及大量未标注语料,使用Bootstrapping算法拓展初始种子词集,生成关系特征词典,具体步骤如下:步骤1.2.1,在大量未标注的语料中,抽取名词和动词作为候选词;步骤1.2.2,分别考虑每一个关系类别C中的种子词集,利用互信息的方法计算M值,计算公式为:其中sword表示种子词,F(w)表示在整个语料中包含w的语句数;F(sword)表示整个语料中包含初始词sword的句子数;共现频数F(w,sword)表示候选词与初始词sword出现在同一个句子的句子数;Fall表示整个语料中的句子总数;步骤1.2.3,选择出来满足F(w)>Fmin(w)且M>Mmin的词与种子词集合并作为新的种子词集,其中,Fmin(w)表示最少句子个数,设为5个,Mmin是设置的最小权重;步骤1.2.4,重复步骤1.2.2、1.2.3直到没有新的满足条件的词产生为止,通过上述步骤自动生成了所有类别的关系特征词典;步骤2,三元组特征空间构造,定义<人物-关系-人物>为一个关系三元组实例,通过是非二元判定人物关系属性的归属,将多分类问题转化为二分类问题,具体步骤如下:步骤2.1,抽取每一句中的人名实体,得到该句的人名列表<Name1、Name2、…Namen>,...
【专利技术属性】
技术研发人员:罗森林,焦龙龙,潘丽敏,郭佳,吴舟婷,陈倩柔,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。