【技术实现步骤摘要】
实体关系抽取方法
[0001]本专利技术涉及自然语言处理
,尤其是涉及一种实体关系抽取方法。
技术介绍
[0002]现有技术的关系抽取需要预定义关系类型,人工定义关系集合{R},如
‘
地点
’
、
‘
组织
’
等。在一些真实的场景下,人工定义的这一步将会非常困难。开放关系抽取是不限定关系类型的关系抽取方法,关系源自原文本。目前开放关系抽取主要分为两类方法。第一类是基于监督学习的方法,例如TextRunner和Reverb的方法,TextRunner主要特点是手工标注数据,缺点是标注数据较少。Reverb主要特点是融入了句法规则训练数据,对每条三元组进行置信度的评分。缺点是只有动词关系,会匹配错误的头尾实体。基于Reverb生成训练数据进行远程监督学习的方法OLLIE,虽解决了实体匹配的问题,但效率略差。第二类是基于句法模式,例如,DSNFs和ClausIE,DSNFs使用了7种句法模式,但缺点就是抽取的关系有限。ClausIE使用了复合句的关系抽取,自 ...
【技术保护点】
【技术特征摘要】
1.一种实体关系抽取方法,其特征在于,包括:依存句法分析,从句子中提取出实体对;对所述实体对进行关联关系添加,以得到第一三元组,对所述第一三元组进行DSNF匹配并按照设定条件对所述第一三元组进行筛选,以得到第二三元组;根据所述句子的上下文内容对所述实体对添加关系,以得到第三三元组;根据实体字典对所述实体对添加关系,以得到第四三元组;以及对所述第二三元组、第三三元组和第四三元组进行聚类,按照每个所述三元组之间的相似关系将所有三元组分为多个类。2.如权利要求1所述的实体关系抽取方法,其特征在于,依存句法分析,从句子中提取出实体对的方法包括:依存句法分析,从句子中提出多个实体;将指向同一个人或物的实体合并为一个实体;以及将任意两个实体组合形成实体对。3.如权利要求1所述的实体关系抽取方法,其特征在于,所述关联关系包括:并列关系和因果关系。4.如权利要求1所述的实体关系抽取方法,其特征在于,按照设定条件对所述第一三元组进行筛选的方法包括:若从过短的句子提取出的实体对,则将所述实体对舍弃;同一句子中的所述实体对的数量小于或等于3,且所述实体对的字符数量小于10,若不能同时满足,则将所述实体对舍弃;若所述实体对中的第一个实体依赖于谓词,则所述第一个实体不能同时依赖于谓词之外的其他单词,否则将所述实体对舍弃;所述实体对所在的句子中,第一个实体和第二个实体之间的距离小于或等于四个字符,否则将所述实体对舍弃;所述实体对中,当一个实体是直接宾语,且依赖于VOB的谓语时,该实体为名词,否则将所述实体对舍弃;当关系词中,谓语前面有多个状语短语时,所述谓语匹配最接近谓词的一个状语短语;当关系词中,宾语为介词性宾语或宾语的修饰词是一个副词性状语时;当关系词中,存在并列谓语时,第二个动宾结构不能直接构成SBV
‑
VOB的形式,且第二个谓词前不能含有实体;如果介词为被或者由时,对第一个实体和第二实体的位置进行交换;如果第二个实体所依存的词与第一个实体所依存的词构成COO关系,那么特征关系词选择第二个实体所依存的词;以...
【专利技术属性】
技术研发人员:李剑楠,周小雪,马骏,方言,李恒,梁广涛,曹妙霞,
申请(专利权)人:上海千鸟信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。