基于SAO结构的中文专利文本实体关系抽取方法技术

技术编号:21454136 阅读:43 留言:0更新日期:2019-06-26 04:50
本发明专利技术涉及一种基于SAO结构的中文专利文本实体关系抽取方法,包括:步骤一:从专利文本中获取候选SAO三元组;步骤二:提取候选SAO三元组的传统特征和句法语义特征。本发明专利技术提供的基于SAO结构的中文专利文本实体关系抽取方法,把中文专利文本的关系抽取问题,转化为SAO结构识别的分类问题,利用中文专利语料作为处理数据,抽取了词法特征、上下文特征、距离特征以及句法语义特征,能够显著地增强关系抽取的性能,能够有效地提升关系抽取的效果,可以很好地满足实际应用的需要。

【技术实现步骤摘要】
基于SAO结构的中文专利文本实体关系抽取方法
本专利技术属于实体关系抽取
,具体涉及一种基于SAO结构的中文专利文本实体关系抽取方法。
技术介绍
专利文献作为技术成果的载体,全球90%以上的最新技术都以专利文献的形式记载下来。对于这些专利大数据,通过传统的人工方式来获取其中的有用信息变得越来越行不通。随着自然语言处理和机器学习技术的发展,信息抽取技术在获取信息上更加快速而又准确。实体关系抽取是信息抽取的一个重要研究领域。其目的是用来识别文本中实体间的语义关系,为后面的文本分析任务做铺垫。目前,随着机器学习技术的发展,越来越多的研究人员开始尝试利用机器学习的相关算法来解决关系抽取的问题。在实体关系抽取的研究中,基于机器学习的方法一般只抽取词法信息、距离信息和上下文信息等基础的特征信息,忽略了实体间的语义关系。当前中文专利文本实体关系抽取方法中采用词法特征、上下文特征、距离特征等传统特征,导致抽取效率低,亟待改进。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的基于SAO结构的中文专利文本实体关系抽取方法。为了实现上述专利技术目的,本专本文档来自技高网...

【技术保护点】
1.一种基于SAO结构的中文专利文本实体关系抽取方法,其特征在于,包括:步骤一:从专利文本中获取候选SAO三元组;步骤二:提取候选SAO三元组的传统特征和句法语义特征。

【技术特征摘要】
1.一种基于SAO结构的中文专利文本实体关系抽取方法,其特征在于,包括:步骤一:从专利文本中获取候选SAO三元组;步骤二:提取候选SAO三元组的传统特征和句法语义特征。2.根据权利要求1所述的中文专利文本实体关系抽取方法,其特征在于,步骤一具体包括:步骤1)对专利文本进行分词和词性标注;步骤2)对句子中的实体进行标记;步骤3)从句子S={w1,w2,w3,...,wn}中取出实体对和关系词构成三元组SAO=(E1,R,E2),其中E1和E2表示实体对,R表示实体之间的关系词,如果句子中只有一个关系词,则转到步骤7),如果有多个关系词,则将实体对和关系词构成的三元组表示成一个集合Set={SAO1,SAO2,SAO3,...,SAOi};步骤4)循环取出集合中的SAO三元组结构,首先计算实体对E1和E2在文档中的概率p(E1,E2)、关系词R在文档中的概率p(R),以及实体对和关系词的组合在文档中的概率p(E1,E2,R),计算SAOi三元组的互信息;步骤5)根据互信息的大小对三元组进行排序;步骤6)如果出现一个以上的互信息大小相同,则将它们并列作为候选三元组;步骤7)将候选三元组中的关系词标记为候选关系词;步骤8)如果集合为空则退出。3.根据权利要求1所述的中文专利文本实体关系抽取方法,其特征在于,所述步骤4)的互信息计算公式为:其中,p(wi,wj,R)表示wi、wj和R在文档中出现的概率,p(wi,wj)表示wi和wj在文档中出现的概率,p(R)则表示关系R在文档中出现的概率。4.根据权利要求1-3所述的中文专利文本实体关系抽取方法,其特征在于,所述步骤二的传统特征包括词法特征、上下文信息特征和距离特征。5.根据权利要求1-4所述的中文专利文本实体关系抽取方法,其特征在于,所述步骤二的句法语义特征包括SAO句法关系强度特征和SAO语义角色特征SAO句法关系强度SRS=V(E1,R)+V(R,E2);其中,其中,R(E1,REL)表示实体E1和候选关系词REL之间的依存句法关系;R(REL,E2)表示候选关系词REL和实体E2之间的依存句法关系。6.根据...

【专利技术属性】
技术研发人员:吕学强董志安
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1