语义实体关系抽取方法、装置及电子设备制造方法及图纸

技术编号:19543744 阅读:40 留言:0更新日期:2018-11-24 20:36
本发明专利技术提供了一种语义实体关系抽取方法、装置及电子设备,该方法涉及人工智能与自然语言处理的信息抽取技术领域,该方法包括:识别出输入文本的每个词节点;构建每个词节点的依存特征;当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组;其中,预存的语义规则包括前修饰结构规则和动词相关规则。与现有技术相比,本发明专利技术利用递归方法,避免了因规则复杂、定义不全而发生抽取遗漏的情况,能够提高实体关系抽取的准确率。

Semantic Entity Relation Extraction Method, Device and Electronic Equipment

The invention provides a method, device and electronic equipment for extracting semantic entity relations, which relates to the field of information extraction technology of artificial intelligence and natural language processing. The method includes: identifying each word node of input text; constructing the dependency characteristics of each word node; and when more than two word nodes are juxtaposed. By recursively invoking the pre-existing semantic rules, the relational triples of candidate nodes are extracted, in which the pre-existing semantic rules include pre-modifying structural rules and verb-related rules. Compared with the prior art, the present invention uses recursive method to avoid omission of extraction due to complex rules and incomplete definitions, and can improve the accuracy of entity relationship extraction.

【技术实现步骤摘要】
语义实体关系抽取方法、装置及电子设备
本专利技术涉及人工智能与自然语言处理的信息抽取
,尤其是涉及一种语义实体关系抽取方法、装置及电子设备。
技术介绍
信息抽取技术可以将大量文本中蕴含的无结构化信息以结构化或者半结构化的形式输出,快速获取用户关心的信息,广泛应用于知识图谱、智能搜索引擎、自动问答系统、文本挖掘、机器翻译等许多人工智能领域。目前,传统有监督、非开放式实体关系抽取方法需要大规模人工标注语料库用于模型训练,只能抽取预先定义的关系类型,并且基于特定领域,普遍适用性差。现有的无监督、开放式实体关系抽取方法通过对文本进行预处理、命名实体识别和依存句法分析,获得实体对对应的依存路径,与依存语义范式集的范式进行匹配,若匹配成功则输出关系三元组。但是现有技术对并列关系的抽取依靠范式匹配,可能会因规则复杂、定义不全而发生抽取遗漏的情况,导致实体关系的抽取存在准确率较低的技术问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种语义实体关系抽取方法、装置及电子设备,以避免因规则复杂、定义不全而发生抽取遗漏的情况,能够提高实体关系抽取的准确率。第一方面,本专利技术实施例提供了一种语义本文档来自技高网...

【技术保护点】
1.一种语义实体关系抽取方法,其特征在于,包括:识别出输入文本的每个词节点;构建每个词节点的依存特征;当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组;其中,所述预存的语义规则包括前修饰结构规则和动词相关规则。

【技术特征摘要】
1.一种语义实体关系抽取方法,其特征在于,包括:识别出输入文本的每个词节点;构建每个词节点的依存特征;当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组;其中,所述预存的语义规则包括前修饰结构规则和动词相关规则。2.根据权利要求1所述的方法,其特征在于,所述依存特征包括:候选节点的依存路径和子节点依存路径字典。3.根据权利要求1所述的方法,其特征在于,所述当有两个以上词节点为并列关系时,通过递归调用预存的语义规则,抽取出候选节点的关系三元组,具体包括:当有两个以上词节点为并列关系时,判断所述依存特征的关系类型;所述关系类型为事件关系时,对每个动词候选节点先抽取主语,再通过递归调用预存的主谓动宾结构规则或主谓介宾结构规则,抽取与主语相关的多组谓语和宾语,构成多组关系三元组;所述关系类型为事实关系时,对每个实体候选节点先抽取前修饰词,再通过递归调用预存的前修饰结构规则,抽取与前修饰词相关的多组关系词和关系实体,构成多组关系三元组。4.根据权利要求3所述的方法,其特征在于,所述事件关系包括:动词相关类结构,其中,动词相关类结构包括主谓动宾结构,以及主谓介宾结构;所述事实关系包括:前修饰类结构,其中,前修饰类结构包括组合式定语结构,以及由结构助词“的”与中心语连接的结构。5.根据权利要求4所述的方法,其特征在于,所述事实关系还包...

【专利技术属性】
技术研发人员:赵淦森梁昕列海权徐岗赵淑娴纪求华林成创李胜龙唐境灿蔡斯凯李振宇黄伟雄曲成
申请(专利权)人:广东蔚海数问大数据科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1