【技术实现步骤摘要】
基于语义等级的关系抽取方法、装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于语义等级的关系抽取方法、装置。
技术介绍
[0002]现如今,互联网上的数据量呈爆炸性增长,但大部分都是非结构化数据,对于使用者而言难以从中快速的获取有效信息。因此,将非结构化数据转换为结构化数据,实现有效信息的快速抽取成为现在重要的研究课题之一。
[0003]现有技术中通常采用的技术方案涉及命名实体识别和关系抽取,其中,命名实体识别(Named Entity Recognition,NER)作为知识图谱构建过程中的关键技术,主要完成从非结构化数据中识别实体词汇,并归类于预先定义的命名实体类型,关系抽取(Relation Extraction)的目的是判断自然语言文本中两个实体词汇之间的潜在语义关系,比如从句子“[华盛顿]是[美国]的首都”中,可以从 [华盛顿]和[美国]这两个实体词汇中抽取得到特定关系,获得关系三元组<华盛顿,首都,美国>。
[0004]现有技术中大部分的技术方案都是 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义等级的关系抽取方法,其特征在于,包括:建立与数据集领域关联的命名实体词典;所述命名实体词典包括命名实体和对应的实体词汇,命名实体的语义等级,以及语义等级中的命名实体匹配关系;所述数据集包括训练集;使用训练完成的关系抽取模型对待识别文本进行实体词汇关系抽取,得到实体词汇的关系语句;所述关系抽取模型的训练过程包括:根据命名实体词典对训练集内的实体词汇进行标注;使用训练集对关系抽取模型进行实体词汇识别训练,训练关系抽取模型识别训练集文本中的实体词汇与命名实体之间的关系;使用训练集对关系抽取模型进行实体词汇关系训练,训练关系抽取模型按照语义等级的顺序组成实体词汇的关系语句,在同一语义等级中,以出现概率最低的命名实体对应的实体词汇作为关系语句的开始,查询得到同一语义等级中匹配的命名实体对应的实体词汇,按照顺序组成关系语句,同一语义等级中的实体词汇查询完毕或没有同一语义等级中匹配的实体词汇,从上一语义等级中查询实体词汇,继续按照顺序组成关系语句。2.根据权利要求1所述的基于语义等级的关系抽取方法,其特征在于,所述使用训练集对关系抽取模型进行实体词汇识别训练,包括:使用实体词汇识别训练完成的关系抽取模型,对测试集进行实体词汇识别测试,若得到测试集文本中词语属于正确的命名实体的概率,比属于错误的命名实体的概率高百分之15及以上,则认定实体词汇识别训练通过;所述数据集包括测试集。3.根据权利要求2所述的基于语义等级的关系抽取方法,其特征在于,所述关系抽取模型基于序列标注算法、双向长短期记忆神经网络建立,关系抽取模型使用双向长短期记忆神经网络识别实体词汇,使用序列标注算法识别实体词汇之间的关联关系。4.根据权利要求3所述的基于语义等级的关系抽取方法,其特征在于,所述对测试集进行实体词汇识别测试,之后包括:查询测试结果中没有纳入命名实体词典的实体词汇,将其中被正确识别的实体词汇扩充至命名实体词典;使用实体词典重新对训练集内的实体词汇进行标注,再使用训练集对关系抽取模型进行实体词汇识别训练,直到测试结果中没有纳入命名实体词典的实体词汇,占比低于命名实体词典中的实体词汇的百分之2。5.根据权利要求4所述的基于语义等级的关系抽取方法,其特征在于,所述查询得到同一语义等级中匹配的命名实体对...
【专利技术属性】
技术研发人员:方酉,后弘毅,郭嘉欣,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。