一种改进的篇章级三元组信息抽取方法技术

技术编号:29836701 阅读:30 留言:0更新日期:2021-08-27 14:26
本发明专利技术提供了一种改进的篇章级三元组信息抽取方法,包括:第一步,文本数据预处理;第二步,对文本数据进行篇章级语义分析,包括层次语义分析、实体对齐、依赖动词提取;第三步,采用多轮迭代的方式进行启发式学习,构建事件语义模型;第四步,基于端到端样本的三元组抽取,抽取出基于篇章理解的三元组;第五步,对利用步骤三和步骤四抽取出的三元组知识的一些应用,如智能检索、智能问答、知识挖掘、决策支持等。该方法实现基于小样本建立三元组信息抽取模型,具备篇章级三元组抽取能力,本方法易于推广,具有可拓展性,是大规模文本信息数据抽取、建立知识体系、构建垂直领域知识图谱的重要基础环节。

【技术实现步骤摘要】
一种改进的篇章级三元组信息抽取方法
本专利技术涉及一种改进的篇章级三元组信息抽取方法。
技术介绍
自然语言处理的研究从词汇、词典的演技起步,近年来一直把句子作为最核心的研究对象,对篇章的语义分析多事语言学家从理论上进行探索;而篇章级别缺乏形式标记,使得篇章级的语言计算一直没有特别明显的进展。但是,很多语义问题必须在篇章层面上才能够得到根本性的解决,比如共指消解、篇章结构和语义关系识别、事件融合与关系识别等;同时,这些篇章级语义问题的解决对于词汇级和句子级的分析同样具有反哺性的指导意义。另一方面。近年来,中文词汇、句子级自然语言处理技术的发展,特别是词义消歧、句法分析和语义角色标注等研究工作取得的阶段性成果,也为篇章语义分析的研究创造了技术条件。通常中文句式通常较长,一个句子中经常包括多个实体信息,由此构成的实体对的数量也较多,且实体类型的数量分布不均匀。相对于简单句子的关系探索和关系抽取,长句的句式叫复杂,使得关系探测和关系抽取的任务更加困难;长句中经常包括多个实体信息,而且跨长距离的实体对所在的句子中通常存在多个动词。因此,如何选择能本文档来自技高网...

【技术保护点】
1.一种改进的篇章级三元组信息抽取方法,其特征在于,包括如下步骤:/n步骤1、对文本数据预处理;/n步骤2、对文本数据进行篇章级语义分析;/n步骤3、采用多轮迭代的方式进行启发式学习,构建事件语义模型;/n步骤4、基于端到端样本的三元组抽取。/n

【技术特征摘要】
1.一种改进的篇章级三元组信息抽取方法,其特征在于,包括如下步骤:
步骤1、对文本数据预处理;
步骤2、对文本数据进行篇章级语义分析;
步骤3、采用多轮迭代的方式进行启发式学习,构建事件语义模型;
步骤4、基于端到端样本的三元组抽取。


2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1、文本数据格式转换;
步骤1-2、利用自然语言处理技术对格式转换后的文本数据进行预处理清洗;
步骤1-3、文本数据章节结构处理:将一篇长文档拆分为文本块;
步骤1-4、文本数据句块分拆,将文本块进一步分拆为标点符号间隔的物理句块。


3.根据权利要求2所述的方法,其特征在于,步骤1-2包括:对格式转换后的文本数据依次执行如下处理:全角与半角的转化、大写数字转化为小写数字、大写字母转化为小写字母、去除表情符号、去除文本中所有的字符并只保留中文、中文文本分词、繁体简体中文转化、中文文本停用词过滤。


4.根据权利要求3所述的方法,其特征在于,步骤1-4包括:
步骤1-4-1、对于文本块中的括号,如果括号中的内容与其左侧相邻成分是语义关系紧密,则将括号中的内容与左侧括号相邻的文本成分合并为一个语义成分,否则将括号不处理;
步骤1-4-2、对于句块中的引号,如果引号体属于一个命名实体的一部分,则将引号体与所述命名实体合并,否则不予处理;
步骤1-4-3、对于句块中的其他符号,如果所述符号是命名实体的一部分,则将句块中的其他符号与相关上下文合并为一个语义实体,否则将句块中的其他符号作为划分物理句块的标志。


5.根据权利要求4所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1、利用已知的语言学的语法句法知识,对篇章中的连续文本进行语义分析,为每个连续的文本块分别生成由解析树构成的列表;
步骤2-2、结合文本数据的信息结构、担任特定角色的术语的类别、文本数据的类别,将复杂的语义分解为层次语义结构;
步骤2-3、进行实体对齐;
步骤2-4、实体对最近句法依赖动词提取。


6.根据权利要求5所述的方法,其特征在于,步骤2-2中,所述层次语义结构中每个层次包含N个关于事实或概念的语义块,N取值为自然数;按照后序遍历的顺序,优先对嵌套层的语义块执行查询操作,确定嵌套层外延,对嵌套层处理结束后,对其余事实或概念的语义块执行查询操作,确定每个语义块的外延。


7.根据权利要求6所述的方法,其特征在于,步骤2-3包括:
根据实体名称判断事先建立的实体库中是否有同名实体,如果没有,则生成新实体对,添加到实体库中,否则获取到所有同名的实体对,计算目标实体对与获取到各个实体对之间的相似度,根据类别标签、属性标签、非结构化文本关键词分别相似度,对计算得到的结果综合打分候选排序,如果得分小于阈值,则将目标实体添加到实体库中,否则选择得分最高的结果最为目标实体的对齐结果。


8.根据权利要求7所述的方法,其特征在于,步骤2-4包括:
步骤2-4-1、设定两个不同的实体分别为ei和ej,采用如下方法分别提取与ei和ej存在并列结构或定中结构的关系的依存关联节点e′i和e′j:设置当前节点为e的父节点,如果父节点的依存关系为并列结构或定中结构关系,继续对所有节点...

【专利技术属性】
技术研发人员:李少锋王妍妍王玉坤高菁陈文颖张春晖
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1