【技术实现步骤摘要】
本专利技术涉及关系抽取,尤其是涉及一种基于平面化句子表示的关系抽取方法。
技术介绍
1、关系抽取作为自然语言处理领域的关键任务之一,旨在从非结构化的文本数据中精确提取命名实体间的关系,为构建知识图谱、智能问答系统及模式归纳等下游应用提供关键支撑。在经典的句子级关系抽取任务设定下,模型的目标在于从特定句子中精准识别每一对命名实体之间的特定关系类型。以句子“某市坐落在某省”为例,其中包含的两个命名实体“a市”与“b省”之间蕴含了“位于”的地理关系,这是关系抽取系统需准确捕获的信息。
2、平面化句子表示(如:表填充)是最近出现在信息抽取领域中的一种新的句子表示方法,平面化句子表示能够将原本一维的句子转化为二维的语义平面,并在这个转换的词-词交互过程中充分融合上下文信息。在实体识别任务中,平面化句子表示旨在将句子中可能存在的多个命名实体统一建模在相同的上下文表示中,从而提高模型识别实体的效率以及支持模型能够识别更加复杂的嵌套实体和非连续实体。在关系抽取中,平面化句子表示通常用于端到端场景,旨在命名实体未知的情况下直接从未经处理的句子
...【技术保护点】
1.一种基于平面化句子表示的关系抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于平面化句子表示的关系抽取方法,其特征在于:S1中,使用中文文学文本语料CLTC公共数据集,CLTC由837篇中文文学作品组成,包含9种关系类型,预处理操作为:
3.根据权利要求1所述的一种基于平面化句子表示的关系抽取方法,其特征在于:S2中,基于S1中处理完成的数据,首先,根据实体对应的类型信息制作实体类型标记;随后,根据实体索引将实体类型标记添加到对应的实体两侧。
4.根据权利要求1所述的一种基于平面化句子表示的关系抽取方法,其特
...【技术特征摘要】
1.一种基于平面化句子表示的关系抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于平面化句子表示的关系抽取方法,其特征在于:s1中,使用中文文学文本语料cltc公共数据集,cltc由837篇中文文学作品组成,包含9种关系类型,预处理操作为:
3.根据权利要求1所述的一种基于平面化句子表示的关系抽取方法,其特征在于:s2中,基于s1中处理完成的数据,首先,根据实体对应的类型信息制作实体类型标记;随后,根据实体索引将实体类型标记添加到对应的实体两侧。
4.根据权利要求1所述的一种基于平面化句子表示的关系抽取方法,其特征在于:s3中,使用bert及bert的变种作为输入文本的预训练语言模型plm编码器;
...
【专利技术属性】
技术研发人员:秦永彬,王昊,白瑞娜,黄瑞章,陈艳平,林川,陈友娜,
申请(专利权)人:贵州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。