System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及涉及开放域信息抽取的文本处理领域,具体地说是一种基于全局指针的数字教育平台开放信息抽取方法。
技术介绍
1、在"数字教育平台"场景中,教材与课程的内容分析任务占据着非常重要的地位。提取地点、机构、人物、企业和国家信息至关重要。这些信息有助于学生更好地理解课程内容,将知识应用到实际情境中,并理解课程中的事件和概念的上下文。然而,目前在这些信息提取任务上存在一些挑战。为了解决数字教育平台中,教材与课程的内容分析任务,需要用到目前很受欢迎的自然语言处理技术,信息抽取旨在从无结构或半结构化文本中提取出具有语义和结构的信息。它可以帮助我们从大规模的教材与课程内容中自动提取出有用的知识,并将其转化为结构化的形式,如三元组或属性值对。传统的信息抽取主要分为下面几个方法:
2、1.关系抽取:基于句法分析和语义角色标注等技术,识别出句子中的实体、谓词和宾语等要素,并建立候选关系。关系抽取的目标是从文本中提取出具有语义关联的实体之间的关系。
3、2.实体识别:使用命名实体识别(ner)技术,识别文本中的实体,如人名、地名、组织机构等。实体识别是关系抽取的重要前置步骤,用于确定句子中哪些词语表示具体的实体。
4、3.信息抽取:根据上述步骤获取的信息,将实体、关系和上下文信息组织起来,构建结构化的信息表示形式,如三元组或属性值对。这些表示形式有助于将文本中的信息转化为易于理解和处理的形式。
5、信息抽取技术结合了自然语言处理和机器学习等领域的技术,通过解析文本、抽取关系和实体,以及构建结构化
6、除此之外,bert(bidirectional encoder representations fromtransformers)作为一种预训练模型,对信息抽取领域产生了积极的影响。bert通过利用双向transformer模型进行预训练,能够更好地理解句子的上下文信息。在信息抽取任务中,上下文理解对于正确抽取实体和关系至关重要。因此如今的大多数信息抽取工作都会基于bert作为基模型,预训练模型已经在信息抽取领域取得显著进展。
7、开放域信息抽取,是一种自然语言处理技术,旨在从文本中抽取出丰富的、结构化的信息。与传统的信息抽取任务不同,开放域信息抽取不需要预定义的模式或模板,而是通过机器学习和自然语言处理技术来自动发现和提取无结构或半结构化文本中的信息。然而现在的开放域实体关系抽取依旧面临很大的挑战,主要的挑战有以下几条:
8、1.实体嵌套问题是传统基于序列标注的信息抽取方案无法处理的。
9、2.类别不确定的情况关系难以抽取。
10、因此,如何提高开放域信息抽取模型在复杂场景下表现,是当前自然语言处理领域的研究重点。本专利技术是一种基于全局指针(global pointer,gp)的开放域信息抽取方法,该方法将三元组抽取转化为实体抽取问题,并且基于gp能够更好地处理实体嵌套的问题。该方法为开放域信息抽取提供了一种新方案。
技术实现思路
1、本专利技术针对现有技术难以应对嵌套实体,准确率低等缺点,提出了一种基于gp的开放域信息抽取方法,该方法能够有效处理嵌套实体,并且拥有不错的准确率,是一种稳定、有效的新方案。
2、本专利技术为实现上述目的所采用的技术方案是:
3、一种基于全局指针的数字教育平台开放信息抽取方法,执行如下步骤,建立用于开放域关系抽取的网络模型,用于对输入的文本进行三元组抽取并识别出三元组里的主体和客体的类别;所述方法包括如下步骤:
4、s1、对采集的原始文本数据进行预处理获取文本实体,并标签处理;
5、s2、建立全局实体抽取模型,用于通过监督学习的方法,利用标注好的训练集数据对模型进行训练,以提高关系抽取任务的准确性和召回率,使得模型输出识别的span矩阵三元组;
6、s3、解析三元组span矩阵,提取三元组实体{主体、关系、客体};
7、s4、对无标签三元组中的主体与客体进行分类,从而获取实体类别;
8、s5、合并类别标签与三元组实体,输出有标签三元组作为抽取结果。
9、所述预处理包括数据清洗、去停用词、分词、划分、转换。
10、所述标签处理包括:
11、根据已有实体数据的属性构建关系抽取标注数据集,集合中存储有{subject、relation、object}三元组实体;再按比例分成训练集、验证集和测试集。
12、所述标签处理还包括:对数据预处理获得的实体数据进行类别标记,建立实体分类标注数据集;再按比例分成训练集、验证集和测试集。
13、所述关系抽取标注数据集含有嵌套实体的文本语句,用于进行多标签标注训练,从而有效抽取出多对实体和关系。
14、所述全局实体抽取模型对标签后文本数据使用tokenizer进行编码,得到表征文本实体的span矩阵三元组。
15、所述有标签三元组为:{实体1subject、关系relation、实体2object、实体1类别subject_type、实体2类别object_type}。
16、所述开放域关系抽取模型的loss函数采用“softmax+交叉熵”,用于实现目标类别得分与非目标类别得分的两两比较,自动平衡每一项参数权重。
17、所述实体分类先判断抽取的三元组实体是否有效,若是则进一步根据概率分类。
18、一种基于全局指针的开放域信息抽取系统,包括处理器和存储器,所述存储器中存储有如下程序模块,当处理器加载程序时执行开放域信息抽取;所述程序模块包括:
19、数据预处理模块:对原始文本数据进行预处理获取文本实体,并标签处理;
20、global pointer全局实体抽取模块:基于建立全局实体抽取模型,用于通过监督学习的方法,利用标注好的训练集数据对模型进行训练,以提高关系抽取任务的准确性和召回率,使得模型输出识别的span矩阵三元组;
21、后处理解析为无标签三元组模块:解析三元组span矩阵,提取三元组实体{主体、关系、客体};
22、实体分类模块:对无标签三元组中的主体与客体进行分类,从而获取实体类别;
23、输出模块:合并类别标签与三元组实体,输出有标签三元组作为抽取结果。
24、本专利技术具有以下的优势和创新点:
25、本专利技术具有以下优点及有益效果:
26、1.对于教材与课程的内容分析任务,本专利技术可以将实体抽取和关系抽取转化为实体三元组抽取,这样可以有效抽取开放域三元组。
27、2.对于教材与课程的内容里涉及到的实体人物,本专利技术可以使用global pointer进行实体抽取人物,有效处理输入语句中嵌套实体情况。
本文档来自技高网...
【技术保护点】
1.一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,执行如下步骤,建立用于开放域关系抽取的网络模型,用于对输入的文本进行三元组抽取并识别出三元组里的主体和客体的类别;所述方法包括如下步骤:
2.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述预处理包括数据清洗、去停用词、分词、划分、转换。
3.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述标签处理包括:
4.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述标签处理还包括:对数据预处理获得的实体数据进行类别标记,建立实体分类标注数据集;再按比例分成训练集、验证集和测试集。
5.根据权利要求3所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述关系抽取标注数据集含有嵌套实体的文本语句,用于进行多标签标注训练,从而有效抽取出多对实体和关系。
6.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述全局实体抽
7.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述有标签三元组为:{实体1subject、关系relation、实体2object、实体1类别subject_type、实体2类别object_type}。
8.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述开放域关系抽取模型的loss函数采用“softmax+交叉熵”,用于实现目标类别得分与非目标类别得分的两两比较,自动平衡每一项参数权重。
9.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述实体分类先判断抽取的三元组实体是否有效,若是则进一步根据概率分类。
10.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取系统,其特征在于,包括处理器和存储器,所述存储器中存储有如下程序模块,当处理器加载程序时执行开放域信息抽取;所述程序模块包括:
...【技术特征摘要】
1.一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,执行如下步骤,建立用于开放域关系抽取的网络模型,用于对输入的文本进行三元组抽取并识别出三元组里的主体和客体的类别;所述方法包括如下步骤:
2.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述预处理包括数据清洗、去停用词、分词、划分、转换。
3.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述标签处理包括:
4.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述标签处理还包括:对数据预处理获得的实体数据进行类别标记,建立实体分类标注数据集;再按比例分成训练集、验证集和测试集。
5.根据权利要求3所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于,所述关系抽取标注数据集含有嵌套实体的文本语句,用于进行多标签标注训练,从而有效抽取出多对实体和关系。
6.根据权利要求1所述的一种基于全局指针的数字教育平台开放信息抽取方法,其特征在于...
【专利技术属性】
技术研发人员:卜立平,魏靖烜,于碧辉,孙林壮,常贵勇,许明军,张思博,
申请(专利权)人:中国科学院沈阳计算技术研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。