本申请涉及一种信息抽取模型训练方法、装置、计算机设备和存储介质。所述方法包括:确定样本文本中所包含的实体;根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。采用本方法能够得到可以提取完整三元组信息的信息抽取模型。
【技术实现步骤摘要】
信息抽取模型训练方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种信息抽取模型训练方法、装置、计算机设备和存储介质。
技术介绍
随着信息技术的发展,知识图谱的构建成为了必要。知识图谱是指通过可视化构建原始文本中各关键信息之间的关联关系。而信息抽取是构建知识图谱的关键步骤,是自然语言处理(NLP)中最重要的任务之一。目前主要是通过序列标注技术来实现信息抽取,通过一个端到端的机器学习模型将原始文本里包含的信息进行结构化处理,并从结构化处理后的原始文本中抽取出关键信息,之后再将关键信息以三元组{实体,关系,实体}的形式输出。然而,目前的序列标注技术能够提取的三元组信息非常有限。
技术实现思路
基于此,有必要针对上述技术问题,提供一种信息抽取模型训练方法、装置、计算机设备和存储介质。其中,训练得到的信息抽取模型能够提取文本中的完整三元组信息。一种信息抽取模型训练方法,所述方法包括:确定样本文本中所包含的实体;根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。在其中一个实施例中,所述词性类别包括核心实体、关系主语以及关系宾语;所述根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注包括:获取与所述样本文本对应的一个或多个样本元组;基于所述样本元组确定样本文本中所包含的各实体的出现频次;将样本文本中出现频次最多的实体标注为核心实体;将样本文本中与出现位置位于样本元组起始位置的其他元素对应的实体的词性标注为关系主语;将样本文本中与出现位置位于样本元组末尾位置的其他元素对应的实体的词性标注为关系宾语。在其中一个实施例中,所述基于所述样本元组确定样本文本中所包含的各实体的出现频次包括:统计所述一个或多个样本元组中每个不同元素的出现频次;将所述不同元素出现的频次作为所述样本文本中对应实体的出现频次。在其中一个实施例中,所述根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注包括:获取关系集;所述关系集中具有多个关系元素;从所述样本文本中筛选出包含所述关系元素的至少一条目标短句;对所述目标短句进行主语补全,得到至少一条完整短句;确定全部完整短句中各实体出现频次及每个实体的词性类别;根据所述各元素的出现频次及每个元素的词性类别,对所述样本文本中每个分词进行词性标注。在其中一个实施例中,所述对所述目标短句进行主语补全,得到至少一条完整短句包括:获取目标短句中各分词的词性类别;基于所述各分词的词性类别,判断所述目标短句是否包含主语成分;当不包含所述主语成分时,确定所述目标短句在所述样本文本中的上下文句意关系;基于所述上下文句意关系对所述目标短句进行主语补全,得到完整短句。在其中一个实施例中,所述确定全部完整短句中各实体数量及每个实体的词性类别包括:统计全部完整短句中各实体的出现频次;将出现频次最多的实体确定为核心实体;确定除核心实体之外的其余实体在所述完整短句中的位置信息;将所述完整短句中位于所述关系元素之后的除核心实体之外的实体,确定为与对应关系元素相关联的关系宾语;将所述完整短句中位于所述关系元素之前的除核心实体之外的实体,确定为与对应关系元素相关联的关系主语。在其中一个实施例中,所述基于所述样本文本以及对应的标签序列对信息抽取模型进行训练包括:基于信息抽取模型确定所述样本文本中每个字符的分类结果;按照所述每个字符的分类结果与所述标签序列的差异,调整所述信息抽取模型并继续训练,直至满足训练停止条件。一种信息抽取模型训练置,所述装置包括:词性标注模块,用于确定样本文本中所包含的实体;根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;标签序列确定模块,用于根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;模型训练模块,用于基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:确定样本文本中所包含的实体;根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:确定样本文本中所包含的实体;根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。上述种信息抽取模型训练方法、装置、计算机设备和存储介质,通过识别样本文本中所包含的实体,可以确定实体出现的频率以及词性;通过确定的实体出现的频次以及词性,可以确定样本中文本中的核心实体、关系主语以及关系宾语,从而可以根据核心实体、关系主语以及关系宾语确定样本文本中每个字符所对应的分类标签,得到对应的标签序列,进而可以根据本文本以及对应的标签序列对信息抽取模型进行训练,得到可抽取出样本文本中全部三元组信息的机器学习模型。本实施例中,由于一个样本文本中往往只存在一个核心实体,且基于此核心实体可以构建至少一个三元组,因此通过确定样本文本中的核心实体、关系主语以及关系宾语,并对确定的核心实体、关系主语以及关系宾语进行标签标注,即可得到一组包含样本文本中全部三元组信息的标签序列,从而基于此标签序列进行训练而得的信息抽取模型也能够抽取出文本中的全部三元组关系。附图说明图1为一个实施例中信息抽取模型训练方法的应用场景图;图2为一个实施例中信息抽取模型训练方法的流程示意图;图3为一个实施例中与样本文本相对应的标签序列的示意图;图4为一个实施例中基于概率图模型层对输出结果进行验证的示意图;图5为一个实施例中对样本文本中每个分词进行词性标注的方法步骤示意图;图6为一个实施例中信息抽取模型训练装置的结构框图;图7为另一个实施例中信息抽取模型训练装置的结构框图;图8为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目本文档来自技高网...
【技术保护点】
1.一种信息抽取模型训练方法,其特征在于,所述方法包括:/n确定样本文本中所包含的实体;/n根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;/n根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;/n基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。/n
【技术特征摘要】
1.一种信息抽取模型训练方法,其特征在于,所述方法包括:
确定样本文本中所包含的实体;
根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;
根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;
基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述词性类别包括核心实体、关系主语以及关系宾语;所述根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注包括:
获取与所述样本文本对应的一个或多个样本元组;
基于所述样本元组确定样本文本中所包含的各实体的出现频次;
将样本文本中出现频次最多的实体标注为核心实体;
将样本文本中与出现位置位于样本元组起始位置的其他元素对应的实体的词性标注为关系主语;
将样本文本中与出现位置位于样本元组末尾位置的其他元素对应的实体的词性标注为关系宾语。
3.根据权利要求2所述的方法,其特征在于,所述基于所述样本元组确定样本文本中所包含的各实体的出现频次包括:
统计所述一个或多个样本元组中每个不同元素的出现频次;
将所述不同元素出现的频次作为所述样本文本中对应实体的出现频次。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注包括:
获取关系集;所述关系集中具有多个关系元素;
从所述样本文本中筛选出包含所述关系元素的至少一条目标短句;
对所述目标短句进行主语补全,得到至少一条完整短句;
确定全部完整短句中各实体出现频次及每个实体的词性类别;
根据所述各元素的出现频次及每个元素的词性类别,对所述样本文本中每个分词进行词性标注。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标短句进行主语补全,得到至少一条完整短句包括:
获取目标短句...
【专利技术属性】
技术研发人员:赵富邦,彭子轩,邹鸿岳,杨雪峰,
申请(专利权)人:深圳追一科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。