【技术实现步骤摘要】
信息抽取模型训练方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种信息抽取模型训练方法、装置、计算机设备和存储介质。
技术介绍
随着信息技术的发展,知识图谱的构建成为了必要。知识图谱是指通过可视化构建原始文本中各关键信息之间的关联关系。而信息抽取是构建知识图谱的关键步骤,是自然语言处理(NLP)中最重要的任务之一。目前主要是通过序列标注技术来实现信息抽取,通过一个端到端的机器学习模型将原始文本里包含的信息进行结构化处理,并从结构化处理后的原始文本中抽取出关键信息,之后再将关键信息以三元组{实体,关系,实体}的形式输出。然而,目前的序列标注技术能够提取的三元组信息非常有限。
技术实现思路
基于此,有必要针对上述技术问题,提供一种信息抽取模型训练方法、装置、计算机设备和存储介质。其中,训练得到的信息抽取模型能够提取文本中的完整三元组信息。一种信息抽取模型训练方法,所述方法包括:确定样本文本中所包含的实体;根据所述样本文本中所包含的各实体的出现频次以及词性 ...
【技术保护点】
1.一种信息抽取模型训练方法,其特征在于,所述方法包括:/n确定样本文本中所包含的实体;/n根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;/n根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;/n基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。/n
【技术特征摘要】
1.一种信息抽取模型训练方法,其特征在于,所述方法包括:
确定样本文本中所包含的实体;
根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注;
根据所述词性标注确定相应分词中每个字符所对应的分类标签,得到所述样本文本对应的标签序列;
基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述词性类别包括核心实体、关系主语以及关系宾语;所述根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注包括:
获取与所述样本文本对应的一个或多个样本元组;
基于所述样本元组确定样本文本中所包含的各实体的出现频次;
将样本文本中出现频次最多的实体标注为核心实体;
将样本文本中与出现位置位于样本元组起始位置的其他元素对应的实体的词性标注为关系主语;
将样本文本中与出现位置位于样本元组末尾位置的其他元素对应的实体的词性标注为关系宾语。
3.根据权利要求2所述的方法,其特征在于,所述基于所述样本元组确定样本文本中所包含的各实体的出现频次包括:
统计所述一个或多个样本元组中每个不同元素的出现频次;
将所述不同元素出现的频次作为所述样本文本中对应实体的出现频次。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本文本中所包含的各实体的出现频次以及词性,对所述样本文本中每个分词进行词性标注包括:
获取关系集;所述关系集中具有多个关系元素;
从所述样本文本中筛选出包含所述关系元素的至少一条目标短句;
对所述目标短句进行主语补全,得到至少一条完整短句;
确定全部完整短句中各实体出现频次及每个实体的词性类别;
根据所述各元素的出现频次及每个元素的词性类别,对所述样本文本中每个分词进行词性标注。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标短句进行主语补全,得到至少一条完整短句包括:
获取目标短句...
【专利技术属性】
技术研发人员:赵富邦,彭子轩,邹鸿岳,杨雪峰,
申请(专利权)人:深圳追一科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。