【技术实现步骤摘要】
关系三元组抽取方法、装置、设备及存储介质
[0001]本申请涉及电力设备检测
,尤其涉及一种关系三元组抽取方法、装置、设备及存储介质。
技术介绍
[0002]目前,传统的限定域三元组抽取的实体关系类别是定义好的,一个场景可能有几十种实体类别、关系类别,只能在特定场景对特定关系、特定实体抽取。针对不同领域的抽取任务需要构建不同的数据集,训练不同的抽取模型,可泛化能力差、成本较高。而且抽取模型应用场景单一,难以应对如新闻场景等类别种类繁多且不同类别的文本内容对应的实体关系差异性较大的场景。
技术实现思路
[0003]有鉴于此,本申请实施例提供了一种关系三元组抽取方法、装置、设备及存储介质,可以解决现有限定域三元组抽取方法存在的只能在特定场景对特定关系、特定实体进行抽取而导致的应用场景单一、成本高、泛化能力差的问题。
[0004]本申请实施例的第一方面提供了一种关系三元组抽取方法,包括:获取待处理的第一文本,对所述第一文本进行文本分词处理,获得第二文本,其中,所述第二文本表示为包含有若干个分词元素的数 ...
【技术保护点】
【技术特征摘要】
1.一种关系三元组抽取方法,其特征在于,包括:获取待处理的第一文本,对所述第一文本进行文本分词处理,获得第二文本,其中,所述第二文本表示为包含有若干个分词元素的数据集合;将所述第二文本输入至预设的三元组抽取模型进行基于分词的实体和关系预测,获得与所述第二文本对应的标注序列,其中,所述标注序列中的标注标签与所述第二文本中的分词元素一一对应;根据所述标注序列中的标注标签,抽取出所述第一文本的关系三元组。2.根据权利要求1所述的关系三元组抽取方法,其特征在于,所述根据所述标注序列中的标注标签,抽取出所述第一文本的关系三元组的步骤,包括:在所述第二文本对应的标注序列多于一个的情况下,则将每个标注序列逐一输入至预设的三元组判别模型中进行正确性判别,获得每个标注序列对应的作为正确标注序列的概率值;根据所述每个标注序列对应的作为正确标注序列的概率值,确定正确的标注序列,以根据所述正确的标注序列的标注标签,确定所述第一文本的关系三元组。3.根据权利要求2所述的关系三元组抽取方法,其特征在于,所述根据所述每个标注序列对应的作为正确标注序列的概率值,确定正确的标注序列的步骤,包括:将所述每个标注序列对应的作为正确标注序列的概率值分别与预设概率阈值进行大小比较,分别判断所述每个标注序列对应的作为正确标注序列的概率值是否大于所述预设概率阈值;若概率值大于所述预设概率阈值,则确定所述概率值对应的标注序列为正确的标注序列。4.根据权利要求2所述的关系三元组抽取方法,其特征在于,所述在所述第二文本对应的标注序列多于一个的情况下,则将每个标注序列逐一输入至预设的三元组判别模型中进行正确性判别,获得每个标注序列对应的作为正确标注序列的概率值的步骤之前,还包括:按照预设的第一样本格式构建所述三元组判别模型的训练样本,获得多个第一训练样本,其中,每个第一训练样本中记载有样本文本以及所述样本文本对应包含的第一关系三元组,所述第一预设样本格式包括将所述样本文本以及所述第一关系三元组中的实体和关系分隔开且所述第一关系三元组中的实体和关系的位置在所述样本文本的前面且采用预设的替代字符对所述样本文本中所述第一关系三元组对应的内容进行替代处理;采用所述多个第一训练样本训练预设的第一神经网络模型至收敛状态,获得所述三元组判别模型,所述第一神经网络模型中包含有第一PLM网络层、classifier网络层,其中,所述第一PLM网络层用于获取第一输入文本的语义特征向量,所述classifier网络层用于根据语义特征向量对所述第一输入文本进行预测,生成用于判断所述第一输入文本正确与否的二维向量。5.根据权利要求4...
【专利技术属性】
技术研发人员:王赞,
申请(专利权)人:深圳市优必选科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。