System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种服务器、文本标注方法及存储介质技术_技高网

一种服务器、文本标注方法及存储介质技术

技术编号:40576035 阅读:5 留言:0更新日期:2024-03-06 17:17
本公开涉及一种服务器、文本标注方法及存储介质,涉及知识图谱技术领域。其中,该服务器包括:控制器,被配置为:获取百科数据库中的文本语料,以及与文本语料对应的半结构化数据;将半结构化数据转化为知识三元组,知识三元组包括:第一实体词、关系属性词和第二实体词;基于第一实体词和第二实体词,对文本语料进行标注,得到标注文本。本公开实施例提升了文本标注的准确率和可用性。

【技术实现步骤摘要】

本公开涉及知识图谱,尤其涉及一种服务器、文本标注方法及存储介质


技术介绍

1、知识图谱领域中,信息抽取是构建知识图谱过程中的重要信息来源,它是指从非结构化数据中获取规范化知识三元组的过程,其中非结构化数据是无明显标注信息的文本数据;信息抽取得到的知识三元组用于标注文本以训练模型。目前的信息抽取方法首先对非结构化数据进行特征提取得到特征向量,进而将特征向量依次输入条件随机场(conditional random fields,crf)、标签嵌入层以及神经网络,从而预测得到头实体和关系属性,进一步的通过全局关系预测得到包括头实体、关系属性以及尾实体的知识三元组,但是该信息抽取方法处理过程复杂,且难以准确抽取隐含的关系属性,影响文本标注的准确率和可用性。


技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种服务器、文本标注方法及存储介质,可以利用半结构化数据准确标注文本语料中隐含的关系,提升了文本标注的准确率和可用性。

2、为了实现上述目的,本公开实施例提供的技术方案如下:

3、第一方面,本公开提供一种服务器,包括:

4、控制器,被配置为:获取百科数据库中的文本语料,以及与文本语料对应的半结构化数据;

5、将半结构化数据转化为知识三元组,知识三元组包括:第一实体词、关系属性词和第二实体词;

6、基于第一实体词和第二实体词,对文本语料进行标注,得到标注文本。

7、第二方面,本公开提供另一种服务器,包括:

8、控制器,被配置为:获取文本标注数据集,文本标注数据集包括标注文本以及与标注文本对应的知识三元组;

9、将文本标注数据集输入预训练模型,得到预训练模型输出的预测三元组,预训练模型是基于阅读理解模型构建得到的;

10、基于预测三元组和知识三元组,计算损失函数值;

11、在损失函数值小于预设损失函数值的情况下,得到收敛的信息抽取模型。

12、第三方面,本公开提供一种文本传输方法,包括:

13、获取百科数据库中的文本语料,以及与文本语料对应的半结构化数据;

14、将半结构化数据转化为知识三元组,知识三元组包括:第一实体词、关系属性词和第二实体词;

15、基于第一实体词和第二实体词,对文本语料进行标注,得到标注文本。

16、第四方面,本公开提供了一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第三方面所示的文本标注方法。

17、第四方面,本公开提供了一种计算机程序产品,该计算机程序产品包括计算机程序,当该计算机程序在计算机上运行时,使得计算机实现如第三方面所示的文本标注方法。

18、本公开实施例提供一种服务器、文本标注方法及存储介质,其中该服务器首先获取百科数据库的文本语料,以及与文本语料对应的半结构化数据,然后将半结构化数据转化为知识三元组,该知识三元组中包括第一实体词、关系属性词和第二实体词,进一步的基于第一实体词、第二实体词对文本语料进行标注,得到标注文本。通过分析半结构化数据中包括的实体和以及各个实体之间的关系快速得到知识三元组,然后基于该知识三元组对文本语料进行标注,利用半结构化数据准确标注文本语料中隐含的关系,无需对文本语料进行阅读理解,处理过程简单,提升了文本标注的准确率和可用性。

本文档来自技高网...

【技术保护点】

1.一种服务器,其特征在于,包括:

2.根据权利要求1所述的服务器,其特征在于,所述控制器,基于所述第一实体词和所述第二实体词,对所述文本语料进行标注,得到标注文本,被配置为:

3.根据权利要求1所述的服务器,其特征在于,所述控制器,将所述半结构化数据转化为知识三元组,被配置为:

4.根据权利要求1所述的服务器,其特征在于,所述控制器,基于所述第一实体词和所述第二实体词,对所述文本语料进行标注,得到标注文本之后,还被配置为:

5.根据权利要求4所述的服务器,其特征在于,所述控制器,将所述标注文本和所述知识三元组作为文本标注数据集,输入预训练模型,得到所述预训练模型输出的预测三元组,被配置为:

6.根据权利要求4所述的服务器,其特征在于,所述控制器,在所述损失函数值小于预设损失函数值的情况下,得到收敛的信息抽取模型之后,还被配置为:

7.一种服务器,其特征在于,包括:

8.一种文本标注方法,其特征在于,包括:

9.根据权利要求8所述的方法,其特征在于,包括:所述基于所述第一实体词和所述第二实体词,对所述文本语料进行标注,得到标注文本,包括:

10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求8至9中任一项所述的文本标注方法。

...

【技术特征摘要】

1.一种服务器,其特征在于,包括:

2.根据权利要求1所述的服务器,其特征在于,所述控制器,基于所述第一实体词和所述第二实体词,对所述文本语料进行标注,得到标注文本,被配置为:

3.根据权利要求1所述的服务器,其特征在于,所述控制器,将所述半结构化数据转化为知识三元组,被配置为:

4.根据权利要求1所述的服务器,其特征在于,所述控制器,基于所述第一实体词和所述第二实体词,对所述文本语料进行标注,得到标注文本之后,还被配置为:

5.根据权利要求4所述的服务器,其特征在于,所述控制器,将所述标注文本和所述知识三元组作为文本标注数据集,输入预训练模型,得到所述预训练...

【专利技术属性】
技术研发人员:殷腾龙
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1