信息处理装置、信息处理方法和机器可读存储介质制造方法及图纸

技术编号:43014779 阅读:27 留言:0更新日期:2024-10-18 17:19
本公开涉及一种信息处理装置、信息处理方法和机器可读存储介质。信息处理装置包括:构建单元,其通过原始训练样本、针对原始训练样本中的每个实体对分别构建对应于每个实体对的多个训练样本,多个训练样本中的至少一部分反映实体对中的实体之间的局部上下文关系;以及训练单元,其利用多个训练样本、针对每个实体对训练文档级关系抽取模型中的预训练语言模型,以学习每个实体对中的实体的描述在不同上下文中的重要性。该信息处理装置可以使预训练语言模型学习到描述在不同上下文中的重要性,而不需要额外的人工标注。

【技术实现步骤摘要】

本公开涉及信息处理的,具体地涉及用于自然语言处理的信息处理装置、信息处理方法和机器可读存储介质


技术介绍

1、这个部分提供了与本公开有关的背景信息,这不一定是现有技术。

2、文档级实体关系抽取(document-level relation extraction,dlre)指的是抽取文档中实体对(entity pair)之间的关系。该任务特点在于一篇文档中往往包含多个实体(entity),因此需要对所有的实体对进行关系判定。对于一个实体,文档中又可能包含多个对于该实体的描述(mention)。如图1所示,左侧方框示出了一篇英文文档作为文档示例,其中,文档中每对“*”之间的内容(加粗)表示一个描述。为了便于说明,图1中用加粗且加下划线方式标出描述同一实体的四个描述。dlre模型以文档和实体/描述信息为输入,输出为实体对[eti,etj](i、j为非零的自然数)的关系。图1中右侧方框中的0和1表示不同类别关系的标识符。

3、dlre模型中有一个很重要的步骤,即得到每个实体的向量表示(embedding)。通常做法是先得到每个描述的向量本文档来自技高网...

【技术保护点】

1.一种信息处理装置,包括:

2.根据权利要求1所述的信息处理装置,其中,所述多个训练样本包括:所述原始训练样本中的包括所述实体对的局部上下文实例,并且

3.根据权利要求2所述的信息处理装置,其中,所述构建单元通过以下方法来获得所述局部上下文实例:

4.根据权利要求3所述的信息处理装置,其中,

5.根据权利要求2所述的信息处理装置,其中,所述多个训练样本还包括:

6.根据权利要求5所述的信息处理装置,其中,所述构建单元通过构造仅包含所述实体对中的每个实体的描述的内容的训练样本来获得所述实体对实例。

>7.根据权利要求2...

【技术特征摘要】

1.一种信息处理装置,包括:

2.根据权利要求1所述的信息处理装置,其中,所述多个训练样本包括:所述原始训练样本中的包括所述实体对的局部上下文实例,并且

3.根据权利要求2所述的信息处理装置,其中,所述构建单元通过以下方法来获得所述局部上下文实例:

4.根据权利要求3所述的信息处理装置,其中,

5.根据权利要求2所述的信息处理装置,其中,所述多个训练样本还包括:

6.根据权利要求5所述的信息处理装置,其中,所述构建单元通过构造仅包含所述实体对中的每个实体的描述的内容的训练样本来获得所述实...

【专利技术属性】
技术研发人员:郑仲光房璐曹奕翎孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1