【技术实现步骤摘要】
一种实体标签属性识别的方法、装置、设备及存储介质
[0001]本申请涉及自然语言处理
,尤其是涉及一种实体标签属性识别的方法、装置、设备及存储介质。
技术介绍
[0002]实体标签属性识别任务是文本挖掘领域中的一项重要任务,主要为信息抽取技术中的实体链接、关系抽取和事件抽取等任务提供重要的支撑,此外也为问答系统和推荐系统等下游应用提供帮助。实体标签属性识别任务具体定义为:给定候选实体及其上下文,预测候选实体可能的标签类别。以医学领域为例,在医患对话、现病史、既往史与出院小结等医学文本中,有许多部位和病人状态描述的实体,比如:左乳、右肺、腰3椎体、呕吐、腹泻和发热等。为了对病人的状态进行比较全面且精确地描述,需要对这些实体进行标签识别,确定医学实体的标签属性。
[0003]目前现有技术中,在实体标签属性识别领域,更多地是一些基于规则的方法,通过手工设计一些规则特征来获得样本表示,然后使用一些经典的分类算法来判断实体的标签类型,但手工特征通常于数据集深度耦合或通过外部通用工具得到,在运用到具体文本领域有着较大误差; ...
【技术保护点】
【技术特征摘要】
1.一种实体标签属性识别的方法,其特征在于,所述方法包括:构建目标实体所在文本的文本向量和注意力遮蔽矩阵;其中,所述注意力遮蔽矩阵中矩阵元素的值用于表征所述目标实体所在文本的上下文以及所述目标实体的掩码之间相互的可见性;将所述文本向量和所述注意力遮蔽矩阵输入经预训练任务训练得到的掩码语言模型,得到所述掩码语言模型输出的所述目标实体对应的掩码向量;基于所述掩码向量确定所述目标实体的标签属性类别。2.根据权利要求1所述的方法,其特征在于,所述文本向量包括:文本拆分向量、位置编码向量和语义编码向量;构建目标实体所在文本的文本向量,包括:对所述目标实体所在文本进行拆分,得到多个拆分单元以构成拆分文本序列;在所述拆分文本序列中添加所述目标实体的掩码对应的掩码标识,得到所述文本拆分向量;基于所述文本拆分向量中每个拆分单元在所述目标实体所在文本中对应的位置以及掩码标识掩码的所述目标实体在所述目标实体所在文本中对应的位置,构建位置编码向量;将所述文本拆分向量中每个拆分单元和所述掩码标识对应的语义编码设置为预设值,得到语义编码向量。3.根据权利要求2所述的方法,其特征在于,构建目标实体所在文本的注意力遮蔽矩阵,包括:基于所述文本拆分向量中的每个拆分单元和掩码标识,构建初始注意力遮蔽矩阵;其中,所述初始注意力遮蔽矩阵的行和列上的每个位置代表每个拆分单元和掩码标识;基于所述目标实体所在文本对应的每个拆分单元相互之间的可见性,以及所述目标实体所在文本对应的每个拆分单元与所述掩码标识相互之间的可见性,确定所述初始注意力遮蔽矩阵中每个矩阵元素的值,得到所述注意力遮蔽矩阵;其中,所述目标实体所在文本对应的每个拆分单元相互之间均是可见的;所述掩码标识对于所述目标实体所在文本对应的每个拆分单元是不可见的;除所述目标实体之外,所述目标实体所在文本对应的每个拆分单元对于所述掩码标识是不可见的;所述目标实体对于所述掩码标识是可见的。4.根据权利要求2所述的方法,其特征在于,所述将所述文本向量和所述注意力遮蔽矩阵输入经预训练任务训练得到的掩码语言模型,得到所述掩码语言模型输出的所述目标实体对应的掩码向量,包括:将所述文本向量和所述注意力遮蔽矩阵输入经预训练任务训练得到的掩码语言模型,所述掩码语言模型对所述文本拆分向量中每个拆分单元和掩码标识分别进行编码;将所述掩码语言模型对所述掩码标识编码得到的向量作为所述目标实体对应的掩码向量。5.根据权利要求1所述的方法,其特征在于,当所述方法应用于医学领域的实体标签属性识别时,所述基于所述掩码向量确定所述目标实体的标签属性类别,包括:将所述掩码向量输入线性输出层,...
【专利技术属性】
技术研发人员:吴钒,郭炫志,林森,彭伟,李永顺,
申请(专利权)人:四川久远银海软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。