【技术实现步骤摘要】
用于实体分类的方法和装置
本公开的实施例涉及计算机
,具体涉及知识图谱
技术介绍
实体分类(EntityClassification)技术通常是指把文本形式的实体根据一系列的特征划分到指定类别的技术。相关技术中,通常需要实体所在文本的上下文的辅助实现对实体进行分类。例如,采用命名实体识别(NamedEntityRecognition)技术进行实体分类,命名实体识别等技术在没有上下文信息的应用场景下能够起到的作用通常有限,因此无法保证实体分类的准确性。可见,如何对没有上下文的实体准确地分类是当前需要解决的问题。
技术实现思路
提供了一种用于实体分类的方法、装置、设备以及存储介质。根据第一方面,提供了一种用于实体分类的方法,该方法包括:获取待分类实体;将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。根据第二方面,提供了一种用于实体分类的装置,该装置包括:获取单元,被配置成获取待分类实体;标注单元,被配置成将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;输入单元,被配置成将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于 ...
【技术保护点】
1.一种用于实体分类的方法,包括:/n获取待分类实体;/n将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒度大于词粒度;/n将已标注词片段概念的所述待分类实体输入预先训练的实体分类模型,得到所述待分类实体的实体分类结果,其中,所述实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。/n
【技术特征摘要】
1.一种用于实体分类的方法,包括:
获取待分类实体;
将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒度大于词粒度;
将已标注词片段概念的所述待分类实体输入预先训练的实体分类模型,得到所述待分类实体的实体分类结果,其中,所述实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。
2.根据权利要求1所述的方法,其中,所述将所述待分类实体划分成词片段,并对词片段进行概念标注,包括:
将所述待分类实体输入预先训练的词片段标注模型,得到所述待分类实体的词片段概念标注,其中,所述词片段标注模型用于为实体中的词片段进行概念标注。
3.根据权利要求2所述的方法,其中,所述词片段标注模型通过如下方式训练得到:
获取第一训练样本集合,其中,第一训练样本包括未标注实体和已标注词片段概念的实体;
将所述第一训练样本中未标注实体作为输入,将所述第一训练样本中已标注词片段概念的实体作为输出,训练预先构建的第一初始模型,得到所述词片段标注模型。
4.根据权利要求3所述的方法,其中,所述第一训练样本通过如下方式得到:
获取实体样本;
对所述实体样本进行基础粒度切分,得到所述实体样本的基本元素,并对各所述基本元素进行概念标注;
按照预设粒度对概念标注后的基本元素进行组合或拆分,生成已标注词片段概念的实体样本;
将未标注实体样本和已标注词片段概念的实体样本确定为所述第一训练样本。
5.根据权利要求1所述的方法,其中,所述实体分类模型通过如下步骤训练得到:
获取第二训练样本集合,其中,第二样本集合包括已标注词片段概念且未设分类标签的实体和已设分类标签的实体;
将所述第二训练样本中的已标注词片段概念且未设分类标签的实体作为输入,将所述第二训练样本中的已设分类标签的实体作为输出,训练预先构建的第二初始模型,得到所述实体分类模型。
6.根据权利要求1所述的方法,其中,所述实体分类模型还用于对实体中的词片段进行概念标注;
所述将所述待分类实体划分成词片段,并对词片段进行概念标注,包括:
将所述待分类实体输入所述实体分类模型,得到所述待分类实体的词片段概念标注。
7.根据权利要求6所述的方法,其中,所述实体分类模型还可以通过如下步骤训练得到:
获取第三训练样本集合,其中,所述第三训练样本包括为未标注实体和已标注词片段概念且已设分类标签的实体;
将所述第三训练样本中未标注实体作为输入,将所述第三训练样本中已标注词片段概念且已设分类标签的实体作为输出,训练所述第三初始模型,得到所述实体分类模型。
8.一种用于实体分类的装置,包括:
获取单元,被配置成获取待分类实体;
标注单元,被配置成将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒...
【专利技术属性】
技术研发人员:程健一,赵岷,秦华鹏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。