用于实体分类的方法和装置制造方法及图纸

技术编号:25271569 阅读:38 留言:0更新日期:2020-08-14 23:04
本申请公开了用于实体分类的方法,涉及知识图谱领域。具体实现方案为:获取待分类实体;将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。该实现方通过引入实体的词片段概念标注,能够解决实体不存在上下文的情况下支持实体分类的特征不足、分类效果依赖上下文语料的问题,提高了实体分类的准确性。

【技术实现步骤摘要】
用于实体分类的方法和装置
本公开的实施例涉及计算机
,具体涉及知识图谱

技术介绍
实体分类(EntityClassification)技术通常是指把文本形式的实体根据一系列的特征划分到指定类别的技术。相关技术中,通常需要实体所在文本的上下文的辅助实现对实体进行分类。例如,采用命名实体识别(NamedEntityRecognition)技术进行实体分类,命名实体识别等技术在没有上下文信息的应用场景下能够起到的作用通常有限,因此无法保证实体分类的准确性。可见,如何对没有上下文的实体准确地分类是当前需要解决的问题。
技术实现思路
提供了一种用于实体分类的方法、装置、设备以及存储介质。根据第一方面,提供了一种用于实体分类的方法,该方法包括:获取待分类实体;将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。根据第二方面,提供了一种用于实体分类的装置,该装置包括:获取单元,被配置成获取待分类实体;标注单元,被配置成将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;输入单元,被配置成将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述方法。根据本申请的技术解决了目前实体分类依赖上下文语料的问题,提高了不存在上下文语料的实体分类的准确性。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请的用于实体分类的方法的第一实施例的示意图;图2是根据本申请的用于实体分类的方法的第二实施例的示意图;图3是根据本申请的用于实体分类的装置的实施例的示意图;图4是用来实现本申请实施例的用于实体分类的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。请参考图1,其示出了根据本申请的用于实体分类的方法的第一实施例的示意图。该用于实体分类的方法,可以包括以下步骤:步骤101,获取待分类实体。在本实施例中,用于实体分类的方法的执行主体可以为用于实体分类的装置,该用于实体分类的装置可以为一个电子实体(例如服务器),或者也可以为采用软件集成的应用。使用时,可以将待分类实体输入该用于实体分类的装置中。该用于实体分类的装置可以采用本实施例的用于实体分类的方法,对待分类实体进行分类。在本实施例中,上述执行主体(例如服务器)可以通过有线连接方式或者无线连接方式从另一电子设备获取待分类实体。当然可以理解的是,待分类实体还可以存储在上述执行主体的本地,此时,上述执行主体可以直接从本地获取上述待分类实体。需要说明的是,上述待分类实体可以为不具有上下文语料的实体。例如,待分类实体为“哈尔滨工业大学硕士生导师”,该待分类实体中不存在上下文。可以理解的是,与具有上下文语料的实体相比,上述待分类实体用于支持实体分类的特征较少,因此,常规依赖实体上下文语料进行实体分类的方法无法准确地对其进行分类。通常,本申请可以应用于知识图谱领域,用于对知识图谱中的节点所指示的实体进行类别划分。或者,本方案还可以应用于搜索
,上述待分类实体可以为用户在搜索引擎、问答系统、广告系统等中进行搜索时直接输入的查询文本,或者上述待分类实体还可以为用户在搜索引擎、问答系统、广告系统等中进行搜索时,从用户输入的查询文本中提取出的实体。可见,上述待分类实体可以为通过各种方式获取的实体,这里没有唯一的限定。步骤102,将待分类实体划分成词片段,并对词片段进行概念标注。在本实施例中,基于步骤101获取的待分类实体,上述执行主体可以采用各种方式对该待分类实体中的词片段进行概念标注。具体地,上述执行主体可以对待分类实体进行分词,得到该待分类实体的词片段,而后对所获取的词片段进行概念标注。这里,词片段可以为预设粒度的语义单元,且词片段的粒度大于词粒度,词片段可以是对词的一种泛化。概念可以指从一类实体中抽取出共同特征的基础单元。例如,待分类实体为“哈尔滨工业大学硕士生导师”,分词得到的词片段可以包括“哈尔滨工业大学”和“硕士生导师”,其中,哈尔滨工业大学”的概念为“组织机构”,“硕士生导师”的概念为“人物”,因此,得到的概念标注结果为“哈尔滨工业大学[组织机构]硕士生导师[人物]”。作为示例,可以在概念体系的指导下采用分词工具或人工分词等方式将上述待分类实体划分成词片段,而后采用概念库作为先验知识确定各词片段的概念标注。概念体系可以为现实知识的树形结构标识,其描述了词片段的上下位关系。例如“硕士生导师”、“演员”的上位是“人物”,“哈尔滨工业大学”的上位是“组织机构”。概念库可以为存储概念体系的库。因此,可以按照概念体系的指导对待分类实体进行分词得到词片段,从概念库可以确定分词片段的概念并进行标注。在本实施例的一些可选的实现方式中,可以通过如下方式为待分类实体中的词片段进行概念标注:对待分类实体进行基础粒度(例如字粒度)切分,得到待分类实体的基本元素(例如字),并对各基本元素进行概念标注;按照预设粒度对概念标注后的基本元素进行组合或拆分,从而可以对待分类实体的词片段进行概念标注。作为示例,对于待分类实体“哈尔滨工业大学硕士生导师”,可以按照字粒度进行切分,得到字元素作为基础元素,而后对各字进行概念标注,得到“哈[组织机构]尔[组织机构]...硕[人物]...师[人物]”,将所得到的结果中相同的概念标注进行组合即可以得到词片段的概念标注结果“哈尔滨工业大学[组织机构]硕士生导师[人物]”。步骤103,将已标注词片段概念的待分类实体输入预先训练的实体分类模型本文档来自技高网
...

【技术保护点】
1.一种用于实体分类的方法,包括:/n获取待分类实体;/n将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒度大于词粒度;/n将已标注词片段概念的所述待分类实体输入预先训练的实体分类模型,得到所述待分类实体的实体分类结果,其中,所述实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。/n

【技术特征摘要】
1.一种用于实体分类的方法,包括:
获取待分类实体;
将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒度大于词粒度;
将已标注词片段概念的所述待分类实体输入预先训练的实体分类模型,得到所述待分类实体的实体分类结果,其中,所述实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。


2.根据权利要求1所述的方法,其中,所述将所述待分类实体划分成词片段,并对词片段进行概念标注,包括:
将所述待分类实体输入预先训练的词片段标注模型,得到所述待分类实体的词片段概念标注,其中,所述词片段标注模型用于为实体中的词片段进行概念标注。


3.根据权利要求2所述的方法,其中,所述词片段标注模型通过如下方式训练得到:
获取第一训练样本集合,其中,第一训练样本包括未标注实体和已标注词片段概念的实体;
将所述第一训练样本中未标注实体作为输入,将所述第一训练样本中已标注词片段概念的实体作为输出,训练预先构建的第一初始模型,得到所述词片段标注模型。


4.根据权利要求3所述的方法,其中,所述第一训练样本通过如下方式得到:
获取实体样本;
对所述实体样本进行基础粒度切分,得到所述实体样本的基本元素,并对各所述基本元素进行概念标注;
按照预设粒度对概念标注后的基本元素进行组合或拆分,生成已标注词片段概念的实体样本;
将未标注实体样本和已标注词片段概念的实体样本确定为所述第一训练样本。


5.根据权利要求1所述的方法,其中,所述实体分类模型通过如下步骤训练得到:
获取第二训练样本集合,其中,第二样本集合包括已标注词片段概念且未设分类标签的实体和已设分类标签的实体;
将所述第二训练样本中的已标注词片段概念且未设分类标签的实体作为输入,将所述第二训练样本中的已设分类标签的实体作为输出,训练预先构建的第二初始模型,得到所述实体分类模型。


6.根据权利要求1所述的方法,其中,所述实体分类模型还用于对实体中的词片段进行概念标注;
所述将所述待分类实体划分成词片段,并对词片段进行概念标注,包括:
将所述待分类实体输入所述实体分类模型,得到所述待分类实体的词片段概念标注。


7.根据权利要求6所述的方法,其中,所述实体分类模型还可以通过如下步骤训练得到:
获取第三训练样本集合,其中,所述第三训练样本包括为未标注实体和已标注词片段概念且已设分类标签的实体;
将所述第三训练样本中未标注实体作为输入,将所述第三训练样本中已标注词片段概念且已设分类标签的实体作为输出,训练所述第三初始模型,得到所述实体分类模型。


8.一种用于实体分类的装置,包括:
获取单元,被配置成获取待分类实体;
标注单元,被配置成将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒...

【专利技术属性】
技术研发人员:程健一赵岷秦华鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1