实体抽取方法、实体抽取装置、存储介质及电子装置制造方法及图纸

技术编号:35534778 阅读:20 留言:0更新日期:2022-11-09 15:00
本申请公开了一种实体抽取方法、实体抽取装置、存储介质及电子装置,涉及智能家居/智慧家庭、自然语言技术领域,该方法基于初始词典对多条语料进行分词,分别得到对应的第一分词结果;然后基于各第一分词结果以及种子实体的目标词根,对多条语料进行分类,得到每条语料的类别;最后基于第一类语料对应的第一分词结果中的第一类词语及其前一词语,确定第一类语料中的实体。该方法通过对语料进行分类并结合第一分词结果中的第一类词语及其前一词语,即可快速准确地实现对第一类语料的实体抽取。抽取过程中并不需要引入模型,不仅降低抽取过程对资源算力的要求,也不需要为训练模型而对训练样本进行标注,避免大量的人力消耗,节约实体抽取成本。体抽取成本。体抽取成本。

【技术实现步骤摘要】
实体抽取方法、实体抽取装置、存储介质及电子装置


[0001]本申请涉及自然语言处理
,尤其涉及一种实体抽取方法、实体抽取装置、存储介质及电子装置。

技术介绍

[0002]随着信息爆炸式增长,需要将文本中的实体等关键信息抽取出来,结构化输出并存储。
[0003]现有的实体抽取方法主要通过机器学习方法实现,即需要先构建标注语料集,并将标注语料库作为训练集学习实体相关特征,从而自动根据训练好的模型完成实体信息的自动抽取。
[0004]但是通过机器学习方法实现实体抽取,模型的准确性需要依赖大量的标注语料集,而标注语料集的确定需要耗费大量的人力,这将带来较大的标注成本。

技术实现思路

[0005]本申请提供一种实体抽取方法、实体抽取装置、存储介质及电子装置,用以解决现有技术中存在的缺陷。
[0006]本申请提供一种实体抽取方法,包括:
[0007]获取多条语料,并基于包含有种子实体的初始词典对所述多条语料进行分词,分别得到每条语料对应的第一分词结果;所述种子实体为预先确定的标准实体;
[0008]基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别;
[0009]对于所述多条语料中的第一类语料,基于所述第一类语料对应的第一分词结果中的第一类词语及所述第一类词语的前一词语,确定所述第一类语料中的实体;
[0010]其中,所述第一类语料为对应的第一分词结果中包含有由所述目标词根构成的第一类词语的语料。/>[0011]根据本申请提供的一种实体抽取方法,所述基于所述第一类语料对应的第一分词结果中的第一类词语及所述第一类词语的前一词语,确定所述第一类语料中的实体,包括:
[0012]基于第一匹配语句,确定所述第一类语料中的实体,并对所述第一类语料中的实体进行标注;
[0013]其中,所述第一匹配语句基于所述第一类词语及所述前一词语确定。
[0014]根据本申请提供的一种实体抽取方法,所述基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别,之后还包括:
[0015]对于所述多条语料中的第二类语料,基于所述第二类语料对应的第一分词结果中的第二类词语,确定所述第二类语料中的实体;
[0016]其中,所述第二类语料为对应的第一分词结果中包含有以所述目标词根作为词根
的第二类词语的语料。
[0017]根据本申请提供的一种实体抽取方法,所述基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别,之后还包括:
[0018]对于所述多条语料中的第三类语料,确定所述第三类语料对应的第一分词结果中的指定词语,并基于所述指定词语,确定所述第三类语料中的实体;
[0019]其中,所述第三类语料为对应的第一分词结果中不包含有所述第一类词语或所述第二类词语的语料;所述指定词语包括所述第一类语料中的实体的第一上下文词语,和/或,所述第二类语料中的实体的第二上下文词语。
[0020]根据本申请提供的一种实体抽取方法,所述第一上下文词语包括第一上文词语和第一下文词语;
[0021]所述基于所述指定词语,确定所述第三类语料中的实体,包括:
[0022]基于所述第一类语料中的实体,对所述初始词典进行更新,得到第一词典,并基于所述第一词典,对所述第三类语料进行分词,得到第二分词结果;
[0023]将所述第一上文词语以及所述第一下文词语与所述第二分词结果中的词语进行匹配,并确定所述第二分词结果中所述第一上文词语与所述第一下文词语之间的第一字段,基于所述第一字段,确定所述第三类语料中的实体。
[0024]根据本申请提供的一种实体抽取方法,所述将所述第一上文词语以及所述第一下文词语与所述第二分词结果中的词语进行匹配,并确定所述第二分词结果中所述第一上文词语与所述第一下文词语之间的第一字段,基于所述第一字段,确定所述第三类语料中的实体,包括:
[0025]基于第二匹配语句,确定所述第三类语料中的实体,并对所述第三类语料中的实体进行标注;
[0026]其中,所述第二匹配语句基于所述第一上文词语以及所述第一下文词语确定。
[0027]根据本申请提供的一种实体抽取方法,所述第二上下文词语包括第二上文词语和第二下文词语;
[0028]所述基于所述第一字段,确定所述第三类语料中的实体,包括:
[0029]将所述第二上文词语以及所述第二下文词语与所述第三类语料对应的第一分词结果中的词语进行匹配,并确定所述第三类语料对应的第一分词结果中所述第二上文词语与所述第二下文词语之间的第二字段;
[0030]基于所述第一字段以及所述第二字段,确定所述第三类语料中的实体。
[0031]根据本申请提供的一种实体抽取方法,所述基于所述第一字段以及所述第二字段,确定所述第三类语料中的实体,包括:
[0032]将所述第一字段与所述第二字段均作为所述第三类语料中的实体,基于所述第三类语料中的实体,对所述第一词典进行更新,得到第二词典,并基于所述第二词典,对所述第三类语料进行分词,得到第三分词结果;
[0033]若所述第三分词结果中的实体存在新的上下文词语,则将所述新的上下文词语中的上文词语以及下文词语与所述第三分词结果中的词语进行匹配,并确定所述第三分词结果中所述新的上下文词语中的上文词语以及下文词语之间的第三字段,基于所述第三字
段,确定所述第三类语料中的新增实体;
[0034]基于所述新增实体,迭代执行上述的词典更新操作以及语料分词操作,直至所述新增实体为空。
[0035]根据本申请提供的一种实体抽取方法,所述基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别,包括:
[0036]判断每条语料对应的第一分词结果中是否包含有由所述目标词根构成的第一类词语,或以所述目标词根作为词根的第二类词语;
[0037]对于任一条语料,若所述任一条语料对应的第一分词结果中包含有所述第一类词语,则确定所述任一条语料为第一类语料;
[0038]若所述任一条语料对应的第一分词结果中包含有所述第二类词语,则确定所述任一条语料为第二类语料;
[0039]若所述任一条语料对应的第一分词结果中不包含有所述第一类词语或所述第二类词语,则确定所述任一条语料为第三类语料。
[0040]本申请还提供一种实体抽取装置,包括:
[0041]获取模块,用于获取多条语料,并基于包含有种子实体的初始词典对所述多条语料进行分词,分别得到每条语料对应的第一分词结果;所述种子实体为预先确定的标准实体;
[0042]分类模块,用于基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别;
[0043]抽取模块,用于对于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体抽取方法,其特征在于,包括:获取多条语料,并基于包含有种子实体的初始词典对所述多条语料进行分词,分别得到每条语料对应的第一分词结果;所述种子实体为预先确定的标准实体;基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别;对于所述多条语料中的第一类语料,基于所述第一类语料对应的第一分词结果中的第一类词语及所述第一类词语的前一词语,确定所述第一类语料中的实体;其中,所述第一类语料为对应的第一分词结果中包含有由所述目标词根构成的第一类词语的语料。2.根据权利要求1所述的实体抽取方法,其特征在于,所述基于所述第一类语料对应的第一分词结果中的第一类词语及所述第一类词语的前一词语,确定所述第一类语料中的实体,包括:基于第一匹配语句,确定所述第一类语料中的实体,并对所述第一类语料中的实体进行标注;其中,所述第一匹配语句基于所述第一类词语及所述前一词语确定。3.根据权利要求1所述的实体抽取方法,其特征在于,所述基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别,之后还包括:对于所述多条语料中的第二类语料,基于所述第二类语料对应的第一分词结果中的第二类词语,确定所述第二类语料中的实体;其中,所述第二类语料为对应的第一分词结果中包含有以所述目标词根作为词根的第二类词语的语料。4.根据权利要求3所述的实体抽取方法,其特征在于,所述基于每条语料对应的第一分词结果以及所述种子实体的目标词根,对所述多条语料进行分类,得到每条语料的类别,之后还包括:对于所述多条语料中的第三类语料,确定所述第三类语料对应的第一分词结果中的指定词语,并基于所述指定词语,确定所述第三类语料中的实体;其中,所述第三类语料为对应的第一分词结果中不包含有所述第一类词语或所述第二类词语的语料;所述指定词语包括所述第一类语料中的实体的第一上下文词语,和/或,所述第二类语料中的实体的第二上下文词语。5.根据权利要求4所述的实体抽取方法,其特征在于,所述第一上下文词语包括第一上文词语和第一下文词语;所述基于所述指定词语,确定所述第三类语料中的实体,包括:基于所述第一类语料中的实体,对所述初始词典进行更新,得到第一词典,并基于所述第一词典,对所述第三类语料进行分词,得到第二分词结果;将所述第一上文词语以及所述第一下文词语与所述第二分词结果中的词语进行匹配,并确定所述第二分词结果中所述第一上文词语与所述第一下文词语之间的第一字段,基于所述第一字段,确定所述第三类语料中的实体。6.根据权利要求5所述的实体抽取方法,其特征在于,所述将所述第一上文词语以及所
述第一下文词语与所述第二分词结果中的...

【专利技术属性】
技术研发人员:雷丽莉
申请(专利权)人:青岛海尔科技有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1