实体词识别方法和装置制造方法及图纸

技术编号:24683830 阅读:29 留言:0更新日期:2020-06-27 08:05
本申请公开了一种实体词识别方法和装置,涉及人工智能中的信息处理技术领域,其中,方法,包括:获取实体词类别和待识别文档;根据实体词类别生成实体词问题;对待识别文档拆分,生成多个候选语句;将实体词问题和多个候选语句输入预先训练的问答模型,获取实体词识别结果;根据实体词识别结果获取与实体词问题对应的实体词集合。由此,实现了一种适用范围比较广的实体词识别方法,提高了实体词的召回率和实体词识别的智能化。

Entity word recognition method and device

【技术实现步骤摘要】
实体词识别方法和装置
本申请涉及人工智能技术中的信息处理
,尤其涉及一种实体词识别方法和装置。
技术介绍
目前,知识图谱的构建在各行各业越来越被重视,比如,可以给予法律体系的知识图谱提供法律行业的法律推理等,其中,知识图谱的构建依赖于实体词的挖掘。相关技术中,根据行业内积累的专业文档来挖掘出实体词,获取行业内的专业术语表,根据关键词匹配的技术来在专业文档中挖掘出对应的实体词。然而,这种实体词获取方式,依赖于术语词表的覆盖全面程度。大多数情况下,行业内累计的术语词表非常局限,导致实体词的召回率较低。
技术实现思路
本申请的第一个目的在于提出一种实体词识别方法。本申请的第二个目的在于提出一种实体词识别装置。本申请的第三个目的在于提出一种电子设备。本申请的第四个目的在于提出一种存储有计算机指令的非瞬时计算机可读存储介质。为达上述目的,本申请第一方面实施例提出了一种实体词识别,包括:获取实体词类别和待识别文档;根据所述实体词类别生成实体词问题;对所述待识别文档拆分,生成多个候选语句;将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。为达上述目的,本申请第二方面实施例提出了一种实体词识别装置,包括:第一获取模块,用于获取实体词类别和待识别文档;第一生成模块,用于获取实体词类别和待识别文档;第二生成模块,用于对所述待识别文档拆分,生成多个候选语句;第二获取模块,用于将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;第三获取模块,用于根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。为达上述目的,本申请第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例描述的实体词识别方法。为达上述目的,本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述实施例描述的实体词识别方法。上述申请中的一个实施例具有如下优点或有益效果:获取实体词类别和待识别文档,根据实体词类别生成实体词问题,进而,对待识别文档拆分,生成多个候选语句,将实体词问题和多个候选语句输入预先训练的问答模型,获取实体词识别结果,最后,根据实体词识别结果获取与实体词问题对应的实体词集合。由此,实现了一种适用范围比较广的实体词识别方法,提高了实体词的召回率和实体词识别的智能化。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的实体词识别场景示意图;图2是根据本申请第二实施例的实体词识别方法的流程图;图3是根据本申请第三实施例的问答模型的结构示意图;图4是根据本申请第四实施例的待识别文档示意图;图5是根据本申请第五实施例的实体词识别装置的结构示意图;图6是根据本申请第六实施例的实体词识别装置的结构示意图;图7是根据本申请第七实施例的实体词识别装置的结构示意图;图8是根据本申请第八实施例的实体词识别装置的结构示意图;图9是用来实现本申请实施例的实体词识别方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。下面参考附图描述本申请实施例的实体词识别方法和装置。其中,本实施例中所指的实体词是每个行业中的专业词汇,比如,法律行业中的“要约”等。为了解决相关技术中提到的,实体词召回率不高的问题,本申请提出了一种基于自动化的识别行业实体的方法。目标是利用问答技术,实现一种高扩展性、低成本的识别行业中实体词的方法,从而辅助大规模知识图谱构建、智能问答、实体检索等上层应用,比如,如图1所示,在用户输入的搜索语句为“信用卡类型”时,可以为用户提供对应的实体词。具体而言,图2是根据本申请一个实施例的实体词识别方法的流程图,如图2所示,该方法包括:步骤101,获取实体词类别和待识别文档。其中,实体词类别指的是待获取的实体词所属于的
等,比如,该实体词类别可以是法律、经济、医疗等。另外,待识别文档通常是对应领域下待召回实体词的专业文档。需要说明的是,在不同的领域下,获取实体词类别的方式不同,作为一种可能的实现方式,提供给用户实体词类别选择界面,根据用户在界面上选择的标签确定所属的实体词类别;作为另一种可能的实现方式,可以根据待识别文档包含的内容,确定待识别文档中的主题,根据主题内容确定实体词类别。步骤102,根据实体词类别生成实体词问题。在本申请的实施例中,为了挖掘实体词类别的泛化特征,根据实体词类别生成实体词问题,比如,实体词类别为“人物”,则可以将其处理为实体词问题“句中提到的人物是谁”等。当然,在不同的场景中,根据实体词类别生成实体词问题的方式不同,作为一种可能的实现方式,预先训练学习模型,该模型的输入为实体词类别,输出为实体词问题;作为另一种可能的实现方式,预先构建对应实体词类别所属的领域下,实体词类别和最常用的问题的对应关系,根据该对应关系确定对应的实体词问题。步骤103,对待识别文档拆分,生成多个候选语句。为了便于与实体词问题匹配,本实施例中,对待识别文档拆分,比如案按照换行符等标点符号以及语义分析等,生成一个一个的句子,获取多个候选语句,候选语句的长度便于后续的处理和匹配操作。步骤104,将实体词问题和多个候选语句输入预先训练的问答模型,获取实体词识别结果。应当理解的是,预先训练问答模型,该问答模型可以根据输入的实体词问题和多个候选语句识别与对应的实体词问题匹配的回答的候选语句,并在该回答的语句中标注出对应的实体词。具体而言,预先构建初始问答模型,其中,如图3所示,构建的问答模型包括4层,第一层为输入层,用于输入实体词问题和对应的候选语句序列,其中,在输入的时候,为了便于模型的识别,开头使用CLS,候选语句之间通过SEP连接,由此,可以将实体词问题和对应的所有的候选语句输入进去,当然,也可以将实体词问题和对应的一个或者几个候选问题输入进去,为了提高识别效率,也可以预先排除明显与实体词问题不相关的候选语句(可以根据语义识别等技术来排除),继续以图1中所示的例子,当待识别文档为图4所示的银行行业文档,实体词问题是“信用卡”时,输入层输入的可以是本文档来自技高网
...

【技术保护点】
1.一种实体词识别方法,其特征在于,包括:/n获取实体词类别和待识别文档;/n根据所述实体词类别生成实体词问题;/n对所述待识别文档拆分,生成多个候选语句;/n将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;/n根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。/n

【技术特征摘要】
1.一种实体词识别方法,其特征在于,包括:
获取实体词类别和待识别文档;
根据所述实体词类别生成实体词问题;
对所述待识别文档拆分,生成多个候选语句;
将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;
根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。


2.如权利要求1所述的方法,其特征在于,在所述将所述实体词问题和所述多个候选语句输入预先构建的问答模型之前,包括:
获取样本实体词问题和样本识别文档;
对所述样本识别文档拆分处理,获取多个候选样本语句;
将所述实体词问题和所述多个候选样本语句输入初始问答模型;
控制所述初始问答模型的嵌入层,提取所述样本实体词问题的第一特征和所述多个样本语句的第二特征;
拼接所述第一特征和所述第二特征生成样本特征;
将所述样本特征输入所述初始问答模型的模型层,获取所述模型层输出的样本实体词;
判断所述样本实体词与预先标注的所述样本识别文档中的目标实体词是否一致;
若不一致,则继续调节所述初始问答模型的模型参数,直至所述样本实体词与预先标注的所述样本识别文档中的目标实体词一致。


3.如权利要求2所述的方法,其特征在于,所述模型层包括多层解码单元,每一层解码单元的解码子单元的数量与所述样本特征对应的长度一致,所述每一层解码单元的解码子单元互不连接,所述多层解码单元中,每一层的每个解码子单元与上一层中的所有解码子单元连接,所述将所述样本特征输入所述初始问答模型的模型层,包括:
将所述样本特征中的每个子特征输入到对应位置的第一层解码单元的子单元;
获取所述模型层最后一层解码单元对应位置输出的实体词解码结果。


4.如权利要求1所述的方法,其特征在于,还包括:
对所述实体词集合中每个实体词进行语义分析,获取所述每个实体词的语义通顺度;
过滤掉所述实体词集合中,所述语义通顺度小于预设阈值的实体词;
将过滤后的所述实体词集合提供给用户。


5.如权利要求1所述的方法,其特征在于,还包括:
获取所述实体词集合中每个实体词的长度;
过滤掉所述实体词集合中,所述长度不属于预设长度范围的实体词;
将过滤后的所述实体词集合提供给用户。


6.如权利要求1所述的方法,其特征在于,所述根据所述实体词识别结果获取与所述实体词问题对应的实体词集合,包括:
识别所述问答模型输出的与所述多个后续语句对应的标注语句;
识别所述标注语句中的开始标识和结束标识;
提取所述开始标识和相邻结束标识之间的实...

【专利技术属性】
技术研发人员:史亚冰李双婕蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1