用于识别语句中实体的方法、装置和电子设备制造方法及图纸

技术编号:24122837 阅读:15 留言:0更新日期:2020-05-13 03:37
本公开提供了一种用于识别语句中实体的方法,包括:获取第一语言的待处理语句,第一语言为日语。从待处理语句中提取候选实体。将候选实体与第二语言的已分类实体集进行匹配,以筛选出匹配度高于预定阈值的候选实体作为待分类实体,第二语言为英语。然后,利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,分类模型基于第二语言的已分类实体集训练得到,第一语言和第二语言不同。本公开还提供了一种用于识别语句中实体的装置和电子设备。

Methods, devices and electronic devices used to identify entities in statements

【技术实现步骤摘要】
用于识别语句中实体的方法、装置和电子设备
本公开涉及一种用于识别语句中实体的方法、装置和电子设备。
技术介绍
在基于传统机器学习的方法中,语句中实体的识别被当作序列标注问题。利用大规模语料来学习出标注模型,从而对语句的各个位置进行标注,以识别出各个位置是否存在实体。然而,基于此种实体识别方式,在识别第一语言的待处理语句中的实体时,如果没有该第一语言的已分类实体集,则需要耗费大量的时间收集第一语言的语料并进行标注,然后才能训练得到标注模型再基于该标注模型进行实体分类。
技术实现思路
本公开的一个方面提供了一种用于识别语句中实体的方法,包括:获取第一语言的待处理语句,第一语言为日语。从待处理语句中提取候选实体。将候选实体与第二语言的已分类实体集进行匹配,以筛选出匹配度高于预定阈值的候选实体作为待分类实体,第二语言为英语。然后,利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,分类模型基于第二语言的已分类实体集训练得到,第一语言和第二语言不同。可选地,上述从待处理语句中提取候选实体包括:从待处理语句中提取第一语言的候选实体,并将第一语言的候选实体转换为第二语言的候选实体。可选地,上述从待处理语句中提取第一语言的候选实体包括:从待处理语句中提取不包含日语假名和汉字的连续字符串作为第一语言的候选实体。备选地或附加地,从待处理语句中提取连续的片假名作为第一语言的候选实体。可选地,上述第二语言的已分类实体集包括多个已分类实体,该多个已分类实体中的任一已分类实体带有标注信息,该标注信息用于表征任一已分类实体所属的类别。可选地,上述将候选实体与第二语言的已分类实体集进行匹配包括:一方面,获取第二语言的候选实体的第一向量表示,另一方面,获取第二语言的已分类实体集中的任一已分类实体的第二向量表示。然后,计算第一向量表示和第二向量表示之间的相似度。在此基础上,上述筛选出匹配度高于预定阈值的候选实体作为待分类实体包括:如果计算得到的相似度高于预定阈值,则确定第二语言的候选实体为待分类实体。可选地,上述利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别包括:将待分类实体的第一向量表示输入至分类模型,然后基于分类模型的输出确定待分类实体所属的类别。可选地,上述获取第二语言的候选实体的第一向量表示包括:一方面,将第二语言的候选实体中的任一字符转换为特征值,以得到针对候选实体的字符向量。另一方面,获取第二语言的候选实体中关于指定特征的特征值。然后将字符向量和关于指定特征的特征值组合为第一向量表示。可选地,上述指定特征包括如下至少一项:第二语言的候选实体中是否包含单词,第二语言的候选实体中是否包含数字,第二语言的候选实体中是否包含特定符号,以及第二语言的候选实体的长度。本公开的另一方面提供了一种用于识别语句中实体的装置,包括:获取模块、提取模块、匹配模块、筛选模块和识别模块。获取模块用于获取第一语言的待处理语句,第一语言为日语。提取模块用于从待处理语句中提取候选实体。匹配模块用于将候选实体与第二语言的已分类实体集进行匹配,第二语言为英语。筛选模块用于筛选出匹配度高于预定阈值的候选实体作为待分类实体。识别模块用于利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,所述分类模型基于所述第二语言的已分类实体集训练得到。本公开的另一方面提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。处理器执行计算机程序时用于实现:获取第一语言的待处理语句,第一语言为日语。从待处理语句中提取候选实体。将候选实体与第二语言的已分类实体集进行匹配,以筛选出匹配度高于预定阈值的候选实体作为待分类实体,第二语言为英语。然后,利用分类模型对待分类实体进行处理,以得到待分类实体所属的类别。其中,分类模型基于第二语言的已分类实体集训练得到,第一语言和第二语言不同。本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。附图说明为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:图1示意性示出了根据本公开实施例的用于识别语句中实体的方法和装置的应用场景;图2示意性示出了根据本公开实施例的用于识别语句中实体的方法的流程图;图3示意性示出了根据本公开另一实施例的用于识别语句中实体的方法的流程图;图4A示意性示出了根据本公开实施例的用于识别语句中实体的过程的示例示意图;图4B示意性示出了根据本公开实施例的候选实体与已分类实体集进行匹配的示意图;图5示意性示出了根据本公开实施例的用于识别语句中实体的装置的框图;以及图6示意性示出了根据本公开实施例的电子设备的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算本文档来自技高网...

【技术保护点】
1.一种用于识别语句中实体的方法,包括:/n获取第一语言的待处理语句,所述第一语言为日语;/n从所述待处理语句中提取候选实体;/n将所述候选实体与第二语言的已分类实体集进行匹配,所述第二语言为英语;/n筛选出匹配度高于预定阈值的候选实体作为待分类实体;以及/n利用分类模型对所述待分类实体进行处理,以得到所述待分类实体所属的类别,其中,所述分类模型基于所述第二语言的已分类实体集训练得到。/n

【技术特征摘要】
1.一种用于识别语句中实体的方法,包括:
获取第一语言的待处理语句,所述第一语言为日语;
从所述待处理语句中提取候选实体;
将所述候选实体与第二语言的已分类实体集进行匹配,所述第二语言为英语;
筛选出匹配度高于预定阈值的候选实体作为待分类实体;以及
利用分类模型对所述待分类实体进行处理,以得到所述待分类实体所属的类别,其中,所述分类模型基于所述第二语言的已分类实体集训练得到。


2.根据权利要求1所述的方法,其中,所述从所述待处理语句中提取候选实体包括:
从所述待处理语句中提取第一语言的候选实体;以及
将所述第一语言的候选实体转换为第二语言的候选实体。


3.根据权利要求2所述的方法,其中,
所述从所述待处理语句中提取第一语言的候选实体包括:
从所述待处理语句中提取不包含日语假名和汉字的连续字符串作为所述第一语言的候选实体;并且/或者
从所述待处理语句中提取连续的片假名作为所述第一语言的候选实体。


4.根据权利要求1或2所述的方法,其中,所述第二语言的已分类实体集包括多个已分类实体,所述多个已分类实体中的任一已分类实体带有标注信息,所述标注信息用于表征所述任一已分类实体所属的类别。


5.根据权利要求4所述的方法,其中,所述将所述候选实体与第二语言的已分类实体集进行匹配包括:
获取所述第二语言的候选实体的第一向量表示;
获取所述第二语言的已分类实体集中的任一已分类实体的第二向量表示;以及
计算所述第一向量表示和所述第二向量表示之间的相似度;
所述筛选出匹配度高于预定阈值的候选实体作为待分类实体包括:如果所述相似度高于预定阈值,则确定所述第二语言的候选实体为所述待分类实体。


6.根据权利要求5所述的方法,其中,所述利用分类模型对所述待分类实体进行处理,以得到所述待分类实体所属的类别包括:
将所述待分类...

【专利技术属性】
技术研发人员:王萌萌
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1