【技术实现步骤摘要】
实体词识别方法和装置
本申请涉及人工智能技术中的信息处理
,尤其涉及一种实体词识别方法和装置。
技术介绍
目前,知识图谱的构建在各行各业越来越被重视,比如,可以给予法律体系的知识图谱提供法律行业的法律推理等,其中,知识图谱的构建依赖于实体词的挖掘。相关技术中,根据行业内积累的专业文档来挖掘出实体词,获取行业内的专业术语表,根据关键词匹配的技术来在专业文档中挖掘出对应的实体词。然而,这种实体词获取方式,依赖于术语词表的覆盖全面程度。大多数情况下,行业内累计的术语词表非常局限,导致实体词的召回率较低。
技术实现思路
本申请的第一个目的在于提出一种实体词识别方法。本申请的第二个目的在于提出一种实体词识别装置。本申请的第三个目的在于提出一种电子设备。本申请的第四个目的在于提出一种存储有计算机指令的非瞬时计算机可读存储介质。为达上述目的,本申请第一方面实施例提出了一种实体词识别,包括:获取实体词类别和待识别文档;根据所述实体词类别生成实体词问题;对所述待识别文档拆分,生成多个候选语句;将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。为达上述目的,本申请第二方面实施例提出了一种实体词识别装置,包括:第一获取模块,用于获取实体词类别和待识别文档;第一生成模块,用于获取实体词类别和待识别文档;第二生成模块,用于对所述待识别文档拆分,生成多个候选语句;第二获 ...
【技术保护点】
1.一种实体词识别方法,其特征在于,包括:/n获取实体词类别和待识别文档;/n根据所述实体词类别生成实体词问题;/n对所述待识别文档拆分,生成多个候选语句;/n将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;/n根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。/n
【技术特征摘要】
1.一种实体词识别方法,其特征在于,包括:
获取实体词类别和待识别文档;
根据所述实体词类别生成实体词问题;
对所述待识别文档拆分,生成多个候选语句;
将所述实体词问题和所述多个候选语句输入预先训练的问答模型,获取实体词识别结果;
根据所述实体词识别结果获取与所述实体词问题对应的实体词集合。
2.如权利要求1所述的方法,其特征在于,在所述将所述实体词问题和所述多个候选语句输入预先构建的问答模型之前,包括:
获取样本实体词问题和样本识别文档;
对所述样本识别文档拆分处理,获取多个候选样本语句;
将所述实体词问题和所述多个候选样本语句输入初始问答模型;
控制所述初始问答模型的嵌入层,提取所述样本实体词问题的第一特征和所述多个样本语句的第二特征;
拼接所述第一特征和所述第二特征生成样本特征;
将所述样本特征输入所述初始问答模型的模型层,获取所述模型层输出的样本实体词;
判断所述样本实体词与预先标注的所述样本识别文档中的目标实体词是否一致;
若不一致,则继续调节所述初始问答模型的模型参数,直至所述样本实体词与预先标注的所述样本识别文档中的目标实体词一致。
3.如权利要求2所述的方法,其特征在于,所述模型层包括多层解码单元,每一层解码单元的解码子单元的数量与所述样本特征对应的长度一致,所述每一层解码单元的解码子单元互不连接,所述多层解码单元中,每一层的每个解码子单元与上一层中的所有解码子单元连接,所述将所述样本特征输入所述初始问答模型的模型层,包括:
将所述样本特征中的每个子特征输入到对应位置的第一层解码单元的子单元;
获取所述模型层最后一层解码单元对应位置输出的实体词解码结果。
4.如权利要求1所述的方法,其特征在于,还包括:
对所述实体词集合中每个实体词进行语义分析,获取所述每个实体词的语义通顺度;
过滤掉所述实体词集合中,所述语义通顺度小于预设阈值的实体词;
将过滤后的所述实体词集合提供给用户。
5.如权利要求1所述的方法,其特征在于,还包括:
获取所述实体词集合中每个实体词的长度;
过滤掉所述实体词集合中,所述长度不属于预设长度范围的实体词;
将过滤后的所述实体词集合提供给用户。
6.如权利要求1所述的方法,其特征在于,所述根据所述实体词识别结果获取与所述实体词问题对应的实体词集合,包括:
识别所述问答模型输出的与所述多个后续语句对应的标注语句;
识别所述标注语句中的开始标识和结束标识;
提取所述开始标识和相邻结束标识之间的实...
【专利技术属性】
技术研发人员:史亚冰,李双婕,蒋烨,张扬,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。