命名实体识别方法及系统、电子设备及存储介质技术方案

技术编号:27657237 阅读:12 留言:0更新日期:2021-03-12 14:20
本发明专利技术实施例涉及自然语言处理领域,公开了一种命名实体识别方法及系统、电子设备及存储介质,方法包括:获取第一标签序列和第二标签序列;其中,第一标签序列是用词向量识别文本的结果,第二标签序列是用字向量识别文本的结果;选择第一标签序列与第二标签序列中识别文本的准确率更高的标签序列作为输出标签序列。在本发明专利技术中,分别用词向量和字向量表征文本,生成第一标签序列和第二标签序列,选择第一标签序列和第二标签序列中识别准确率更高的标签序列作为输出标签序列。由于词向量方式和字向量方式各自针对某些句型有更好的识别效果,故同时结合词向量方式和字向量方式表征文本的优势,会在一定程度上提升中文命名实体识别的效果。

【技术实现步骤摘要】
命名实体识别方法及系统、电子设备及存储介质
本专利技术实施例涉及自然语言处理领域,特别涉及命名实体识别方法及系统、电子设备及存储介质。
技术介绍
用自然语言与计算机进行通信,这是人们长期以来所追求的,在以此想法为基础发展起来的自然语言处理领域中,命名实体识别是一项非常基础且重要的任务,其中包含的中文命名实体识别是多轮对话系统构建的一个重要步骤,但是其存在分词、歧义、词语嵌套和结构形式复杂等难点亟需解决。目前的中文命名实体识别技术采用词向量方式或字向量方式来表征中文文本,并采用了双向长短期记忆网络配合条件随机场来提高准确率。若仅采用词向量方式来表征中文文本,则需要对句子中的词语进行划分,并且划分词语的准确性会直接影响到词向量方式的表征效果,但要提高划分词语的准确性又需要较为复杂的算法;若仅采用字向量方式来表征中文文本,虽然其表征效果不受限于划分词语的准确性,但是以字作为单位进行表征会缺失词语本身的语义信息,并且会影响实体界限划分的效果,即仅采用词向量方式或字向量方式来表征中文文本时,中文命名实体识别的效果难以保障。
技术实现思路
本专利技术实施方式的目的在于提供一种命名实体识别方法及系统、电子设备及存储介质,提升了中文命名实体识别的效果。为解决上述技术问题,本专利技术的实施方式提供了一种命名实体识别方法,包括以下步骤:获取第一标签序列和第二标签序列;其中,第一标签序列是用词向量识别文本的结果,第二标签序列是用字向量识别文本的结果;选择第一标签序列与第二标签序列中识别文本的准确率更高的标签序列作为输出标签序列。本专利技术的实施方式还提供了一种命名实体识别系统,包括:标注模块和切换模块;标注模块用于获取第一标签序列和第二标签序列;其中,第一标签序列是用词向量识别文本的结果,第二标签序列是用字向量识别文本的结果;切换模块用于选择第一标签序列与第二标签序列中识别文本的准确率更高的标签序列作为输出标签序列。本专利技术的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述命名实体识别方法。本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的命名实体识别方法。在本专利技术的实施方式中,分别用词向量和字向量表征文本,生成第一标签序列和第二标签序列,选择第一标签序列和第二标签序列中识别准确率更高的标签序列作为输出标签序列。由于词向量方式和字向量方式各自针对某些句型有更好的识别效果,故同时结合词向量方式和字向量方式表征文本的优势,会在一定程度上提升中文命名实体识别的效果。另外,第一标签序列通过以下方式获取:获取不同分词路径划分文本对应的划分概率,并将最大的划分概率作为第一划分概率;获取第一划分概率对应的分词路径作为第一分词路径;根据第一分词路径对应的词向量识别文本,得到第一标签序列。本实施方式提供了获取第一标签序列的一种具体实施方式。另外,选择第一标签序列与第二标签序列中识别文本的准确率更高的标签序列作为输出标签序列,包括:获取各划分概率对应的各分词路径对应的参考标签序列;获取第二标签序列与各参考标签序列的相似概率;其中,相似概率用以表征第二标签序列的识别文本的准确率;根据第一划分概率和相似概率,选择第一标签序列与第二标签序列中识别文本的准确率更高的标签序列作为输出标签序列。本实施方式提高了选择识别效果更好的标签序列作为输出标签序列的准确性。另外,根据第一划分概率和相似概率,选择第一标签序列与第二标签序列中识别文本的准确率更高的标签序列作为输出标签序列,包括:将第一划分概率和相似概率拼接成概率向量;将概率向量输入训练好的模型中,得到输出标签;其中,输出标签用于表征第一标签序列与第二标签序列中识别文本的准确率更高的标签序列;将输出标签对应的准确率更高的标签序列作为输出标签序列。本实施方式进一步提高了选择识别效果更好的标签序列作为输出标签序列的准确性。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是根据本专利技术第一实施方式的命名实体识别方法的具体流程图;图2是根据本专利技术第一实施方式的命名实体识别方法的示意图;图3是根据本专利技术第一实施方式的命名实体识别方法的示例图;图4是根据本专利技术第一实施方式的Top-k分词表的示意图;图5是根据本专利技术第二实施方式的命名实体识别方法的具体流程图;图6是根据本专利技术第二实施方式的选择神经网络的示意图;图7是根据本专利技术第三实施方式的命名实体识别系统的方框示意图;图8是根据本专利技术第四实施方式的电子设备的方框示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本专利技术的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。本专利技术的第一实施方式涉及一种命名实体识别方法,本实施方式应用在电子设备中,如计算机设备或终端设备等,在此不一一例举,用于识别并标注中文文本中的命名实体,命名实体可以为日期、地名、人名等,在识别和标注中文文本中命名实体的同时,也会对中文文本中的命名实体以外的部分进行标注,在中文文本被标注后,会生成一个标签序列,该标签序列对应于中文文本中的每一个字,命名实体对应的标签与其他部分对应的标签的区别点在于,命名实体对应的每一个字对应于用于指示其类型的一个标签,其他部分对应的每一个字对应于一个普通标签。用词向量方式和字向量方式分别对一段文本进行识别与标注,再根据识别与标注的结果选择效果最好的结果作为输出结果,具体流程请参考图1,总体思路请参考图2。步骤101,获取第一标签序列和第二标签序列。步骤102,选择第一标签序列与第二标签序列中识别文本的准确率更高的标签序列作为输出标签序列。在本实施方式中,分别用词向量和字向量表征文本并生成第一标签序列和第二标签序列,并选择第一标签序列和第二标签序列中识别准确率更高的标签序列作为输出标签序列。由于词向量方式和字向量方式各自针对某些句型有更好的识别效果,故同时结合词向量方式和字向量方式表征文本的优势,会在一定程度上提升中文命名实体识别的效果。下面对本实施方式的命名实体识别方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。在步骤101中,获取用词向量识别文本的第一标签序列和用字向量识本文档来自技高网...

【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:/n获取第一标签序列和第二标签序列;/n其中,所述第一标签序列是用词向量识别文本的结果,所述第二标签序列是用字向量识别文本的结果;/n选择所述第一标签序列与所述第二标签序列中识别所述文本的准确率更高的标签序列作为输出标签序列。/n

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:
获取第一标签序列和第二标签序列;
其中,所述第一标签序列是用词向量识别文本的结果,所述第二标签序列是用字向量识别文本的结果;
选择所述第一标签序列与所述第二标签序列中识别所述文本的准确率更高的标签序列作为输出标签序列。


2.根据权利要求1所述的命名实体识别方法,其特征在于,所述第一标签序列通过以下方式获取:
获取不同分词路径划分所述文本对应的划分概率,并将最大的所述划分概率作为第一划分概率;
获取所述第一划分概率对应的所述分词路径作为第一分词路径;
根据所述第一分词路径对应的词向量识别所述文本,得到所述第一标签序列。


3.根据权利要求2所述的命名实体识别方法,其特征在于,所述选择所述第一标签序列与所述第二标签序列中识别所述文本的准确率更高的标签序列作为输出标签序列,包括:
获取各所述划分概率对应的各所述分词路径对应的参考标签序列;
获取所述第二标签序列与各所述参考标签序列的相似概率;
其中,所述相似概率用以表征所述第二标签序列的识别所述文本的准确率;
根据所述第一划分概率和所述相似概率,选择所述第一标签序列与所述第二标签序列中识别所述文本的准确率更高的标签序列作为输出标签序列。


4.根据权利要求3所述的命名实体识别方法,其特征在于,所述根据所述第一划分概率和所述相似概率,选择所述第一标签序列与所述第二标签序列中识别所述文本的准确率更高的标签序列作为输出标签序列,包括:
将所述第一划分概率和所述相似概率拼接成概率向量;
将所述概率向量输入训练好的模型中,得到输出标签;
其中,所述输出标签用于表征所述第一标签序列与所述第二标签序列中识别所述文本的准确率更高的标签序列;
将所述输出标签对应的所述准确率更高的标签序列作为所述输出标签序列。


5.一种命名实体识别系统,其特征在于,包括:标注模块和切换模块;
所述标注模块用于获取第一标签序列和第二标签序列;其中,所述第一标签序列是用词向量识别...

【专利技术属性】
技术研发人员:荣玉军单彦会刘辉陈铭
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1