实体名称识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:21115977 阅读:20 留言:0更新日期:2019-05-16 09:03
本申请涉及一种实体名称识别方法、装置、计算机设备和存储介质。所述方法包括:获取待识别文本中各词语分别对应的词向量;将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;提取所述名称候选集合中各候选实体名称分别对应的词向量;通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。本方法先筛选候选实体名称,再从候选实体名称中识别实体名称,通过两次双向长短记忆神经网络的处理,提高了实体名称识别的准确性。

Entity Name Recognition Method, Device, Computer Equipment and Storage Media

【技术实现步骤摘要】
实体名称识别方法、装置、计算机设备和存储介质
本申请涉及模式识别领域,特别是涉及一种实体名称识别方法、装置、计算机设备和存储介质。
技术介绍
随着模式识别技术的发展,出现了命名实体识别技术(NamedEntityRecognition,NER),旨在识别出自然语言文本中的专有名词,比如人名、地名、公司名称、组织机构名称等命名实体。然而,传统的命名实体识别技术,通常是采用基于统计的模型,比如隐马尔科夫模型和支持向量机,需要利用人工标注的语料进行训练,对文本上下文的建模能力较弱,没有考虑到词语在文本中前后顺序的影响,对实体名称识别的准确性较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高识别准确性的实体名称识别方法、装置、计算机设备和存储介质。一种实体名称识别方法,所述方法包括:获取待识别文本中各词语分别对应的词向量;将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;提取所述名称候选集合中各候选实体名称分别对应的词向量;通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。一种实体名称识别装置,其特征在于,所述装置包括:向量获取模块,用于获取待识别文本中各词语分别对应的词向量;特征得到模块,用于将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;集合得到模块,用于通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;向量提取模块,用于提取所述名称候选集合中各候选实体名称分别对应的词向量;名称识别模块,用于通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待识别文本中各词语分别对应的词向量;将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;提取所述名称候选集合中各候选实体名称分别对应的词向量;通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待识别文本中各词语分别对应的词向量;将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;提取所述名称候选集合中各候选实体名称分别对应的词向量;通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。上述实体名称识别方法、装置、计算机设备和存储介质,获取待识别文本中各词语分别对应的词向量,将获取的词向量输入第一双向长短记忆神经网络,通过第一双向长短记忆神经网络得到词向量的向量特征,通过名词筛选模型根据向量特征对词语进行标注,从待识别文本中筛选候选实体名称,得到名称候选集合,即待识别文本中所有可能是实体名称的词语的集合;再提取名称候选集合中各候选实体名称分别对应的词向量,将提取到的词向量输入第二双向长短记忆神经网络进行再一次的识别,根据提取的词向量识别名称候选集合中的实体名称,通过两次双向长短记忆神经网络的处理,提高了实体名称识别的准确性。附图说明图1为一个实施例中实体名称识别方法的应用环境图;图2为一个实施例中实体名称识别方法的流程示意图;图3为一个实施例中获取词向量的步骤的流程示意图;图4为一个实施例中向量转换模型的结构示意图;图5为一个实施例中得到向量特征的步骤的流程示意图;图6为一个实施例中得到名称候选集合的步骤的流程示意图;图7为一个实施例中识别实体名称的步骤的流程示意图;图8为一个实施例中实体名称识别的示意图;图9为一个实施例中实体名称检测模型的结构示意图;图10为一个实施例中实体名称确定模型的结构示意图;图11为一个实施例中实体名称识别装置的结构框图;图12为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的实体名称识别方法,可以应用于如图1所示的应用环境中,应用环境中可以包括终端102和服务器104,终端102通过网络与服务器104进行通信。该方法既可以应用在终端102,也可以应用于服务器104。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种实体名称识别方法,本实施例以该方法应用于图1中的终端为例进行说明,包括以下步骤:步骤202,获取待识别文本中各词语分别对应的词向量。其中,待识别文本是输入终端的,需要提取实体名称的文本。词语是词和语的合称,包括单词、词组及整个词汇。词向量是由单词或短语映射到实数的向量。具体地,终端获取输入的待识别文本,识别待识别文本中的各词语,并分别对识别到的各词语进行转换,得到与各词语对应的词向量。其中,词向量可以是定长的稠密向量。在一个实施例中,待识别文本是中文文本,待识别文本也可以是任何语种形式的文本。在一个实施例中,终端预设有词向量的向量维度,当转换得到的词向量的维度未达到预设的向量维度时,通过在转换得到的词向量末尾补0,使词向量的维度达到预设的向量维度。步骤204,将获取的词向量输入第一双向长短记忆神经网络,得到第一双向长短记忆神经网络输出的向量特征。其中,第一双向长短记忆神经网络是提取词向量的向量特征的双向长短记忆神经网络模型。长短记忆神经网络是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟非常长的重要事件;双向长短记忆神经网络(Bi-LSTM,Bi-directionalLong-ShortTermMemoryRecurrentNeuralNetwork)是长短记忆神经网络(LSTM)的变体,由两个单向长短记忆神经网络组成的。在每一个时刻t,输入会同时提供给这两个方向相反的长短记忆神经网络,而输出则是由这两个长短记忆神经网络共同决定。向量特征是第一双向长短记忆神经网络输出的特征数据,可以反映词向量的特征。具体地,终端将待识别文本中的各词语转换为词向量后,将得到的词向量输入训练好的第一双向长短记忆神经网络中。第一双向长短记忆神经网络对输入的各词向量进行处理,提取各词向量的向量特征。步骤206,通过名词筛选模型,根据向量特征从待识别文本中筛选候选实体名称,得到名称候选集合。其中,名词筛选模型是根据提取到的向量特征,从待识别文本中筛选可能是组成实体名称的词语的模型。候选实体名称由一定数量的词语组成,是待识别文本中可能的实体名称。名称候选集合是由全部候选实体名称组成的集合。具体地,词语与通过词语转换本文档来自技高网...

【技术保护点】
1.一种实体名称识别方法,所述方法包括:获取待识别文本中各词语分别对应的词向量;将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;提取所述名称候选集合中各候选实体名称分别对应的词向量;通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。

【技术特征摘要】
1.一种实体名称识别方法,所述方法包括:获取待识别文本中各词语分别对应的词向量;将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征;通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合;提取所述名称候选集合中各候选实体名称分别对应的词向量;通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称。2.根据权利要求1所述的方法,其特征在于,所述获取待识别文本中各词语分别对应的词向量包括:获取待识别文本;将所述待识别文本输入向量转换模型,对所述待识别文本进行词语划分,得到多个词语;对于每个词语进行向量转换,得到每个词语对应的词向量。3.根据权利要求1所述的方法,其特征在于,所述将获取的词向量输入第一双向长短记忆神经网络,得到所述第一双向长短记忆神经网络输出的向量特征包括:向所述第一双向长短记忆神经网络中的前向参考层和后向参考层,分别输入获取的词向量;获取所述前向参考层和所述后向参考层输出的前向参考特征和后向参考特征;根据所述前向参考特征和所述后向参考特征生成向量特征。4.根据权利要求1所述的方法,其特征在于,所述通过名词筛选模型,根据所述向量特征从所述待识别文本中筛选候选实体名称,得到名称候选集合包括:将所述向量特征输入名词筛选模型,得到各词语的标注结果;根据所述标注结果,从所述待识别文本中筛选标注为名称组成部分的词语;根据筛选到的词语确定多个候选实体名称,得到名称候选集合。5.根据权利要求1所述的方法,其特征在于,所述通过第二双向长短记忆神经网络,根据提取的词向量识别所述名称候选集合中的实体名称包括:将每个候选实体名称对应的词向量,输入第二双向长短记忆神经网络;获取所述第二双...

【专利技术属性】
技术研发人员:曾晶邓理平陈桓张良杰
申请(专利权)人:金蝶软件中国有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1