对话语料中实体的识别方法、装置和计算机设备制造方法及图纸

技术编号:24800207 阅读:37 留言:0更新日期:2020-07-07 21:09
本发明专利技术实施例公开了一种对话语料中实体的识别方法、装置和计算机设备,包括:获取待识别实体的语料文本;将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。通过上述方式,能够提高实体识别的准确率。

【技术实现步骤摘要】
对话语料中实体的识别方法、装置和计算机设备
本专利技术涉及机器学习
,尤其涉及一种对话语料中实体的识别方法、装置、计算机设备及存储介质。
技术介绍
随着语音识别技术的发展,将语音识别成文本的瓶颈突破了,机器人对人表达的意思将更清楚,对话将更为简单。然而,在对语音进行语音识别后,得到的只是一串文本,机器人并不知晓该文本表达的含义。为了理解文本含义,现有的方法是对文本中的实体进行识别,然后根据识别出的实体来理解文本表达的含义。但是,现有的实体识别模型通常是根据输入的词向量进行训练的,以根据输入的词语信息来识别实体,这样的方式导致最终识别的实体准确率低。
技术实现思路
基于此,有必要针对上述问题,提出一种识别率高的对话语料中实体的识别方法、装置和计算机设备。一种对话语料中实体的识别方法,所述方法包括:获取待识别实体的语料文本;将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。一种对话语料中实体的识别装置,所述装置包括:第一获取模块,用于获取待识别实体的语料文本;文本分词模块,用于将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;第二获取模块,用于获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;第三获取模块,用于将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取待识别实体的语料文本;将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取待识别实体的语料文本;将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。本专利技术提出了一种对话语料中实体的识别方法、装置和计算机设备,首先获取待识别实体的语料文本;同时将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;然后获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;最后将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。由于机器人的对话问句通常都特别短,是典型的短文本,有时候句中可能就只有一个词或一个字,所以采用字向量对实体进行识别相对于采用词向量能够提高识别的准确率,因为若是采用词向量进行识别,很可能因为机器人的实体只有一个字导致实体识别失败,进一步的,由于常用的汉字的数量是比较确定的,而词语的数量会因为不同汉字的组合不同,所以词语的数量相对于汉字的数量是很大的,而且随着网络用语的不断发展,词语的数量还在继续扩大,所以相较于采用词向量的方式来识别实体,采用字向量来预测实体的准确率将更高,因为其不存在发现新词的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中对话语料中实体的识别方法的实现流程示意图;图2为一个实施例中BiLSTM+CRF模型的示意图;图3为一个实施例中步骤1022的实现流程示意图;图4为一个实施例中对话语料中实体的识别方法的实现流程示意图;图5为一个实施例中对话语料中实体的识别装置的结构框图;图6为一个实施例中计算机设备的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,在一个实施例中,提供了一种对话语料中实体的识别方法。该方法应用于服务器。所述服务器为高性能计算机或高性能计算机集群。该对话语料中实体的识别方法具体包括如下步骤:步骤102,获取待识别实体的语料文本。所述语料文本,为一个包含一个或者多个汉字的文本,所述语料文本可以是经过语音识别得到文本。例如,所述语料文本为:我要去吃饭。在经过语音识别获取到待识别实体的原始语料文本后,需要对原始的语料文本进行一些处理,比如去除停用词(标点符号),然后才得到最终的待识别实体的语料文本。步骤S104,将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字。例如,将语料文本“我要去吃饭”进行分词,得到的分词结果为:我,要,去,吃,饭。步骤S106,获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵。所述字向量,用于通过一个向量来表达一个字,可以通过训练word2vec模型获取不同字的字向量,例如,采用CBOW模型或者采用Skip-Gram模型。对于分词结果中的每一个字,获取这些字的字向量。例如,字“我”的字向量为[0.10.50.4],字“要”的字向量为[0.20.30.5],字“去”的字向量为[0.10.60.2],字“吃”的字向量为[0.40.30.2],字“饭”的字向量为[0.30.30.4],然后将这些字的字向量进行组合,得到语料文本的文本矩阵:需要说明的是,由于每个语料文本中包含的字的个数不一致,所以需要统一语料文本的文本矩阵的维度,对于不够预置的维度的,采用padding机制补齐。例如,假设预置的文本矩阵的维度是6×3,而语料文本“我要去吃饭”的维度是5×3,所以需要采用padding机制补齐,得到如下文本矩阵:步骤108,将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。所述实体识别模型,为能够识别语料文本中实体的模型,例如,BiLSTM+CRF模本文档来自技高网...

【技术保护点】
1.一种对话语料中实体的识别方法,其特征在于,所述方法包括:/n获取待识别实体的语料文本;/n将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;/n获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;/n将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。/n

【技术特征摘要】
1.一种对话语料中实体的识别方法,其特征在于,所述方法包括:
获取待识别实体的语料文本;
将所述语料文本进行分词,得到分词结果,所述分词结果中包含多个字;
获取所述分词结果中的每个字对应的字向量,将所述每个字对应的字向量进行组合得到所述语料文本对应的文本矩阵;
将所述文本矩阵作为实体识别模型的输入,获取所述实体识别模型输出的所述语料文本中的实体。


2.如权利要求1所述的方法,其特征在于,在所述获取待识别实体的语料文本之前,还包括:
获取语料文本训练样本集,所述语料文本训练样本集包括多个语料文本训练样本,所述语料文本训练样本包括口语化的口语语料文本训练样本和对所述口语语料文本训练样本进行语义联想的联想语料文本训练样本;
根据所述语料文本训练样本集对所述实体识别模型进行训练,得到所述实体识别模型。


3.如权利要求2所述的方法,其特征在于,所述根据所述语料文本训练样本集对所述实体识别模型进行训练,得到所述实体识别模型,包括:
将所述语料文本训练样本集中的各个所述语料文本训练样本进行分词,得到每个所述语料文本训练样本的包含多个字的分词结果;
根据字向量查找表和每个所述语料文本训练样本的分词结果,得到与所述语料文本训练样本集对应的训练文本矩阵;
获取每个所述语料文本训练样本中每个字对应的标注,得到所述语料文本训练样本集对应的训练文本标注矩阵,所述标注用于区分实体和非实体;
将所述训练文本矩阵作为实体识别模型的输入,将对应的所述训练文本标注矩阵作为所述实体识别模型的输出,对所述实体识别模型进行训练,得到目标实体识别模型。


4.如权利要求2所述的方法,其特征在于,所述语料文本训练样本的样本类型包括命令型、情感型、名字型和动作型,所述根据所述语料文本训练样本集对所述实体识别模型进行训练,得到所述实体识别模型,包括:
获取命令型语料文本训练样本、情感型语料文本训练样本、名字型语料文本训练样本和动作型语料文本训练样本的训练比例;
根据所述命令型语料文本训练样本、所述情感型语料文本训练样本、所述名字型语料文本训练样本和所述动作型语料文本训练样本的训练比例,从所述语料文本训练样本集中获...

【专利技术属性】
技术研发人员:熊友军罗沛鹏廖洪涛
申请(专利权)人:深圳市优必选科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1