命名实体识别模型、电话总机转接分机方法及系统技术方案

技术编号:25690901 阅读:20 留言:0更新日期:2020-09-18 21:02
本发明专利技术公开了一种命名实体识别模型,其基于注意力机制的双向长短时记忆单元‑条件随机场包括:嵌入层为本模型使用的预训练的词向量;双向LSTM层进行特征提取,每个词获得同时包含前向和后向信息表示;自注意层捕获句子内部词依赖关系;全连接层将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量;CRF层用于学习标签之间的依赖关系。本发明专利技术还公开了一种电话总机转接分机方法和一种电话总机转接分机系统。本发明专利技术的命名实体识别模型能快速准确的识别实体信息。本发明专利技术的电话总机转接方法/系统能够依据客户需求,准确、快速地为客户检索到欲联系的分机号并进行转接,支持为多客户同时提供分机转接服务,提供优质、高效的总机转接服务体验。

【技术实现步骤摘要】
命名实体识别模型、电话总机转接分机方法及系统
本专利技术涉及通信领域,特别是涉及一种基于注意力机制的双向长短时记忆单元-条件随机场的命名实体识别模型。本专利技术还涉及一种利用所述命名实体识别模型的电话总机转分机方法和一种电话总机转接分机系统。
技术介绍
一般的企业公司电话都会有总机和分机,总机系统可使企业只对外公布一个电话号码,由该号码呼入后,根据企业自己设定的语音导航,将各业务转接到不同的分机来接听。或,当有人拨打总机查找分机号时,总机人员可将话务直接转给相应的分机人员。当拨打者不知道公司的分机号时,就会打总机进行查询,可直接告知分机号,让其重新拨打。这个过程中同一业务可能对应多个分机号(业务员),这会造成一种工况:当客户针对同一问题多次拨打客服电话时找不到欲联系人的分机号,一个事情可能要重述多遍,极大了影响了客户的体验。也造成浪费企业资源的浪费,降低了企业的工作效率。
技术实现思路

技术实现思路
部分中引入了一系列简化形式的概念,该简化形式的概念均为本领域现有技术简化,这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。本专利技术要解决的技术问题是提供一种基于注意力机制的双向长短时记忆单元-条件随机场,能快速准确识别实体新型的命名实体识别模型。本专利技术要解决的另一技术问题是提供一种利用所述命名实体识别模型能快速准确搜索分机并完成转接的电话总机转接分机方法。本专利技术要解决的再一技术问题是提供一种利用所述命名实体识别模型能快速准确搜索分机并完成转接的电话总机转接分机系统。命名实体识别(NamedEntityRecognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。命名实体识别其本质是一个序列标注问题,序列标注就是对给定文本中每一个字符打上标签。为解决上述技术问题,本专利技术提供一种基于注意力机制的双向长短时记忆单元-条件随机场(Attention-BasedBiLSTM-CRF)的命名实体识别模型,包括:嵌入层,其为本模型使用的预训练的词向量,该向量随着模型的迭代不断更新;双向LSTM层,其适用于进行特征提取,对于每个词获得同时包含前向和后向信息的表示;使用双向LSTM进行特征提取,对于每个词获得同时包含前向和后向信息的表示。双向LSTM可以看成是两层神经网络,第一层则是从右边作为系列的起始输入,在文本处理上可以理解成从句子的最后一个词语作为输入,在每一个时间步i输出为bhi,而第二层从左边作为系列的起始输入,在文本处理上可以理解成从句子的开头开始输入,在每一个时间步i输出为fhi,最终的输出层LSTM的隐藏状态的级联:hi=[fhi,bhi];自注意层,其适用于捕获句子内部的词依赖关系;双向LSTM虽然能获取前向和后向信息,也具有比RNN更长的距离依赖,但当句子序列较长时,LSTM也无法通过多层之后还能将距离较远的信息很好的保留下来。本专利技术引入自注意(Self-Attention)机制以捕获句子内部的词依赖关系,在每一个时间步i,计算当前的隐藏层状态hi与所有隐藏层状态h=[h1,h2,...hT]的相似度,T为序列长度,再进行归一化得到相似度分数α,使用α对h进行加权求和得到上下文向量ci,如下全连接层,将双向LSTM层和自注意层的输出使用全连接层映射为一个维度为输出标签数量的一个向量,该向量是当前时间步i对于所有标签的预测得分:pi=Wi([hi,ci])+bi其中,Wi和bi为模型所需要学习的参数,初始化时服从标准正态分布,pi为全连接层输出的向量,也是预测当前时间步i对于所有标签的预测得分;CRF层,包括两种类型的分数,发射分数和转移分数。发射分数为每个词映射到标签的概率值,即全连接层的输出,设双向LSTM层的输出矩阵为P,其中pij代表词xi映射到标签tagj,tagj表示所有标签中第j个,j取值范围为0到标签数-1,的非归一化概率,类比于CRF模型中的发射概率矩阵;转移分数为tagi标签转移到tagj标签的转移概率,设转移矩阵为A,Aij代表tagi转移到tagj的转移概率。对于输入序列X对应的所有可能的输出标签序列y,定义分数为:目标是学习出一组条件概率分布模型,即找到一组参数θ,使得训练数据中真实标签序列的概率最大化:其中,S为对计算出的所有可能的输出标签序列y的评分score的归一化,y'为每一种可能的标签序列,θ*则为使得真实标签序列的概率最大化的一组参数;预测时则计算得分最高的标签序列y*:其中,y'为每一种可能的标签序列。可选择的,采用以下步骤进行命名实体识别模型训练;S1,数据预处理,包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典;可选择的,去除指定无用符号:输入文本中多余的空格以及其他无意义的符号对于模型是无用的,我们预先使用正则表达式进行去除;可选择的,文本分词:jieba分词,使用jieba分词库对文本进行分词,将输入文本处理成单词序列。分词过程中,对于可能会出现的一些领域的专有词汇或者不希望jieba拆分的单词,建立一个自定义词典,在使用jieba分词时保留词典中的固定词语;可选择的,去除指定停用词:分词生成的单词序列中,会有很多没有意义的词,如“了”、“呢”等,我们称之为停用词,当然,也可以自定义一些对于模型没有意义的单词作为停用词,建立停用词词典,在分词后去除这些停用词;可选择的,构造词典:统计训练数据分词结果,构造词典;S2,输入数据构造,包括使用生成的特征词典对分词后的文本序列进行转换,将单词序列转化为索引序列,按比例划分训练集和验证集,保存为输入文件;S3,模型训练,包括设置参数,读取训练集和验证集进行模型训练及验证,并保存模型的训练结果,返回训练和验证结果;可选择的,设置模型参数:词嵌入维度:300维;LSTM参数:隐层状态数128(即LSTM层输出的每一个单词对应的维度),层数1;全连接层输出维度:文本序列长度*标签数;可选择的,所述模型的实体信息包括部门名和人名,具有5类标签;其中,所述标签为:人名的开始部分、人名的中间部分、部门名的开始部分、部门名的中间部分和非实体信息。可选择的,标签如下:B-Person人名的开始部分I-Person人名的中间部分B-Depart部门名的开始部分I-Depart部门名的中间部分O非实体信息。例如“帮我转接信息部李红”,分词后为“帮我转接信息部李红”,经过命名实体识别模型标注之后的输出为“OOOB-DepartB-Person”。模型需本文档来自技高网...

【技术保护点】
1.一种命名实体识别模型,其基于注意力机制的双向长短时记忆单元-条件随机场,其特征在于,包括:/n嵌入层,其为本模型使用的预训练的词向量,该向量随着模型的迭代不断更新;/n双向LSTM层,其适用于进行特征提取,对于每个词获得同时包含前向和后向信息的表示;/n自注意层,其适用于捕获句子内部的词依赖关系;/n全连接层,其适用于将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量;/nCRF层,其具有两种类型的分数,发射分数和转移分数,其适用于学习标签之间的依赖关系;/n发射分数为每个词映射到标签的概率值,即全连接层的输出;/n转移分数为第一标签转移到第二标签的转移概率。/n

【技术特征摘要】
1.一种命名实体识别模型,其基于注意力机制的双向长短时记忆单元-条件随机场,其特征在于,包括:
嵌入层,其为本模型使用的预训练的词向量,该向量随着模型的迭代不断更新;
双向LSTM层,其适用于进行特征提取,对于每个词获得同时包含前向和后向信息的表示;
自注意层,其适用于捕获句子内部的词依赖关系;
全连接层,其适用于将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量;
CRF层,其具有两种类型的分数,发射分数和转移分数,其适用于学习标签之间的依赖关系;
发射分数为每个词映射到标签的概率值,即全连接层的输出;
转移分数为第一标签转移到第二标签的转移概率。


2.如权利要求1所述的命名实体识别模型,其特征在于:双向LSTM层将每个词获得同时包含前向和后向信息的表示如下:
双向LSTM是两层神经网络,第一层是从右边作为系列的起始输入,表示从句子的最后一个词语作为输入,在每一个时间步i输出为bhi;
第二层从左边作为系列的起始输入,表示从句子的开头开始输入,在每一个时间步i输出为fhi,最终的输出层LSTM的隐藏状态的级联hi为:






hi=[fhi,bhi]。


3.如权利要求2所述的命名实体识别模型,其特征在于:自注意层采用以下方式捕获句子内部的词依赖关系;
在每一个时间步i,计算当前的隐藏层状态hi与所有隐藏层状态h=[h1,h2,...hT]的相似度,T为序列长度,再进行归一化得到相似度分数α,使用α对h进行加权求和得到上下文向量ci;








4.如权利要求3所述的命名实体识别模型,其特征在于:全连接层输出向量是当前时间步i对于所有标签的预测得分;
pi=Wi([hi,ci])+bi;
其中,Wi和bi为模型所需要学习的参数,初始化时服从标准正态分布,pi为全连接层输出的向量,也是预测当前时间步i对于所有标签的预测得分。


5.如权利要求4所述的命名实体识别模型,其特征在于:CRF层能加入约束条件提高预测结果准确率,所述约束条件在训练数据时被CRF层自动学习得到。


6.如权利要求5所述的命名实体识别模型,其特征在于,采用以下步骤进行模型训练;
S1,数据预处理,包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典;
S2,输入数据构造,包括使用生成的特征词典对分词后的文本序列进行转换,将单词序列转化为索引序列,按比例划分训练集和验证集,保存为输入文件;
S3,模型训练,包括设置参数,读取训练集和验证集进行模型训练及验证,并保存模型的训练结果,返回训练和验证结果。


7.一种利用权利要求1所述命名实体识别模型的电话总机转接分机方法,其特征在于,包括以下步骤:
S4,语音信息转文本;
S5,基于命名实体识别模型提取文本中的实体信息;
S6,基于相似度分析检索分机号;
S7,选择相似度最高执行转接。


8.如权利要求7所述的电话总机转接分机方法,其特征在于,采用以下步骤对完成训练命名实体识别模型提取实体信息;
S5.1,加载训练生成的模型文件;
S5.2,将客户的文本信息进行数据处理,生成单词索引序列;
S5.3,生成的单词索引序列输入到训练好的命名实体识别模型中,返回提取到的实体信息。


9.如权利要求7所述的电话总机转接分机方法,其特征在于,步骤S6包括以下子步骤:
S6.1,读取数据库中所有部门名;
S6.2,计算提取到的部门名与数据库中所有部门名的相似度,部门名相似度是文本语义相似度、汉字相似度以及拼音相似度三部分的加权和;
S6.3,计算提取到的人名与选择的部门下所有人名的相似度;
S6.4,计算部门名和人名的整体相似度,选择整体相似度最高的部门名和人名;
计算部门名和人名的整体相似度=部门名的相似度+人名的相似度;
S6.5,返回分机号或转至预设话术。


10.如权利要求7所述的电话总机转接分机方法,其特征在于,步骤S7包括以下子步骤:
S7.1,设定整体相似度阈值,若计算的整体相似度大于等于整体相似度阈值,则返回该人...

【专利技术属性】
技术研发人员:沈燕陈屹峰戴蓓蓉陆炜王一腾孙璐
申请(专利权)人:上海阿尔卡特网络支援系统有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1