命名实体识别模型、电话总机转接分机方法及系统技术方案

技术编号：25690901 阅读：20 留言：0更新日期：2020-09-18 21:02

本发明专利技术公开了一种命名实体识别模型，其基于注意力机制的双向长短时记忆单元‑条件随机场包括：嵌入层为本模型使用的预训练的词向量；双向LSTM层进行特征提取，每个词获得同时包含前向和后向信息表示；自注意层捕获句子内部词依赖关系；全连接层将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量；CRF层用于学习标签之间的依赖关系。本发明专利技术还公开了一种电话总机转接分机方法和一种电话总机转接分机系统。本发明专利技术的命名实体识别模型能快速准确的识别实体信息。本发明专利技术的电话总机转接方法/系统能够依据客户需求，准确、快速地为客户检索到欲联系的分机号并进行转接，支持为多客户同时提供分机转接服务，提供优质、高效的总机转接服务体验。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别模型、电话总机转接分机方法及系统
本专利技术涉及通信领域，特别是涉及一种基于注意力机制的双向长短时记忆单元-条件随机场的命名实体识别模型。本专利技术还涉及一种利用所述命名实体识别模型的电话总机转分机方法和一种电话总机转接分机系统。
技术介绍
一般的企业公司电话都会有总机和分机，总机系统可使企业只对外公布一个电话号码,由该号码呼入后，根据企业自己设定的语音导航，将各业务转接到不同的分机来接听。或，当有人拨打总机查找分机号时，总机人员可将话务直接转给相应的分机人员。当拨打者不知道公司的分机号时，就会打总机进行查询，可直接告知分机号，让其重新拨打。这个过程中同一业务可能对应多个分机号(业务员)，这会造成一种工况：当客户针对同一问题多次拨打客服电话时找不到欲联系人的分机号，一个事情可能要重述多遍，极大了影响了客户的体验。也造成浪费企业资源的浪费，降低了企业的工作效率。
技术实现思路
在
技术实现思路
部分中引入了一系列简化形式的概念,该简化形式的概念均为本领域现有技术简化，这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。本专利技术要解决的技术问题是提供一种基于注意力机制的双向长短时记忆单元-条件随机场，能快速准确识别实体新型的命名实体识别模型。本专利技术要解决的另一技术问题是提供一种利用所述命名实体识别模型能快速准确搜索分机并完成转接的电话总机转...

【技术保护点】
1.一种命名实体识别模型，其基于注意力机制的双向长短时记忆单元-条件随机场，其特征在于，包括：/n嵌入层，其为本模型使用的预训练的词向量，该向量随着模型的迭代不断更新；/n双向LSTM层，其适用于进行特征提取，对于每个词获得同时包含前向和后向信息的表示；/n自注意层，其适用于捕获句子内部的词依赖关系；/n全连接层，其适用于将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量；/nCRF层，其具有两种类型的分数，发射分数和转移分数，其适用于学习标签之间的依赖关系；/n发射分数为每个词映射到标签的概率值，即全连接层的输出；/n转移分数为第一标签转移到第二标签的转移概率。/n

【技术特征摘要】
1.一种命名实体识别模型，其基于注意力机制的双向长短时记忆单元-条件随机场，其特征在于，包括：
嵌入层，其为本模型使用的预训练的词向量，该向量随着模型的迭代不断更新；
双向LSTM层，其适用于进行特征提取，对于每个词获得同时包含前向和后向信息的表示；
自注意层，其适用于捕获句子内部的词依赖关系；
全连接层，其适用于将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量；
CRF层，其具有两种类型的分数，发射分数和转移分数，其适用于学习标签之间的依赖关系；
发射分数为每个词映射到标签的概率值，即全连接层的输出；
转移分数为第一标签转移到第二标签的转移概率。

2.如权利要求1所述的命名实体识别模型，其特征在于：双向LSTM层将每个词获得同时包含前向和后向信息的表示如下：
双向LSTM是两层神经网络，第一层是从右边作为系列的起始输入，表示从句子的最后一个词语作为输入，在每一个时间步i输出为bhi；
第二层从左边作为系列的起始输入，表示从句子的开头开始输入，在每一个时间步i输出为fhi，最终的输出层LSTM的隐藏状态的级联hi为：

hi＝[fhi，bhi]。

3.如权利要求2所述的命名实体识别模型，其特征在于：自注意层采用以下方式捕获句子内部的词依赖关系；
在每一个时间步i，计算当前的隐藏层状态hi与所有隐藏层状态h＝[h1,h2,...hT]的相似度，T为序列长度，再进行归一化得到相似度分数α，使用α对h进行加权求和得到上下文向量ci；

4.如权利要求3所述的命名实体识别模型，其特征在于：全连接层输出向量是当前时间步i对于所有标签的预测得分；
pi＝Wi([hi，ci])+bi；
其中，Wi和bi为模型所需要学习的参数，初始化时服从标准正态分布，pi为全连接层输出的向量，也是预测当前时间步i对于所有标签的预测得分。

5.如权利要求4所述的命名实体识别模型，其特征在于：CRF层能加入约束条件提高预测结果准确率，所述约束条件在训练数据时被CRF层自动学习得到。

6.如权利要求5所述的命名实体识别模型，其特征在于，采用以下步骤进行模型训练；
S1，数据预处理，包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典；
S2，输入数据构造，包括使用生成的特征词典对分词后的文本序列进行转换，将单词序列转化为索引序列，按比例划分训练集和验证集，保存为输入文件；
S3，模型训练，包括设置参数，读取训练集和验证集进行模型训练及验证，并保存模型的训练结果，返回训练和验证结果。

7.一种利用权利要求1所述命名实体识别模型的电话总机转接分机方法，其特征在于，包括以下步骤：
S4，语音信息转文本；
S5，基于命名实体识别模型提取文本中的实体信息；
S6，基于相似度分析检索分机号；
S7,选择相似度最高执行转接。

8.如权利要求7所述的电话总机转接分机方法，其特征在于，采用以下步骤对完成训练命名实体识别模型提取实体信息；
S5.1，加载训练生成的模型文件；
S5.2，将客户的文本信息进行数据处理，生成单词索引序列；
S5.3，生成的单词索引序列输入到训练好的命名实体识别模型中，返回提取到的实体信息。

9.如权利要求7所述的电话总机转接分机方法，其特征在于，步骤S6包括以下子步骤：
S6.1，读取数据库中所有部门名；
S6.2，计算提取到的部门名与数据库中所有部门名的相似度，部门名相似度是文本语义相似度、汉字相似度以及拼音相似度三部分的加权和；
S6.3，计算提取到的人名与选择的部门下所有人名的相似度；
S6.4，计算部门名和人名的整体相似度，选择整体相似度最高的部门名和人名；
计算部门名和人名的整体相似度＝部门名的相似度+人名的相似度；
S6.5，返回分机号或转至预设话术。

10.如权利要求7所述的电话总机转接分机方法，其特征在于，步骤S7包括以下子步骤：
S7.1，设定整体相似度阈值，若计算的整体相似度大于等于整体相似度阈值，则返回该人...

【专利技术属性】
技术研发人员：沈燕，陈屹峰，戴蓓蓉，陆炜，王一腾，孙璐，
申请(专利权)人：上海阿尔卡特网络支援系统有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人