基于命名实体模型的字符串识别方法、电子设备、存储介质技术

技术编号:22330355 阅读:37 留言:0更新日期:2019-10-19 12:19
本发明专利技术提供了一种基于命名实体模型的字符串识别方法,包括:命名实体模型的输入层接收用户输入的字符串,将字符串转化为字索引数组并输出至字嵌入层,字嵌入层将字索引数组中的每个元素分别转化为多维字向量并输出至双向长短记忆网络层。双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时,生成sigmoid查表请求或tanh查表请求,并调用预置函数接口,针对不同查表请求,利用预置函数接口采用不同的查表方式在同一个预设查找表中查找对应的数据,并将查找到的数据作为相应激活函数单元的输出结果。双向长短记忆网络层对激活函数单元的输出结果进行逻辑处后输出至全连接层,由全连接层为输出结果数据添加实体标签。本发明专利技术方案能有效提高激活函数的数据处理效率。

String recognition method, electronic equipment and storage medium based on named entity model

【技术实现步骤摘要】
基于命名实体模型的字符串识别方法、电子设备、存储介质
本专利技术涉及字符识别
,特别是涉及一种基于命名实体模型的字符串识别方法、电子设备及计算机存储介质。
技术介绍
在汽车车机NLP(NaturalLanguageProcessing,自然语言处理)领域,命名实体识别(NamedEntityRecognition,NER)是一项很基础的任务,就是指从文本中识别出命名性指称项,为关系抽取等任务做铺垫。狭义上,是识别出人名、地名和组织机构名这三类命名实体,广义上可以识别更多命名实体,比如歌手、歌名等。由于NER模型中双向长短记忆网络层的sigmoid和tanh函数是指数函数,在计算时需要用到浮点单元或者专用硬件模块,而在汽车车机中,当前大部分车载芯片没有浮点单元或者专用硬件加速模块,并且采用通用处理器软件来模拟指数运算的性能又很低,无法达到更高效地运算效果。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于命名实体模型的字符串识别方法、电子设备及计算机存储介质。依据本专利技术一方面,提供了一种基于命名实体模型的字符串识别方法,所述命名实体模型包括输入层、字嵌入层、双向长短记忆网络层和全连接层,所述方法包括:所述输入层接收用户输入的字符串,将所述字符串转化为字索引数组并输出至字嵌入层,字索引数组的元素为所述字符串中每个字的索引号;所述字嵌入层将所述字索引数组中的每个元素分别转化为多维字向量,并将多维字向量依次输出至双向长短记忆网络层;所述双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时,生成sigmoid查表请求或tanh查表请求,并调用预置函数接口;针对所述sigmoid查表请求,利用所述预置函数接口将所述输入数据作为查表数据,利用所述查表数据在预设查找表中进行数据查找,将查找到的数据作为所述sigmoid激活函数单元的输出结果;针对所述tanh查表请求,利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据,利用所述查表数据在所述预设查找表中进行数据查找,将查找到的数据还原为适用tanh激活函数的数据,并作为所述tanh激活函数单元的输出结果;所述双向长短记忆网络层对所述sigmoid激活函数单元的输出结果和tanh激活函数单元的输出结果进行逻辑处理,将逻辑处理后得到的数据输出至所述全连接层,由所述全连接层为输出结果数据添加实体标签。可选地,利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据,利用所述查表数据在所述预设查找表中进行数据查找,将查找到的数据还原为适用tanh激活函数的数据,并作为所述tanh激活函数单元的输出结果,包括:利用所述预置函数接口将所述输入数据扩大2倍得到适用sigmoid激活函数的数据,且将扩大2倍后的数据作为查表数据;利用所述查表数据在所述预设查找表中进行数据查找,将查找到的数据按照公式y=2*y’-1计算得到适用tanh激活函数的数据,并作为所述tanh激活函数单元的输出结果;其中,y’表示查找到的数据,y表示适用tanh激活函数的数据。可选地,在sigmoid激活函数单元或tanh激活函数单元接收到输入数据时,生成sigmoid查表请求或tanh查表请求,包括:在sigmoid激活函数单元接收到输入数据时,若判断出所述输入数据位于第一数据范围内,生成sigmoid查表请求;在tanh激活函数单元接收到输入数据时,若判断出所述输入数据位于第二数据范围内,生成tanh查表请求;其中,所述第一数据范围包含了sigmoid激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值,所述第二数据范围包含了tanh激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值。可选地,所述预设查找表按照如下方式进行创建:基于sigmoid激活函数曲线定义样本数据范围和对应的输出数据范围,其中,所述样本数据范围不小于所述第一数据范围,且一个样本数据对应一个输出数据;将所述样本数据范围量化为样本整数范围,将输出数据范围量化为输出整数范围;从所述样本整数范围中等数值间距H选取N个样本整数,从所述输出整数范围等数值间距H选取N个输出整数,H为整数;将所述N个样本整数添加指定偏移量得到N个样本正整数并生成输入序列,利用所述N个输出整数生成输出序列,所述输入序列和输出序列中的数据依据数据值的大小排列;将所述输入序列中N个样本正整数除以H得到与其位置对应的序号值;将转换为序号值后的N个样本正整数作为输出序列中对应位置的输出整数的下标,建立所述N个输出整数和各自对应下标之间的映射关系,依据所述映射关系创建所述预设查找表。可选地,利用所述查表数据在所述预设查找表中进行数据查找,包括:将所述查表数据量化为正整数后除以H,得到转换结果数据;在所述预设查找表中查找与所述转换结果数据相等的下标对应的输出整数。可选地,所述预设查找表按照如下方式进行创建:基于所述sigmoid激活函数曲线定义样本数据范围和对应的输出数据范围,其中,所述样本数据范围不小于所述第一数据范围,且一个样本数据对应一个输出数据;将所述样本数据范围量化为样本整数范围,将输出数据范围量化为输出整数范围;从所述样本整数范围中等数值间H距选取N个样本整数,从所述输出整数范围等数值间距H选取N个输出整数,H为整数;从所述N个样本整数中选取小于0的N/2个样本整数,并从所述N个输出整数中选取对应的N/2个输出整数;将N/2个样本整数添加指定偏移量得到N/2个样本正整数并生成输入序列,利用所述N/2个输出整数生成输出序列,所述输入序列和输出序列中的数据依据数据值的大小排列;将所述输入序列中N/2个样本正整数除以H得到与其位置对应的序号值;将转换为序号值后的N/2个样本正整数作为输出序列中对应位置的输出整数的下标,建立所述N/2个输出整数和各自对应下标之间的映射关系,依据所述映射关系创建所述预设查找表。可选地,针对所述sigmoid查表请求,利用所述预置函数接口将所述输入数据作为查表数据,利用所述查表数据在预设查找表中进行数据查找,将查找到的数据作为所述sigmoid激活函数单元的输出结果,包括:针对所述sigmoid查表请求,若判断出输入数据小于0,利用所述预置函数接口将所述输入数据作为查表数据;将所述查表数据量化为正整数后除以H得到转换结果数据,在所述预设查找表中查找与所述转换结果数据相等的下标对应的输出整数;将查找到的输出整数作为所述sigmoid激活函数单元的输出结果。可选地,所述方法还包括:针对所述sigmoid查表请求,若判断出输入数据大于0,利用所述预置函数接口将所述输入数据的负值作为查表数据;将所述查表数据量化为正整数后除以H得到转换结果数据,在所述预设查找表中查找与所述转换结果数据相等的下标对应的输出整数;将查找到的输出整数按照公式y=1–y’计算,将计算结果数据作为所述sigmoid激活函数单元的输出结果;其中,y’表示查找到的数据,y表示计算结果数据。依据本专利技术另一方面,还提供了一种电子设备,包括:处理器;存储有计算机程序代码的存储器;当所述计本文档来自技高网...

【技术保护点】
1.一种基于命名实体模型的字符串识别方法,所述命名实体模型包括输入层、字嵌入层、双向长短记忆网络层和全连接层,所述方法包括:所述输入层接收用户输入的字符串,将所述字符串转化为字索引数组并输出至字嵌入层,字索引数组的元素为所述字符串中每个字的索引号;所述字嵌入层将所述字索引数组中的每个元素分别转化为多维字向量,并将多维字向量依次输出至双向长短记忆网络层;所述双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时,生成sigmoid查表请求或tanh查表请求,并调用预置函数接口;针对所述sigmoid查表请求,利用所述预置函数接口将所述输入数据作为查表数据,利用所述查表数据在预设查找表中进行数据查找,将查找到的数据作为所述sigmoid激活函数单元的输出结果;针对所述tanh查表请求,利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据,利用所述查表数据在所述预设查找表中进行数据查找,将查找到的数据还原为适用tanh激活函数的数据,并作为所述tanh激活函数单元的输出结果;所述双向长短记忆网络层对所述sigmoid激活函数单元的输出结果和tanh激活函数单元的输出结果进行逻辑处理,将逻辑处理后得到的数据输出至所述全连接层,由所述全连接层为输出结果数据添加实体标签。...

【技术特征摘要】
1.一种基于命名实体模型的字符串识别方法,所述命名实体模型包括输入层、字嵌入层、双向长短记忆网络层和全连接层,所述方法包括:所述输入层接收用户输入的字符串,将所述字符串转化为字索引数组并输出至字嵌入层,字索引数组的元素为所述字符串中每个字的索引号;所述字嵌入层将所述字索引数组中的每个元素分别转化为多维字向量,并将多维字向量依次输出至双向长短记忆网络层;所述双向长短记忆网络层的sigmoid激活函数单元或tanh激活函数单元接收到输入数据时,生成sigmoid查表请求或tanh查表请求,并调用预置函数接口;针对所述sigmoid查表请求,利用所述预置函数接口将所述输入数据作为查表数据,利用所述查表数据在预设查找表中进行数据查找,将查找到的数据作为所述sigmoid激活函数单元的输出结果;针对所述tanh查表请求,利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据,利用所述查表数据在所述预设查找表中进行数据查找,将查找到的数据还原为适用tanh激活函数的数据,并作为所述tanh激活函数单元的输出结果;所述双向长短记忆网络层对所述sigmoid激活函数单元的输出结果和tanh激活函数单元的输出结果进行逻辑处理,将逻辑处理后得到的数据输出至所述全连接层,由所述全连接层为输出结果数据添加实体标签。2.根据权利要求1所述的方法,其中,利用所述预置函数接口将所述输入数据转换为适用sigmoid激活函数的数据且将转换后的数据作为查表数据,利用所述查表数据在所述预设查找表中进行数据查找,将查找到的数据还原为适用tanh激活函数的数据,并作为所述tanh激活函数单元的输出结果,包括:利用所述预置函数接口将所述输入数据扩大2倍得到适用sigmoid激活函数的数据,且将扩大2倍后的数据作为查表数据;利用所述查表数据在所述预设查找表中进行数据查找,将查找到的数据按照公式y=2*y’-1计算得到适用tanh激活函数的数据,并作为所述tanh激活函数单元的输出结果;其中,y’表示查找到的数据,y表示适用tanh激活函数的数据。3.根据权利要求1所述的方法,其中,在sigmoid激活函数单元或tanh激活函数单元接收到输入数据时,生成sigmoid查表请求或tanh查表请求,包括:在sigmoid激活函数单元接收到输入数据时,若判断出所述输入数据位于第一数据范围内,生成sigmoid查表请求;在tanh激活函数单元接收到输入数据时,若判断出所述输入数据位于第二数据范围内,生成tanh查表请求;其中,所述第一数据范围包含了sigmoid激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值,所述第二数据范围包含了tanh激活函数曲线的纵坐标饱和值之外的纵坐标数值所对应的横坐标数值。4.根据权利要求3所述的方法,其中,所述预设查找表按照如下方式进行创建:基于sigmoid激活函数曲线定义样本数据范围和对应的输出数据范围,其中,所述样本数据范围不小于所述第一数据范围,且一个样本数据对应一个输出数据;将所述样本数据范围量化为样本整数范围,将输出数据范围量化为输出整数范围;从所述样本整数范围中等数值间距H选取N个样本整数,从所述输出整数范围等数值间距H选取N个输出整数,H为整数;将所述N个样本整数...

【专利技术属性】
技术研发人员:黄海荣李林峰
申请(专利权)人:湖北亿咖通科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1