文本处理方法、装置以及电子设备制造方法及图纸

技术编号：26763925 阅读：13 留言：0更新日期：2020-12-18 23:31

本申请实施例公开了一种文本处理方法、装置以及电子设备。属于计算机技术领域。该方法包括：获取扩展文本，扩展文本包括初始文本以及拼接在初始文本的指定位置的指定字符；获取对扩展文本中的目标字符进行类型标注的标注结果，其中，指定字符对应的标注内容为初始文本的标签类型，初始文本对应的标注内容为初始文本中每个字符各自的实体类型；将扩展文本以及标注结果输入到第一网络模型中对第一网络模型的网络参数进行更新，得到第二网络模型；基于第二网络模型对待识别文本中的实体内容进行识别。从而使得第二网络模型能够更加准确的对待识别文本中的实体内容进行识别，提升了实体内容进行识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置以及电子设备
本申请涉及计算机
，更具体地，涉及一种文本处理方法、装置以及电子设备。
技术介绍
命名实体识别(NamedEntityRecognition，NER)是自然语言处理中比较基础也比较通用的技术方向，在文本分析、数据挖掘、关键词提取、机器翻译、语义理解等领域都需要实体识别技术的支撑。但是，相关的命名实体识别方式还存在识别准确性有待提升的问题。
技术实现思路
鉴于上述问题，本申请提出了一种文本处理方法、装置以及电子设备，以改善上述问题。第一方面，本申请提供了一种文本处理方法，应用于电子设备，所述方法包括：获取扩展文本，所述扩展文本包括初始文本以及拼接在所述初始文本的指定位置的指定字符；获取对所述扩展文本中的目标字符进行类型标注的标注结果，所述目标字符包括所述指定字符以及至少部分所述初始文本，其中，所述指定字符对应的标注内容为所述初始文本的标签类型，至少部分所述初始文本对应的标注内容为至少部分所述初始文本中每个字符各自的实体类型；将所述扩展文本以及所述标注结果输入到第一网络模型中对所述第一网络模型的网络参数进行更新，得到第二网络模型，其中，所述第一网络模型包括双向长期短期记忆层以及条件随机场层；基于所述第二网络模型对待识别文本中的实体内容进行识别。第二方面，本申请提供了一种文本处理方法，应用于电子设备，所述方法包括：获取待识别文本；将所述待识别文本输入到基于前述的方法得到的第二网络模型中，得到所述第二网络模型输出的实体识别结果；执行与所述实体识别结果对...

【技术保护点】
1.一种文本处理方法，其特征在于，应用于电子设备，所述方法包括：/n获取扩展文本，所述扩展文本包括初始文本以及拼接在所述初始文本的指定位置的指定字符；/n获取对所述扩展文本中的目标字符进行类型标注的标注结果，所述目标字符包括所述指定字符以及至少部分所述初始文本，其中，所述指定字符对应的标注内容为所述初始文本的标签类型，至少部分所述初始文本对应的标注内容为至少部分所述初始文本中每个字符各自的实体类型；/n将所述扩展文本以及所述标注结果输入到第一网络模型中对所述第一网络模型的网络参数进行更新，得到第二网络模型，其中，所述第一网络模型包括双向长期短期记忆层以及条件随机场层；/n基于所述第二网络模型对待识别文本中的实体内容进行识别。/n

【技术特征摘要】
1.一种文本处理方法，其特征在于，应用于电子设备，所述方法包括：
获取扩展文本，所述扩展文本包括初始文本以及拼接在所述初始文本的指定位置的指定字符；
获取对所述扩展文本中的目标字符进行类型标注的标注结果，所述目标字符包括所述指定字符以及至少部分所述初始文本，其中，所述指定字符对应的标注内容为所述初始文本的标签类型，至少部分所述初始文本对应的标注内容为至少部分所述初始文本中每个字符各自的实体类型；
将所述扩展文本以及所述标注结果输入到第一网络模型中对所述第一网络模型的网络参数进行更新，得到第二网络模型，其中，所述第一网络模型包括双向长期短期记忆层以及条件随机场层；
基于所述第二网络模型对待识别文本中的实体内容进行识别。

2.根据权利要求1所述的方法，其特征在于，所述将所述扩展文本以及所述标注结果输入到第一网络模型中对所述第一网络模型的网络参数进行更新，得到第二网络模型，包括：
将所述扩展文本输入到所述双向长期短期记忆层中，并将所述双向长期短期记忆层的输出数据输入到非线性层，得到所述非线性层输出的发射概率；
基于所述标注结果更新所述条件随机场层中转移矩阵的结构维度；
基于条件随机方式得到结构维度更新后的所述转移矩阵中的新增加元素的值，以得到更新后的转移矩阵，所述新增加元素的值表征所述新增加元素对应的结构维度之间的转移概率；
基于所述非线性层输出的发射概率以及所述更新后的转移矩阵，对所述双向长期短期记忆层的网络参数以及所述更新后的转移矩阵中的转移概率进行更新，得到第二网络模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述非线性层输出的发射概率以及所述更新后的转移矩阵，对所述双向长期短期记忆层的网络参数以及所述更新后的转移矩阵中的转移概率进行更新，得到第二网络模型，包括：
基于所述非线性层输出的发射概率以及所述更新后的转移矩阵，得到所述初始文本中每个字符对应的实体识别结果；
将所述实体识别结果与所述标注结果进行比对，根据比对结果对所述双向长期短期记忆层的网络参数以及所述更新后的转移矩阵中的转移概率进行更新，得到第二网络模型。

4.根据权利要求1-3任一所述的方法，其特征在于，所述获取扩展文本之前还包括：
获取初始文本；
获取初始文本的指定位置以及指定字符；
将所述指定字符拼接到所述初始文本的指定位置得到扩展文本，并将所述扩展文本存储到指定存储区域；
所述获取扩展文本，包括：

【专利技术属性】
技术研发人员：郭子亮，
申请(专利权)人：深圳市欢太科技有限公司，OPPO广东移动通信有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人