【技术实现步骤摘要】
企业名称识别方法及装置
本申请涉及人工智能
,尤其涉及一种企业名称识别方法及装置。
技术介绍
如今,随着互联网技术高速发展,客服从业人员从传统的电话客服扩展到APP和网页等各个渠道,企业可以更加方便地为用户提供服务,但客服也面临着服务渠道更加多样化,服务的客户量急剧增加等问题。随着人工智能的兴起,对话机器人的发展能够极大地节约人力资源,大大提升服务用户的响应速度,尤其是语音交互的使用,能够极大地提升交互的效率和用户的体验效果。在多轮会话的业务办理的过程中,通常需要获取用户的具体要素信息,语音交互的使用能够解决传统文字交互的步骤繁琐和效率低等问题。但是由于方言的不同、口音差异化和模糊音等多方面的影响,语音信号识别的文字会存在一定差异,加上再加上公司名长短不一,以及口语化地使用公司的别称和简称等问题,加大语音识别的效果,导致对于需要获取精确信息办理业务场景获取关键业务流程信息错误,造成体验不佳甚至业务办理失败。
技术实现思路
针对现有技术中的问题,本申请提出了一种企业名称识别方法及装置,能够通过 ...
【技术保护点】
1.一种企业名称识别方法,其特征在于,包括:/n获取目标语音对应的文字信息;/n将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;/n基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。/n
【技术特征摘要】
1.一种企业名称识别方法,其特征在于,包括:
获取目标语音对应的文字信息;
将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;
基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。
2.根据权利要求1所述的企业名称识别方法,其特征在于,所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包括:
从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码分别生成该企业名称实体词汇对应的目标企业名称对齐矩阵和该企业名称候选集对应的候选企业名称矩阵,其中,该目标企业名称对齐矩阵和候选企业名称矩阵各行均首字对齐且末尾空余部分填充空余编码;
基于所述目标企业名称对齐矩阵、候选企业名称矩阵、预设的权重因子和所述企业名称实体词汇的长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果;
基于所述滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
3.根据权利要求1所述的企业名称识别方法,其特征在于,所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包括:
从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码生成该企业名称实体词汇对应的目标企业名称拼音编码组和该企业名称候选集对应的候选企业名称矩阵;
若生成多组目标企业名称拼音编码组,则将各组所述目标企业名称拼音编码组分别从第一初始滑动矩阵中各行的首位开始以单字的长度间隔向末位滑动,直至该目标企业名称拼音编码组的末位与该第一初始滑动矩阵的末位对齐,每次滑动后的行空余部分填充空余编码,以生成目标企业名称滑动矩阵,该第一初始滑动矩阵的长度与长度最长的目标企业名称拼音编码组的长度相同;
应用所述目标企业名称滑动矩阵、候选企业名称矩阵、预设的权重因子和最小企业名称长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果,其中,该最小企业名称长度为该各个候选企业名称词汇和所述企业名称实体词汇中长度最小的企业名称的长度值;
基于所述对齐音码相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
4.根据权利要求2或3所述的企业名称识别方法,其特征在于,所述从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,包括:
将所述企业名称实体词汇转化成对应的企业拼音向量组,该企业拼音向量组以所述企业名称实体词汇中各个单字的声母、韵母、补韵母和声调排列;
将所述候选企业名称词汇分别转化成对应的候选企业拼音向量组,该候选企业拼音向量组以所述候选企业名称词汇中各个单字的声母、韵母、补韵母和声调排列;
应用所述预存储的拼音编码表分别对企业拼音向量组和候选企业拼音向量组进行拼音编码。
5.根据权利要求1所述的企业名称识别方法,其特征在于,在所述将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型之前,还包括:
采集多条语音对应的文字信息和各个文字信息分别对应的企业名称;
应用所述文字信息及分别对应的企业名称训练所述企业名称实体词汇提取模型,其中,该企业名称实体词汇提取模型为传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
6.根据权利要求1所述的企业名称识别方法,其特征在于,所述根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果,包括:
根据应用所述对齐音码相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果、应用所述滑动窗口相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果以及预设的权重因子,得到所述目标企业名称的识别结果。
7.根据权利要求1所述的企业名称识别方法,其特征在于,在所述根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果之后,还包括:
按照预设的排序规则对所述目标企业名称的识别结果进行排序,并将排序后得到的目标企业名称列表输出显示。
8.根据权利要求1所述的企业名称识别方法,其特征在于,在所述将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇之后,还包括:
对所述企业名称实体词汇进行弱相关词置换和/或删除处理。
9.根据权利要求1所述的企业名称识别方法,其特征在于,在所述将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型之前,还包括:
过滤所述目标语音对应的文字信息中的无效字符;
对过滤后的文字信息进行预处理,以对该文字信息分别进行指代关系的替换和/或分词。
10.根据权利要求1所述的企业名称识别方法,其特征在于,还包括:
根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,从预存储的索引库中得到所述企业名称候选集。
11.一种企业名称识别装置,其特征在于,包括:
获取模块,用于获取目标语音对应的文字信息;
获取企业名...
【专利技术属性】
技术研发人员:王猛,周寅,王天越,赵逸青,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。