【技术实现步骤摘要】
一种地址识别方法、装置、计算机设备及存储介质
本申请涉及人工智能中的语音处理
,尤其涉及一种基于命名实体识别的地址识别方法、装置、计算机设备及存储介质。
技术介绍
人机对话是人工智能领域重要的领域。对话对于人类来说是基本的沟通能力和技能,而人类在对话中做到自然、通畅的交流,最重要的一点就是理解对方说话的意图。而对于人工智能来说,却需要各个应用和系统协同配合才能达到类似人的效果,然而支撑这个功能的最关键的一步,也是最基础一步,就是正确识别人类说话的意图,这样机器才能做出正确的回应。现有一种语义识别方法,即通过构建训练语料,并根据该训练语料训练深度学习模型,使得该深度学习模型可以识别与该训练语料相对应的问答文本信息,从而获知问答文本信息是实际意图。然而,申请人发现传统的语义识别方法普遍不智能,对于半封闭式的人机对话场合,例如:机器人提问,Q:请问你住在A城市还是B城市?客户回答:在**区(县);在上述场合中,传统的语义识别方法则无法确认该**区(县)是属于A城市还是B城市,然而实现上述精确的识别,需要再投入 ...
【技术保护点】
1.一种基于命名实体识别的地址识别方法,其特征在于,包括下述步骤:/n接收音频采集设备发送的问答音频数据;/n对所述问答音频数据进行语音识别操作,得到问答文本信息;/n对所述问答文本信息进行地址文本提取操作,得到地址文本信息;/n将所述地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;/n将所述问答文本信息以及所述地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;/n将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;/n输出所述目标地址结果。/n
【技术特征摘要】
1.一种基于命名实体识别的地址识别方法,其特征在于,包括下述步骤:
接收音频采集设备发送的问答音频数据;
对所述问答音频数据进行语音识别操作,得到问答文本信息;
对所述问答文本信息进行地址文本提取操作,得到地址文本信息;
将所述地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;
将所述问答文本信息以及所述地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;
将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;
输出所述目标地址结果。
2.根据权利要求1所述的基于命名实体识别的地址识别方法,其特征在于,所述对所述问答文本信息进行地址文本提取操作,得到地址文本信息的步骤,具体包括:
对所述问答文本信息进行分词操作,得到多个词语;
基于停用词表对所述词语进行过滤操作,得到过滤后的所述地址文本信息。
3.根据权利要求1所述的基于命名实体识别的地址识别方法,其特征在于,所述对所述问答文本信息进行地址文本提取操作,得到地址文本信息的步骤,具体包括:
对所述问答文本信息进行分词操作,得到多个词语;
基于停用词表对所述词语进行过滤操作,得到过滤后的待确认词语;
计算各所述待确认词语在所述问答文本信息中的第一词频;
读取本地语料库,计算各所述待确认词语在所述本地语料库中的第二词频;
根据所述第一词频与所述第二词频的乘积对所述待确认词语进行过滤,得到所述地址文本信息。
4.根据权利要求1所述的基于命名实体识别的地址识别方法,其特征在于,在所述将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果的步骤之前,还包括:
获取初始训练集和待识别数据集;
基于所述初始训练集以及所述待识别数据集对初始命名实体识别模型进行多轮训练操作直至其收敛,得到所述训练好的命名实体识别模型;其中,所述每轮训练操作包括:基于本轮训练集对所述初始命名实体识别模型进行监督训练得到经监督训练后的初始命名实体识别模型;基于所述经监督训练后的初始命名实体识别模型对所述待识别数据集进行命名实体标注,得到弱标注的待识别数据集;从所述本轮得到的所述弱标注的待识别数据集中提取子集,将所述子集以及所述初始训练集组成用于下一轮训练的训练集。
5.根据权利要求4所述的基于命名实体识别的地址识别方法,其特征在于,所述获取初始训练集和待识别数据集的步骤,具体包括:
读取本地数据库,在所述本地数据库中获取预标注数据集以及无标注数据集;
将所述预标注数据集中的文本按照分句规则进行分句操作,得到多个预标注句子;
基于预设词语表对所述每个预标注句子进行分词操作,得到由多个词语组成的预标注句子,所述每个词语分别带有标签信息;
查询词语词典和标签词典获取每个词语的词语标识和标签标识以将...
【专利技术属性】
技术研发人员:张稳,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。