地址信息抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:28221540 阅读:11 留言:0更新日期:2021-04-28 09:45
本发明专利技术涉及人工智能领域,公开了一种地址信息抽取方法、装置、设备及存储介质,用于对用户口语中的地址进行抽取,该方法包括:获取用户的语音数据,并进行语音识别,得到口语文本;将口语文本输入至地址抽取模型中,地址抽取模型对口语文本中的每个字符进行标注,得到每个字符的标注类型,标注类型包括地址标注和非地址标注;将连续相同的标注类型为地址标注的字符进行拼接,得到备用地址片段;判断相邻的备用地址片段之间的字符距离是否小于预设字符阈值,若是,则将相邻的备用地址片段进行连接,得到标准地址片段,若否,则将所有备用地址片段提取出来,作为标准地址片段。此外,本发明专利技术还涉及区块链技术,用户的语音数据可存储于区块链中。链中。链中。

【技术实现步骤摘要】
地址信息抽取方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种地址信息抽取方法、装置、设备及存储介质。

技术介绍

[0002]相比人工客服,永远不知疲倦的“AI”智能电话营销机器人近些年深得中小微企业老板们的青睐。在营销场景中,对话机器人可能需要抽取客户话语中的地址信息,比如在信用卡核验身份的通话场景,会询问客户的地址并抽取出来与客户之前填写的地址比对。由于地址信息过长,客户口语化表达中经常出现夹杂语气词、中断、反复的现象。
[0003]市面上现有机器人使用到的技术不针对这种情况做优化,直接要求从整句话中抽取一个连续的文本片段作为地址,导致抽取结果不准确。由于一般模型要求标注的地址为连续文本片段,因此标注人员提供的训练数据标注存在只标注部分地址的错误,使得模型训练效果已经不好;即使使用容错性好的模型,可能准确抽取出地址中的某个片段,作为最终的地址输出,但仍然存在地址抽取不完整的问题。

技术实现思路

[0004]本专利技术的主要目的在于解决现有的在业务过程中对用户口语中的地址信息抽取不完整的技术问题。
[0005]本专利技术第一方面提供了一种地址信息抽取方法,包括:
[0006]获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本;
[0007]将所述口语文本输入至预设的地址抽取模型中,通过所述地址抽取模型对所述口语文本中的每个字符进行标注,得到所述口语文本中的每个字符的标注类型,其中所述标注类型包括地址标注和非地址标注
[0008]将所述口语文本中连续相同的标注类型为地址标注的字符进行拼接,得到至少一段备用地址片段;
[0009]若所述备用地址片段的数量等于一,则将所述备用地址片段作为标准地址片段输出;
[0010]若所述备用地址片段的数量大于一,则判断相邻的备用地址片段之间的字符距离是否小于预设字符阈值;
[0011]若是,则将相邻的备用地址片段进行连接,得到标准地址片段;
[0012]若否,则将所有所述备用地址片段提取出来,作为标准地址片段。
[0013]可选的,在本专利技术第一方面的第一种实现方式中,在所述获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本之前,还包括:
[0014]利用网页爬虫工具从预设的数据源中爬取原始地址数据;
[0015]从所述原始地址数据中筛选出字符长度为预设长度区间内的地址表述数据,并对
所述地址表述数据进行标注,得到模型训练数据;
[0016]根据所述模型训练数据和预设的神经网络,训练得到地址抽取模型。
[0017]可选的,在本专利技术第一方面的第二种实现方式中,所述根据所述模型训练数据和预设的神经网络,训练得到地址抽取模型包括:
[0018]将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量;
[0019]将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入,得到所述模型训练数据的隐输出序列;
[0020]将所述隐输出序列输入至所述神经网络中的条件随机场层,预测所述模型训练数据中个字符的标注,并与所述模型训练数据原有的标注进行比对和迭代,得到最终预训练的地址抽取模型。
[0021]可选的,在本专利技术第一方面的第三种实现方式中,所述将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量包括:
[0022]将所述模型训练数据中的每个字符转化独热码向量;
[0023]将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的字向量。
[0024]可选的,在本专利技术第一方面的第四种实现方式中,所述将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入,得到所述模型训练数据的隐输出序列包括:
[0025]将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入得到正向循环神经网络输出的隐状态序列和反向循环神经网络输出的隐状态序列;
[0026]将所述正向循环神经网络输出的隐状态序列和所述反向循环神经网络输出的隐状态序列进行拼接,得到完整的隐输出序列。
[0027]可选的,在本专利技术第一方面的第五种实现方式中,所述将所述口语文本中连续相同的标注类型为地址标注的字符进行拼接,得到至少一段备用地址片段包括:
[0028]建立初始为空的字符缓存区,按照所述口语文本的字符顺序处理所述口语文本中的每个字符;
[0029]将所述口语文本的第一字符存入所述字符缓存区,并确定所述第一字符的标注类型;
[0030]判断所述第一字符的标注类型与第二字符的标注类型是否相同;
[0031]若相同,则将所述第二字符存入所述字符缓存区;
[0032]若不相同,则将所述第一字符输出,并清空所述字符缓存区,并进行下一字符的处理;
[0033]将所述字符缓存区输出的相同且标注类型为地址标注的字符拼接,得到备用地址片段。
[0034]可选的,在本专利技术第一方面的第六种实现方式中,其特征在于,在所述获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本之后,还包括:
[0035]对所述口语文本进行分词处理,得到所述口语文本的每个字符;
[0036]将所述口语文本的每个字符中符合预设停用词库的字符删除。
[0037]本专利技术第二方面提供了一种地址信息抽取装置,包括:
[0038]语音获取模块,获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本;
[0039]模型输入模块,用于将所述口语文本输入至预设的地址抽取模型中,通过所述地址抽取模型对所述口语文本中的每个字符进行标注,得到所述口语文本中的每个字符的标注类型,其中所述标注类型包括地址标注和非地址标注;
[0040]字符拼接模块,用于将所述口语文本中连续相同的标注类型为地址标注的字符进行拼接,得到至少一段备用地址片段;
[0041]输出模块,用于当所述备用地址片段的数量等于一,则将所述备用地址片段作为标准地址片段输出;
[0042]判断模块,用于当所述备用地址片段的数量大于一时,判断相邻的备用地址片段之间的字符距离是否小于预设字符阈值;
[0043]片段连接模块,用于当相邻的备用地址片段之间的字符距离小于预设字符阈值,则将相邻的备用地址片段进行连接,得到标准地址片段;
[0044]片段提取模块,用于当相邻的备用地址片段之间的字符距离不小于预设字符阈值则将所有所述备用地址片段提取出来,作为标准地址片段。
[0045]可选的,在本专利技术第二方面的第一种实现方式中,所述地址抽取装置还包括模型训练模块,所述模型训练模块包括:
[0046]数据爬取单元,用于利用网页爬虫工具从预设的数据源中爬取原始地址数据;
[0047]标注单元,用于从所述原本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址信息抽取方法,其特征在于,所述地址信息抽取方法包括:获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本;将所述口语文本输入至预设的地址抽取模型中,通过所述地址抽取模型对所述口语文本中的每个字符进行标注,得到所述口语文本中的每个字符的标注类型,其中所述标注类型包括地址标注和非地址标注;将所述口语文本中连续相同的标注类型为地址标注的字符进行拼接,得到至少一段备用地址片段;若所述备用地址片段的数量等于一,则将所述备用地址片段作为标准地址片段输出;若所述备用地址片段的数量大于一,则判断相邻的备用地址片段之间的字符距离是否小于预设字符阈值;若是,则将相邻的备用地址片段进行连接,得到标准地址片段;若否,则将所有所述备用地址片段提取出来,作为标准地址片段。2.根据权利要求1所述的地址信息抽取方法,其特征在于,在所述获取业务过程中的用户的语音数据,并对所述语音数据进行语音识别,得到口语文本之前,还包括:利用网页爬虫工具从预设的数据源中爬取原始地址数据;从所述原始地址数据中筛选出字符长度为预设长度区间内的地址表述数据,并对所述地址表述数据进行标注,得到模型训练数据;根据所述模型训练数据和预设的神经网络,训练得到地址抽取模型。3.根据权利要求2所述的地址信息抽取方法,其特征在于,所述根据所述模型训练数据和预设的神经网络,训练得到地址抽取模型包括:将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量;将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入,得到所述模型训练数据的隐输出序列;将所述隐输出序列输入至所述神经网络中的条件随机场层,预测所述模型训练数据中个字符的标注,并与所述模型训练数据原有的标注进行比对和迭代,得到最终预训练的地址抽取模型。4.根据权利要求3所述的地址信息抽取方法,其特征在于,所述将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量包括:将所述模型训练数据中的每个字符转化独热码向量;将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的字向量。5.根据权利要求4所述的地址信息抽取方法,其特征在于,所述将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入,得到所述模型训练数据的隐输出序列包括:将所述字向量输入作为所述神经网络中的循环神经网络层各个时间步的输入得到正向循环神经网络输出的隐状态序列和反向循环神经网络输出的隐状态序列;将所述正向循环神经网络输出的隐状态序列和所述反向循环神经网络输出的隐状态序列进行拼接,得到完整的隐输出序列。
6.根据权利要...

【专利技术属性】
技术研发人员:赵焕丽徐国强
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1