System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种地址信息提取方法、装置、设备及终端设备制造方法及图纸_技高网

一种地址信息提取方法、装置、设备及终端设备制造方法及图纸

技术编号:39944259 阅读:7 留言:0更新日期:2024-01-08 22:48
本发明专利技术提供了一种地址信息提取方法、装置、设备及终端设备。其中,该方法包括:获取对话文本数据;根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体;根据所述多个不同级别的第一地址实体,得到对话中的完整地址信息。采用该方法,通过训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到对话文本数据中的多个不同级别的第一地址实体,并将第一地址实体进行拼接,得到对话中完整的地址信息,可以提高在对话文本中识别地址信息的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其是指一种地址信息提取方法、装置、设备及终端设备


技术介绍

1、目前随着人工智能和自然语言处理技术的不断突破,客户服务对话近年来已经成为消费者售后系统的支柱。从客户服务新系统对话中获取地理位置信息是至关重要的任务,该任务随后将广泛应用于基于位置的信息服务中。例如面向消费者的业务,如银行、通信运营商和电子商务,可能需要创建售后服务单以便售后工作人员上门进行安装、维修或者取件的服务。再例如,其他基于位置的服务需要这些地址信息来进行针对性的广告宣传、兴趣点(points of interest,pois)建议。具体地,在家装宽带、基站信号投诉等装维服务中,往往需要线通过电话询问客户的具体完整标准的地址信息,大量的业务往往同时需要将完整标准的地址信息进行细粒度分析,并映射到标准地址库中,比如11级标准地址库。通过自然语言处理的方法从大量语音转录文本中自动提取客户的完整的地址信息,对于提升客户服务效率至关重要。同时,自动从大量的对话中提取地址信息,对故障多发地进行有效的数据分析,对判断事故原因乃至未来基站选取都起到了十分重要的作用。

2、但是,从对话文本中提取地址信息是具有挑战性的,一个完整的地址由多级细粒度的地址实体拼接而成,但是目前的地址提取方法,需要通过大量的先验知识和专家知识,进行对话场景下地址实体的抽取,导致需要对完整的地址库进行搜索,消耗大量的计算时间和内存,并且识别到的地址信息不准确。


技术实现思路

1、本专利技术技术方案的目的在于提供一种地址信息提取方法、装置、设备及终端设备,用于提高在对话文本中识别地址信息的效率和准确性。

2、本专利技术实施例提供一种地址信息提取方法,包括:

3、获取对话文本数据;

4、根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体;

5、根据所述多个不同级别的第一地址实体,得到对话中的完整地址信息。

6、可选地,所述根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体,包括:

7、根据所述细粒度地址实体识别模型,预测所述第一地址实体在所述对话文本数据中的实体位置;

8、根据所述实体位置和所述细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体。

9、可选地,所述根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体之前,所述方法还包括:

10、根据预设的地址信息和对话文本候选集合,构建训练对话文本数据;

11、基于所述预设的地址信息和所述训练对话文本数据,根据知识蒸馏机制进行训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别模型。

12、可选地,所述根据预设的地址信息和对话文本候选集合,构建训练对话文本数据,包括:

13、将所述预设的地址信息划分为不同级别的第二地址实体;

14、确定所述对话文本候选集合包含目标级别的地址实体的第一对话语句;所述目标级别为所述不同级别中的至少一个级别;

15、将所述第一对话语句中的所述目标级别的地址实体替换为对应级别的第二地址实体,得到第二对话语句;

16、根据所述第二对话语句,得到所述训练对话文本数据。

17、可选地,所述根据所述第二对话语句,得到所述训练对话文本数据,包括:

18、对所述第二对话语句进行对话数据增强处理,得到第三对话语句;

19、将所述第三对话语句中的第二地址实体进行细粒度标注,得到所述训练对话文本数据。

20、可选地,所述基于所述预设的地址信息和所述训练对话文本数据,根据知识蒸馏机制进行训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别模型,包括:

21、将所述预设的地址信息输入知识蒸馏框架中的教师模型对所述教师模型进行预训练,得到预训练后的教师模型;所述预设的地址信息包括与所述预设的地址信息中的每个字符对应的细粒度标注标签;

22、获取所述预训练后的教师模型输出的细粒度地址实体;

23、根据所述细粒度地址实体、所述训练对话文本数据和所述预训练后的教师模型,对知识蒸馏框架中的学生模型进行蒸馏训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别模型。

24、可选地,所述根据所述细粒度地址实体、所述训练对话文本数据和所述预训练后的教师模型,对知识蒸馏框架中的学生模型进行蒸馏训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别模型,包括:

25、将所述训练对话文本数据中的第二地址实体输入所述预训练后的教师模型,得到所述预训练后的教师模型输出的软标签概率;

26、将所述训练对话文本数据输入所述学生模型,得到所述学生模型根据所述细粒度地址实体输出的地址实体计算概率;

27、根据所述软标签概率和所述地址实体计算概率,得到蒸馏损失函数;

28、根据所述蒸馏损失函数和所述学生模型的条件随机场损失函数,得到所述学生模型的目标损失函数;

29、在所述目标损失函数小于预设阈值的情况下,停止训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别模型。

30、可选地,所述根据所述多个不同级别的第一地址实体,得到对话中的完整地址信息,包括:

31、将每一级别的第一地址实体进行查重合并处理,得到处理后的第一地址实体;

32、将不同级别的处理后的第一地址实体进行组合,得到所述对话中的完整地址信息。

33、本专利技术实施例还提供一种地址信息提取设备,包括收发机和处理器:

34、所述处理器用于,获取对话文本数据;根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体;以及,根据所述多个不同级别的第一地址实体,得到对话中的完整地址信息。

35、本专利技术实施例还提供一种地址信息提取装置,包括:

36、数据获取模块,用于获取对话文本数据;

37、第一处理模块,用于根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体;

38、第二处理模块,用于根据所述多个不同级别的第一地址实体,得到对话中的完整地址信息。

39、本专利技术实施例还提供一种终端设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上中任一项所述的地址信息提取方法。

40、本专利技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上中任一项所述的地址信息提取方法中的步骤。

41、本专利技术上述技术方案中的至少一个具有以下有益效本文档来自技高网...

【技术保护点】

1.一种地址信息提取方法,其特征在于,包括:

2.根据权利要求1所述的地址信息提取方法,其特征在于,所述根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体,包括:

3.根据权利要求1所述的地址信息提取方法,其特征在于,所述根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体之前,所述方法还包括:

4.根据权利要求3所述的地址信息提取方法,其特征在于,所述根据预设的地址信息和对话文本候选集合,构建训练对话文本数据,包括:

5.根据权利要求4所述的地址信息提取方法,其特征在于,所述根据所述第二对话语句,得到所述训练对话文本数据,包括:

6.根据权利要求3所述的地址信息提取方法,其特征在于,所述基于所述预设的地址信息和所述训练对话文本数据,根据知识蒸馏机制进行训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别模型,包括:

7.根据权利要求6所述的地址信息提取方法,其特征在于,所述根据所述细粒度地址实体、所述训练对话文本数据和所述预训练后的教师模型,对知识蒸馏框架中的学生模型进行蒸馏训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别模型,包括:

8.根据权利要求1所述的地址信息提取方法,其特征在于,所述根据所述多个不同级别的第一地址实体,得到对话中的完整地址信息,包括:

9.一种地址信息提取设备,包括收发机和处理器,其特征在于:

10.一种地址信息提取装置,其特征在于,包括:

11.一种终端设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至8中任一项所述的地址信息提取方法。

12.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至8中任一项所述的地址信息提取方法中的步骤。

...

【技术特征摘要】

1.一种地址信息提取方法,其特征在于,包括:

2.根据权利要求1所述的地址信息提取方法,其特征在于,所述根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体,包括:

3.根据权利要求1所述的地址信息提取方法,其特征在于,所述根据训练完成的、基于知识蒸馏的细粒度地址实体识别模型,得到所述对话文本数据中的多个不同级别的第一地址实体之前,所述方法还包括:

4.根据权利要求3所述的地址信息提取方法,其特征在于,所述根据预设的地址信息和对话文本候选集合,构建训练对话文本数据,包括:

5.根据权利要求4所述的地址信息提取方法,其特征在于,所述根据所述第二对话语句,得到所述训练对话文本数据,包括:

6.根据权利要求3所述的地址信息提取方法,其特征在于,所述基于所述预设的地址信息和所述训练对话文本数据,根据知识蒸馏机制进行训练,得到所述训练完成的、基于知识蒸馏的细粒度地址实体识别...

【专利技术属性】
技术研发人员:韩雪王一童王伊婷谢华
申请(专利权)人:中国移动通信有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1