地址解析方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:21090108 阅读:27 留言:0更新日期:2019-05-11 10:09
本公开提供了一种地址解析方法,包括:对获得的语料进行分词处理,以得到作为分词语料的词;根据地址划分方式对每个词分别标注一个语义槽;对每个词进行特征提取处理,包括通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及根据处理后的分词语料进行训练以得到地址解析模型。本公开还提供了一种地址解析装置、及计算机设备及计算机可读存储介质。

Address Resolution Method, Device, Computer Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
地址解析方法、装置、计算机设备及计算机可读存储介质
本公开涉及一种地址解析方法、地址解析装置、及计算机设备及计算机可读存储介质。
技术介绍
任务型人机对话系统已经被成功应用到多种类型的设备,例如:手机(如:出门问问手机App)、音箱(如:出门问问TicHome智能音箱)、电视(如:微鲸电视)和可穿戴设备(如:出门问问TicPodsFree智能耳机)等。其通常包括一个或多个垂直领域,垂直领域表示自然语言文本所属领域,例如音乐领域、导航领域、天气领域等等。目前的任务型人机对话系统中,导航/餐馆/酒店等垂直领域都是通过调用API(ApplicationProgrammingInterface,应用程序编程接口)的方式进行查询,调用API仅填充粗粒度的地址语义槽时,例如海淀区新中关大厦7层、新中关大街和海淀大街交叉口、上海市浦东区、苏州街3号等,会导致API查询结果不精确,因此如何使得查询结果更加准确为需要解决的技术问题。并且现有技术中对每个垂直领域都有相应的训练语料用于训练垂直领域分类模型,这样会导致系统维护成本提高并且使得训练数据收集成本提高。
技术实现思路
为了解决上述技术问题中的至少一个,本公开提供了一种地址解析方法、地址解析装置、及计算机设备及计算机可读存储介质。根据本公开的一个方面,一种地址解析方法,包括:对获得的语料进行分词处理,以得到作为分词语料的词;根据地址划分方式对每个词分别标注一个语义槽;对每个词进行特征提取处理,包括通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及根据处理后的分词语料进行训练以得到地址解析模型。根据本公开的至少一个实施方式,该方法还包括:在对每个词进行特征提取处理后,对所得到的数据进行格式转换,以便根据处理后的分词语料进行训练。根据本公开的至少一个实施方式,该方法还包括:对自然语音文本进行自然语言理解;当自然理解结果中存在地址相关语义槽时,对所述地址相关语义槽的文本进行分词处理;对分词后的每个词通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及利用所述地址解析模型进行地址解析。根据本公开的至少一个实施方式,对自然语音文本进行自然语言理解时,得到自然语言文本所属的垂直领域及语义槽;以及所述方法还包括,在利用地址解析模型进行地址解析之后,根据地址解析结果,在对应的所述垂直领域中进行后续处理。根据本公开的至少一个实施方式,所述地址划方式中,对县级市或市辖区地址层级下的每个层级的地址均配置语义槽。根据本公开的至少一个实施方式,县级市或市辖区地址层级下的地址,对于城市地址,为商圈、道路、建筑号、地点名称及详细地址分别配置语义槽,而对于农村地址,为乡镇、农村及详细地址分别配置语义槽。根据本公开的至少一个实施方式,对不属于地址划分方式中的语义槽的词进行单独配置。根据本公开的另一方面,一种地址解析装置,包括:分词模块,对获得的语料进行分词处理,以得到作为分词语料的词;标注模块,根据地址划分方式对每个词分别标注一个语义槽;提取模块,对每个词进行特征提取处理,包括通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及训练模块,根据处理后的分词语料进行训练以得到地址解析模型。根据本公开的再一方面,一种计算机设备,包括:存储器,所述存储器存储计算机执行指令;以及处理器,所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行上述的地址解析方法。根据本公开的又一实施方式,计算机可读存储介质,其中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述任一项所述的地址解析方法。附图说明附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1是根据本公开的一个实施方式的地址解析模型生成方法的示意性流程图。图2是根据本公开的一个实施方式的分词方式的示意性视图。图3是根据本公开的一个实施方式的对话系统的细粒度地址划分方式的示意性视图。图4是根据本公开的一个实施方式的细粒度地址划分协议的地址层级关系。图5是根据本公开的一个实施方式的细粒度地址划分协议的地址层级关系的示意性视图。图6是根据本公开的一个实施方式的命名实体识别及词性标签标注的示意性视图。图7是根据本公开的一个实施方式的地址解析模型生成方法的示意性流程图。图8是根据本公开的一个实施方式的格式转换而得到的数据格式的示意图。图9是根据本公开的一个实施方式的地址解析方法的示意性流程图。图10是根据本公开的一个实施方式的可复用的地址解析方法的示意性流程图。图11是根据本公开的一个实施方式的可复用的地址解析方法的示例图。图12是根据本公开的一个实施方式的地址解析模型生成装置的示意性框图。图13是根据本公开的一个实施方式的地址解析装置的示意性框图。图14是根据本公开的一个实施方式的可复用的地址解析装置的示意性框图。图15是根据本公开的一个实施方式的计算机设备的示意图。具体实施方式下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。诸如任务型的人机对话系统的对话系统可以包括语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块及语音合成模块等。自然语言理解模块可以用于对语音识别模块输出的自然语言文本进行语义解析,将非结构化的自然语言文本解析为符合自然语言理解协议的结构化知识。自然语言理解协议可以包括垂直领域,领域意图,语义槽三类信息。对话系统可以包括一个或多个垂直领域,垂直领域表示自然语言文本所属领域,例如:自然语言文本“播放周杰伦的七里香”属于音乐领域、自然语言文本“查看明天北京的天气”属于天气领域、自然语言文本“导航去天安门”属于导航领域。每个垂直领域都有相应的训练语料用于训练垂直领域分类模型。一个垂直领域可以包括一个或多个领域意图,领域意图表示在垂直领域内,自然语言文本的具体意图,例如,在天气领域中,自然语言文本“明天北京下雨吗”属于询问是否下雨的意图、自然语言文本“今天空气质量好不好”属于询问空气质量的意图、自然语言文本“北京刮风呢吗”属于询问是否有风的意图。一个垂直领域包含一个或多个语义槽,语义槽表示在垂直领域内,自然语言文本限定的具体条件,例如,在天气领域中,一般包括“时间”和“地点”两种语义槽,自然语言文本“明天北京下雨吗”限定了“时间”条件为“明天”以及“地点”条件为“北京”、自然语言文本“今天空气质量好不好”限定了“时间”条件为“今天”、自然语言文本“北京刮风呢吗”限定了“地点”条件为“北京”。很多垂直领域都包含地址相关语义槽,例如导航垂直领域,餐馆垂直领域,酒店垂直领域等,例如:在导航垂直领域中,“导航去[海淀区中关村大街9号location]”包含语义槽[海淀区中关村大街9号location];在餐馆垂直领域,“找一下[新中关大街和海淀大街交叉口location]的餐馆”包含本文档来自技高网...

【技术保护点】
1.一种地址解析方法,其特征在于,包括:对获得的语料进行分词处理,以得到作为分词语料的词;根据地址划分方式对每个词分别标注一个语义槽;对每个词进行特征提取处理,包括通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及根据处理后的分词语料进行训练以得到地址解析模型。

【技术特征摘要】
1.一种地址解析方法,其特征在于,包括:对获得的语料进行分词处理,以得到作为分词语料的词;根据地址划分方式对每个词分别标注一个语义槽;对每个词进行特征提取处理,包括通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及根据处理后的分词语料进行训练以得到地址解析模型。2.如权利要求1所述的方法,其特征在于,还包括:在对每个词进行特征提取处理后,对所得到的数据进行格式转换,以便根据处理后的分词语料进行训练。3.如权利要求1或2所述的方法,其特征在于,还包括:对自然语音文本进行自然语言理解;当自然理解结果中存在地址相关语义槽时,对所述地址相关语义槽的文本进行分词处理;对分词后的每个词通过命名实体识别提取命名实体特征及通过词性标注提取词性标签特征;以及利用所述地址解析模型进行地址解析。4.如权利要求3所述的方法,其特征在于,对自然语音文本进行自然语言理解时,得到自然语言文本所属的垂直领域及语义槽;以及所述方法还包括,在利用地址解析模型进行地址解析之后,根据地址解析结果,在对应的所述垂直领域中进行后续处理。5.如权利要求1至4中任一项所述的方法,其特征在于,所述地址划方式中,对县级市或市辖区地址层...

【专利技术属性】
技术研发人员:张贺
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1