一种地址字符串的分词方法及装置制造方法及图纸

技术编号:27099329 阅读:36 留言:0更新日期:2021-01-25 18:41
本申请公开了一种地址字符串的分词方法及装置,根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测;使用平滑优化算法提升状态预测的准确率;将概率最大的状态预测的结果转换为具体的地址信息。本申请以HMM模型作为基础,将长地址字符串视为一个观测序列,通过学习基础地址库中的状态转移规律,得出一个适用于中文地址分词标注的模型,并采用了平滑优化算法提升预测的准确率,计算结果可以得出该地址的状态序列,将概率最大的结果作为最终的地址分词方案,降低了人力时间成本,提升了效率。该方法不仅适用于电信领域的智能客服系统,还适用于其他具有地址分词相似场景的垂直领域。词相似场景的垂直领域。词相似场景的垂直领域。

【技术实现步骤摘要】
一种地址字符串的分词方法及装置


[0001]本申请属于字符串处理
,设计一种地址字符串的分词方法及装置。

技术介绍

[0002]在智能客服系统中,经常遇到需要获取用户地址的场景,此时需要快速准确地获取到用户的地址字符串中的有效信息,从而转换成真实定位和具体地址信息。通常的地址字符串包含了国家、省、市、区(县),街道、道路名称、建筑物名称、单元楼、门牌号等信息。
[0003]但是,由于地址字符串没有固定的格式,使用传统的分词工具不能快速准确地进行分词,尤其是在处理长地址字符串时,往往需要耗费大量时间与人力成本进行人工填写,效率很低。

技术实现思路

[0004]针对上述问题,本专利技术提供一种地址字符串的分词方法及装置,来对地址字符串进行分词处理,以快速准确地获取地址字符串中的有效信息。
[0005]基于上述目的,本申请提供的技术方案如下:一种地址字符串的分词方法,包括以下步骤:根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测;使用平滑优化算法提升所述状态预测的准确率;将概率最大的所述状态预测的结果转换为具体的地址信息。
[0006]优选地,所述根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测,包括:将所述基础地址库的数据作为训练数据,对所述地址字符串,使用所述隐马尔可夫模型HMM统计隐状态到隐状态的转移概率,得出状态转移矩阵,并统计隐状态到观测状态的概率,得出状态发射矩阵。
[0007]优选地,所述使用平滑优化算法提升所述状态预测的准确率,包括:使用绝对平滑算法对所述状态转移矩阵进行平滑优化,为概率为0的状态转移事件赋值。
[0008]优选地,所述将概率最大的所述状态预测的结果转换为具体的地址信息,包括:使用维特比算法计算概率最大的状态路径,得出所述地址字符串的最终预测状态序列,作为所述状态预测的结果;将所述最终预测状态序列转换为具体地址信息。一种地址字符串的分词装置,包括:预测模块,用于根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测;优化模块,用于使用平滑优化算法提升所述状态预测的准确率;转换模块,用于将概率最大的所述状态预测的结果转换为具体的地址信息。
[0009]优选地,所述预测模块,具体用于:将所述基础地址库的数据作为训练数据,对所述地址字符串,使用所述隐马尔可夫模型HMM统计隐状态到隐状态的转移概率,得出状态转移矩阵,并统计隐状态到观测状态的概率,得出状态发射矩阵。
[0010]优选地,所述优化模块,具体用于:使用绝对平滑算法对所述状态转移矩阵进行平滑优化,为概率为0的状态转移事件赋值。
[0011]优选地,所述转换模块,具体用于:使用维特比算法计算概率最大的状态路径,得出所述地址字符串的最终预测状态序列,作为所述状态预测的结果;将所述最终预测状态序列转换为具体地址信息。
[0012]应用上述本申请提供的一种地址字符串的分词方法及装置,根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测;使用平滑优化算法提升所述状态预测的准确率;将概率最大的所述状态预测的结果转换为具体的地址信息。本申请以HMM模型作为基础,将长地址字符串视为一个观测序列,通过学习基础地址库中的状态转移规律,得出一个适用于中文地址分词标注的模型,并采用了平滑优化算法提升预测的准确率,计算结果可以得出该地址的状态序列,将概率最大的结果作为最终的地址分词方案。解决了在面对长地址字符串的场景下,存在的传统人工识别,录入地址的低效问题,降低了人力时间成本,提升了效率。该方法不仅适用于电信领域的智能客服系统,还适用于其他具有地址分词相似场景的垂直领域。
附图说明
[0013]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本申请提供的一种地址字符串的分词方法的流程示意图;图2为本申请提供的隐马尔可夫模型HMM的示意图;图3为本申请提供的一种地址字符串的分词方法的具体计算流程图;图4为本申请提供的维特比算法的示意图;图5为本申请提供的一种地址字符串的分词装置的结构示意图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]下面,将通过具体实施例对本申请的方案做具体阐述:图1为本申请提供的一种地址字符串的分词方法的流程示意图。
[0017]请参照图1所示,本申请实施例提供的一种地址字符串的分词方法,包括:S100:根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测;图2为本申请提供的隐马尔可夫模型HMM的示意图;隐马尔可夫模型(Hidden Markov Model,后文简称HMM)是基于统计学的模型,用来描述一个含有隐含未知参数的马尔科夫过程,其目的是从可观察的序列结果来推断隐含的参数,然后根据这些隐含参数确定的模型对数据进一步分析。使用马尔可夫模型一般需要满足一点假设,即马尔科夫过程的条件概率仅取决于系统的当前状态和上一个状态,而与它的历史或未来的状态是相互独立的,该假设可以被描述为:使用HMM模型可以有效解决从可观测序列推断隐含状态的问题。
[0018]本申请实施例中,所述根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测,具体可以包括:将所述基础地址库的数据作为训练数据,对所述地址字符串,使用所述隐马尔可夫模型HMM统计隐状态到隐状态的转移概率,得出状态转移矩阵Transition Matrix,并统计隐状态到观测状态的概率,得出状态发射矩阵Emission Matrix。
[0019]图3为本申请提供的一种地址字符串的分词方法的具体计算流程图;在数据处理时,本申请可以使用基础地址库的地址数据作为训练数据,统计状态转移概率,生成一个m
×
m的状态转移矩阵,如表1所示,其中代表状态的下一个状态是的概率,除了包括国家、省市名称之外还包括[START]、[END]、[UNK]等特殊标志符。同时生成一个m x n的状态发射概率矩阵,如表2所示,其中代表状态的观测值是的概率。
[0020]对于输入地址字符串,需要做预分词,例如:输入:“中国江苏省南京市雨花台区尤家凹08号(软件大道西)1号楼5楼”分词后:[“<START>”,“中国”,“江苏”,
ꢀ“
省”,“南京”,“市”,“雨花台”,“区”,
ꢀ“
尤家凹”,“08”,“号”,“(”,“软件”,“大道”,“西”,“)”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址字符串的分词方法,其特征在于,包括以下步骤:根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测;所述根据基础地址库的数据,使用隐马尔可夫模型HMM对地址字符串进行状态预测,包括:将所述基础地址库的数据作为训练数据,对所述地址字符串,使用所述隐马尔可夫模型HMM统计隐状态到隐状态的转移概率,得出状态转移矩阵,并统计隐状态到观测状态的概率,得出状态发射矩阵;使用平滑优化算法提升所述状态预测的准确率;所述使用平滑优化算法提升所述状态预测的准确率,包括:使用绝对平滑算法对所述状态转移矩阵进行平滑优化,为概率为0的状态转移事件赋值;将概率最大的所述状态预测的结果转换为具体的地址信息。2.根据权利要求1所述的方法,其特征在于,所述将概率最大的所述状态预测的结果转换为具体的地址信息,包括:使用维特比算法计算概率最大的状态路径,得出所述地址字符串的最终预测状态序列,作为所述状态预测的结果;将所...

【专利技术属性】
技术研发人员:侯建黄峰费春勇
申请(专利权)人:中博信息技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利