一种分词方法和装置制造方法及图纸

技术编号:25915829 阅读:32 留言:0更新日期:2020-10-13 10:34
本发明专利技术公开了一种分词方法和装置,涉及仓储物流技术领域。该方法的一具体实施方式包括:获取待分词地址信息;根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;根据所述待匹配词与词属性信息确定所述地址信息的分词结果。该实施方式能够基于已有省市构建的可靠的标准地址名称词库进行初步识别,再基于特征字词库和训练好的规则模型进行二次识别,并且还可以根据分词结果对特征字词库进行更新。不仅识别快速准确,还提高了可扩展性。

【技术实现步骤摘要】
一种分词方法和装置
本专利技术涉及仓储物流领域,尤其涉及一种分词方法和装置。
技术介绍
目前,地理信息技术在购物营销、智能出行、物流配送等场景中的应用越来越广泛,而中文分词技术起到了关键性作用,如:在物流配送中,准确的识别用户收货地址,便于配送员高效的配送。目前中文分词主要包括两类:基于字符串匹配和基于规则的匹配方法。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:现有分词方法都有其缺陷:1)基于字符串匹配的方法对词库依赖很大,实际中总有新地址出现,词库不可能覆盖全面、包含所有的字符串;同时,当词库数据量过大后,查询比较的效率低下;再者,实际地址由用户自行填写,存在错别字、缩略语等,标准词库中并不存在,会导致匹配失败;2)基于规则的匹配方法较为理想和严格,完全依赖于规则,而实际地址由用户自行填写,完全根据自己的认知描述,存在地址不完整、格式不规范等问题,导致基于规则匹配会出现部分地址无法识别的情况。
技术实现思路
有鉴于此,本专利技术实施例提供一种分词方法和装置,能够基于已有省市构建的可靠的标准地址名称词库进行初步识别,再基于特征字词库和训练好的规则模型进行二次识别,并且还可以根据分词结果对特征字词库进行更新。不仅识别快速准确,还提高了可扩展性。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种分词方法,包括:获取待分词地址信息;根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;根据所述待匹配词与词属性信息确定所述地址信息的分词结果。可选地,所述预设的词库表包括:地址名称词库,特征字词库;根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息,包括:根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息;根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息;以第一待匹配词、第一待匹配词的词属性信息、第二待匹配词、第二待匹配词的词属性信息共同作为所述待分词地址中的待匹配词以及所述待匹配词的词属性信息。可选地,根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息,包括:将所述地址名称词库中的词内容信息,与所述待分词地址信息相匹配,以匹配成功的字符串作为第一待匹配词;在所述地址名称词库的中查找与第一待匹配词相对应的词属性信息,作为第一待匹配词的词属性信息。可选地,根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息,包括:将所述特征字词库中的词内容信息,与待分词地址信息中除去第一待匹配词后的剩余信息相匹配,以匹配成功的字符串作为中间待匹配词;根据训练好的分词规则模型,将中间待匹配词进行合并标记,确定第二待匹配词,以及第二待匹配词的词属性信息。可选地,在确定分词结果信息之后,还包括:根据所述分词结果信息确定所述待分词地址信息中的关键地址词;基于地图信息,确定所述关键地址词的准确度;将所述准确度不小于预设阈值的关键地址词更新到所述地址名称词库中。根据本专利技术实施例的再一个方面,提供了一种分词装置,包括:获取模块,用于获取待分词地址信息;识别模块,用于根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;确定模块,用于根据所述待匹配词与词属性信息确定所述地址信息的分词结果。可选地,所述预设的词库表包括:地址名称词库,特征字词库;所述识别模块根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息,包括:根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息;根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息;以第一待匹配词、第一待匹配词的词属性信息、第二待匹配词、第二待匹配词的词属性信息共同作为所述待分词地址中的待匹配词以及所述待匹配词的词属性信息。可选地,所述识别模块根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息,包括:将所述地址名称词库中的词内容信息,与所述待分词地址信息相匹配,以匹配成功的字符串作为第一待匹配词;在所述地址名称词库的中查找与第一待匹配词相对应的词属性信息,作为第一待匹配词的词属性信息。可选地,所述识别模块根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息,包括:将所述特征字词库中的词内容信息,与待分词地址信息中除去第一待匹配词后的剩余信息相匹配,以匹配成功的字符串作为中间待匹配词;根据训练好的分词规则模型,将中间待匹配词进行合并标记,确定第二待匹配词,以及第二待匹配词的词属性信息。可选地,所述确定模块在确定分词结果信息之后,还包括:根据所述分词结果信息确定所述待分词地址信息中的关键地址词;基于地图信息,确定所述关键地址词的准确度;将所述准确度不小于预设阈值的关键地址词更新到所述地址名称词库中。根据本专利技术实施例的另一个方面,提供了一种分词的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术提供的分词方法。根据本专利技术实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术提供的分词方法。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用基于已有省市构建的可靠的标准地址名称词库进行初步识别,再基于特征字词库和训练好的规则模型进行二次识别,并且还可以根据分词结果对特征字词库进行更新的技术手段,所以克服了现有分词技术中存在的效率低下、容易分词失败、且不易扩展的技术问题,进而达到不仅识别快速准确、还提高了可扩展性的技术效果。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的一种分词方法的主要流程的示意图;图2是根据本专利技术实施例的本文档来自技高网...

【技术保护点】
1.一种分词方法,其特征在于,包括:/n获取待分词地址信息;/n根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;/n根据所述待匹配词与词属性信息确定所述地址信息的分词结果。/n

【技术特征摘要】
1.一种分词方法,其特征在于,包括:
获取待分词地址信息;
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库表包括词内容信息、与词内容信息相对应的词属性信息;
根据所述待匹配词与词属性信息确定所述地址信息的分词结果。


2.根据权利要求1所述的方法,其特征在于,所述预设的词库表包括:地址名称词库,特征字词库;
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息,包括:
根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息;
根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息;
以第一待匹配词、第一待匹配词的词属性信息、第二待匹配词、第二待匹配词的词属性信息共同作为所述待分词地址中的待匹配词以及所述待匹配词的词属性信息。


3.根据权利要求2所述的方法,其特征在于,根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息,包括:
将所述地址名称词库中的词内容信息,与所述待分词地址信息相匹配,以匹配成功的字符串作为第一待匹配词;
在所述地址名称词库的中查找与第一待匹配词相对应的词属性信息,作为第一待匹配词的词属性信息。


4.根据权利要求2所述的方法,其特征在于,根据所述特征字词库和训练好的分词规则模型,确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息,包括:
将所述特征字词库中的词内容信息,与待分词地址信息中除去第一待匹配词后的剩余信息相匹配,以匹配成功的字符串作为中间待匹配词;
根据训练好的分词规则模型,将中间待匹配词进行合并标记,确定第二待匹配词,以及第二待匹配词的词属性信息。


5.根据权利要求2所述的方法,其特征在于,在确定分词结果信息之后,还包括:
根据所述分词结果信息确定所述待分词地址信息中的关键地址词;
基于地图信息,确定所述关键地址词的准确度;
将所述准确度不小于预设阈值的关键地址词更新到所述地址名称词库中。


6.一种分词装置,其特征在于,包括:
获取模块,用于获取待分词地址信息;
识别模块,用于根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别,确定待分词地址中的待匹配词以及所述待匹配词的词属性信息;所述词库...

【专利技术属性】
技术研发人员:吴泳彤张启祥李尊敬张恩科刘建家程少华李洋侯磊
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1