一种分词方法和装置制造方法及图纸

技术编号：25915829 阅读：32 留言：0更新日期：2020-10-13 10:34

本发明专利技术公开了一种分词方法和装置，涉及仓储物流技术领域。该方法的一具体实施方式包括：获取待分词地址信息；根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别，确定待分词地址中的待匹配词以及所述待匹配词的词属性信息；所述词库表包括词内容信息、与词内容信息相对应的词属性信息；根据所述待匹配词与词属性信息确定所述地址信息的分词结果。该实施方式能够基于已有省市构建的可靠的标准地址名称词库进行初步识别，再基于特征字词库和训练好的规则模型进行二次识别，并且还可以根据分词结果对特征字词库进行更新。不仅识别快速准确，还提高了可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】
一种分词方法和装置
本专利技术涉及仓储物流领域，尤其涉及一种分词方法和装置。
技术介绍
目前，地理信息技术在购物营销、智能出行、物流配送等场景中的应用越来越广泛，而中文分词技术起到了关键性作用，如：在物流配送中，准确的识别用户收货地址，便于配送员高效的配送。目前中文分词主要包括两类：基于字符串匹配和基于规则的匹配方法。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：现有分词方法都有其缺陷：1)基于字符串匹配的方法对词库依赖很大，实际中总有新地址出现，词库不可能覆盖全面、包含所有的字符串；同时，当词库数据量过大后，查询比较的效率低下；再者，实际地址由用户自行填写，存在错别字、缩略语等，标准词库中并不存在，会导致匹配失败；2)基于规则的匹配方法较为理想和严格，完全依赖于规则，而实际地址由用户自行填写，完全根据自己的认知描述，存在地址不完整、格式不规范等问题，导致基于规则匹配会出现部分地址无法识别的情况。
技术实现思路
有鉴于此，本专利技术实施例提供一种分词方法和装置，能够基于已有省市构建的可靠的标准地址名称词库进行初步识别，再基于特征字词库和训练好的规则模型进行二次识别，并且还可以根据分词结果对特征字词库进行更新。不仅识别快速准确，还提高了可扩展性。为实现上述目的，根据本专利技术实施例的一个方面，提供了一种分词方法，包括：获取待分词地址信息；根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别，确定待分词地址中的待...

【技术保护点】
1.一种分词方法，其特征在于，包括：/n获取待分词地址信息；/n根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别，确定待分词地址中的待匹配词以及所述待匹配词的词属性信息；所述词库表包括词内容信息、与词内容信息相对应的词属性信息；/n根据所述待匹配词与词属性信息确定所述地址信息的分词结果。/n

【技术特征摘要】
1.一种分词方法，其特征在于，包括：
获取待分词地址信息；
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别，确定待分词地址中的待匹配词以及所述待匹配词的词属性信息；所述词库表包括词内容信息、与词内容信息相对应的词属性信息；
根据所述待匹配词与词属性信息确定所述地址信息的分词结果。

2.根据权利要求1所述的方法，其特征在于，所述预设的词库表包括：地址名称词库，特征字词库；
根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别，确定待分词地址中的待匹配词以及所述待匹配词的词属性信息，包括：
根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息；
根据所述特征字词库和训练好的分词规则模型，确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息；
以第一待匹配词、第一待匹配词的词属性信息、第二待匹配词、第二待匹配词的词属性信息共同作为所述待分词地址中的待匹配词以及所述待匹配词的词属性信息。

3.根据权利要求2所述的方法，其特征在于，根据所述地址名称词库确定待分词地址信息中的第一待匹配词、第一待匹配词的词属性信息，包括：
将所述地址名称词库中的词内容信息，与所述待分词地址信息相匹配，以匹配成功的字符串作为第一待匹配词；
在所述地址名称词库的中查找与第一待匹配词相对应的词属性信息，作为第一待匹配词的词属性信息。

4.根据权利要求2所述的方法，其特征在于，根据所述特征字词库和训练好的分词规则模型，确定待分词地址信息中除去第一待匹配词后的剩余信息中的第二待匹配词、第二待匹配词的词属性信息，包括：
将所述特征字词库中的词内容信息，与待分词地址信息中除去第一待匹配词后的剩余信息相匹配，以匹配成功的字符串作为中间待匹配词；
根据训练好的分词规则模型，将中间待匹配词进行合并标记，确定第二待匹配词，以及第二待匹配词的词属性信息。

5.根据权利要求2所述的方法，其特征在于，在确定分词结果信息之后，还包括：
根据所述分词结果信息确定所述待分词地址信息中的关键地址词；
基于地图信息，确定所述关键地址词的准确度；
将所述准确度不小于预设阈值的关键地址词更新到所述地址名称词库中。

6.一种分词装置，其特征在于，包括：
获取模块，用于获取待分词地址信息；
识别模块，用于根据预设的词库表和训练好的分词规则模型对所述待分词地址信息进行识别，确定待分词地址中的待匹配词以及所述待匹配词的词属性信息；所述词库...

【专利技术属性】
技术研发人员：吴泳彤，张启祥，李尊敬，张恩科，刘建家，程少华，李洋，侯磊，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人