一种基于无监督学习的中文地址分词方法及系统技术方案

技术编号：32589977 阅读：79 留言：0更新日期：2022-03-09 17:24

本申请涉及地址分词技术领域，提供一种基于无监督学习的中文地址分词方法及系统，利用地址数据间的相关信息，即对于描述内容不同的地址含有全部或部分相同或相近的特征词，以及特征词会在地址数据中反复出现的特性，通过LDA主题模型自动挖掘出地址数据的候选特征词；通过将地址数据切分成词和字两种形式，增强不同长度特征词的挖掘能力；利用特征词在地址要素内的词位信息和词频信息，进一步合理确定地址切分位置，提高地址分词的有效性。本申请在进行中文地址分词时，仅仅使用地址自身的信息，无需额外建立规模庞大的地址特征词词典，也无需标注大量用于训练模型的地址数据，从而能够有效解决先验知识要求多和人工标注成本高的问题。成本高的问题。成本高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于无监督学习的中文地址分词方法及系统

[0001]本申请涉及地址分词
，尤其涉及一种基于无监督学习的中文地址分词方法及系统。

技术介绍

[0002]随着智慧城市建设和社会治理水平的提高，地址已成为众多领域开展业务的重要支撑数据，例如地图导航、物流配送等。因此，地址分词的结果对于地址能否有效且准确地使用起着越来越重要的作用。
[0003]中文地址文本分词本质上是中文分词在地址处理领域中的应用。与英文地址不同的是，中文地址大都不具有自然分割标记；而且，中文地址文本又比普通中文文本具有更加独特的分词特征，分词逻辑更加复杂。因此，如何准确且高效地实现中文地址分词，是现阶段实际应用过程中的重难点。
[0004]目前，常用的中文地址分词方法是通过人工构建地址词典，利用规则基于字符串匹配实现地址分词；或者通过标注大量的地址数据训练地址分词模型，利用训练好的分词模型对待处理地址进行分词。但是，上述方法依赖大量的地址先验知识，需要构建庞大的地址词典，对分词人员有较强的专业性要求，地址数据标注和分词成本很高。
>[0005]无监督本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于无监督学习的中文地址分词方法，其特征在于，包括：地址文本预处理，包括：获取原始中文地址文本；去掉任意一条原始中文地址文本中的特殊字符，获得地址文本；地址文本初步切分，包括：以词为最小单元，利用中文分词工具对所述地址文本进行切分，获得任意一条地址文本对应的词列表；根据所有地址文本对应的词列表，获得切分词集合；根据预设的停用词，构建停用词表；根据所述停用词表，去除所述切分词集合中的停用词，获得词集合；以字为最小单元，对所述地址文本直接进行切分，获得所述任意一条地址文本对应的字列表；根据所有地址文本对应的字列表，获得切分字集合；根据所述停用词表，去除所述切分字集合中的停用词，获得字集合；构建地址候选特征词库，包括：构建LDA主题模型；利用所述LDA主题模型对所述词集合进行建模，获得第一候选特征词库；利用所述LDA主题模型对所述字集合进行建模，获得第二候选特征词库；构建每条地址的候选特征词集，包括：根据所述第一候选特征词库，对所述词集合进行筛选，获得候选特征词集；根据所述第二候选特征词库，对所述字集合进行筛选，获得候选特征字集；对所述候选特征词集和所述候选特征字集取交集，获得候选特征词交集；对所述候选特征词集和所述候选特征字集取并集，获得候选特征词并集；基于候选特征词进一步分词，包括：根据所述候选特征词交集，筛选出所述任意一条地址文本中含有的候选特征词；如果所述候选特征词交集中存在位置相邻的两个候选特征词，则根据所述两个候选特征词在所述地址候选特征词库中出现的频率进行判断，保留频率高的候选特征词作为所述任意一条地址文本的候选特征词；对所述任意一条地址文本利用分词工具形成的多个文本段，判断候选特征词是否出现在文本段中，若所述候选特征词出现在所述文本段中，则将所述文本段进一步切分成子文本段和候选特征词；筛选每条地址的特征词，包括：判断所述候选特征词并集中的词项是否出现在所述任意一条地址文本的各个文本段尾部；如果所述候选特征词并集中的词项出现在所述任意一条地址文本的各个文本段尾部，则判定所述词项为地址特征词；对于位置相邻的地址特征词，保留词频高的地址特征词，直至不再出现位置相邻的地址特征词，获得所述任意一条地址文本的全部地址特征词；基于地址特征词对地址文本分词，包括：根据所述全部地址特征词在所述任意一条地址文本中出现的位置，对所述任意一条地址文本进行切分，获得地址分词结果。2.根据权利要求1所述的一种基于无监督学习的中文地址分词方法，其特征在于，利用所述LDA主题模型对所述词集合进行建模，获得第一候选特征词库的具体方法为：根据所述词集合，获得词袋词频向量；利用所述词袋词频向量，训练所述LDA主题模型，获得主题
‑
词项分布；根据所述主题
‑
词项分布，获得潜在主题下的词项概率；对所述潜在主题下的词项概率进行排序；获取预设阈值，并判断所述潜在主题下的词项概率与所述预设阈值的大小；保留所述潜在主题下的词项概率高于所述预设阈值的词项，并将所述词项作为所述潜在主题下的主题词；
合并所有潜在主题下的主题词，获得主题词集合；统计任意一个主题词在所述主题词集合中出现的次数；根据所述任意一个主题词在所述主题词集合中出现的次数，获得相对词频；根据所述相对词频，对所有主题词进行排序，获得第一候选特征词库。3.根据权利要求2所述的一种基于无监督学习的中文地址分词方法，其特征在于，确定潜在主题数量的方法具体包括以下步骤：获取预设的主题数量变化范围；根据所述主题数量变化范围，计算任意一个LDA主题模型的困惑度；从所有LDA主题模型的困惑度中选取最小困惑度；将所述最小困惑度对应的主题数量作为潜在主题数量。4.根...

【专利技术属性】
技术研发人员：辛颖梅，胡玉伟，江锡强，郑雪原，魏刚，张家宝，杨孟金，
申请(专利权)人：南京擎天科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人