The application embodiment provides an address information extraction method and device. It includes: creating an address lexicon containing address words according to known address information and setting the weight of address words; using word segmentation tool and loading address lexicon, segmenting sample corpus according to the principle of weight priority and length priority, and tagging the sample corpus after word segmentation; and training the sample corpus according to the tagged corpus. Practice the machine learning model for extracting address information; extract address entities from unknown corpus according to the trained machine learning model; label the location information of each address entity according to the location of each address entity in unknown corpus; stitch address entities according to the location information, and generate a complete place. Address information. Thus, the problem of low efficiency of address information extraction in the existing technology and the inability to extract complete address information from unknown corpus is solved.
【技术实现步骤摘要】
一种地址信息提取方法及装置
本申请涉及自然语言处理
,尤其涉及一种地址信息提取方法及装置。
技术介绍
在自然语言处理
,命名实体识别是一项基础任务,其目的是识别语料中人名、地名、组织机构名等命名实体,为信息抽取等任务做铺垫。命名实体识别的应用极为广泛,例如从警情语料中提取出地址信息、从电商的搜索结果中识别产品名称等。现有技术的命名实体识别方法主要包括基于规则的方法和基于统计的方法等。其中,基于规则的方法利用手工编写的规则,将文本与规则进行匹配来识别出命名实体,这种方法在构建规则的过程中需要大量的语言学知识,费时费力,规则构建成本高,容易出现规则之间的冲突问题;此外,对于不同的语言和文本风格还需要重新编写规则,因而可移植性不好。基于统计的方法主要通过训练一些机器学习模型,并根据训练后的机器学习模型去进行命名实体识别,例如:采用字序标注BIO的方式标注训练语料,并使用标注的语料训练获得用于进行命名实体识别的BiLSTM-CRF模型。但是,在现有技术中,针对地址信息的提取,BiLSTM-CRF模型存在着一些问题:例如在对语料进行分词标注时,使用现有的通用分词 ...
【技术保护点】
1.一种地址信息提取方法,其特征在于,包括:根据已知地址信息创建包含地址词的地址词库,并设置地址词的权重;使用分词工具并加载地址词库,根据权重优先和长度优先原则对样本语料进行分词,并对分词后的样本语料进行词性标注;根据标注后的样本语料训练用于提取地址信息的机器学习模型;根据训练后的机器学习模型从未知语料中提取地址实体;根据每个地址实体在未知语料中的位置,标注每个地址实体的位置信息;根据所述位置信息,对地址实体进行拼接,生成完整的地址信息;其中,根据地址词在已知地址信息中的词频,所述地址词包括公共词和专有词;所述地址词的权重高于分词工具的分词词库中非地址词的权重。
【技术特征摘要】
1.一种地址信息提取方法,其特征在于,包括:根据已知地址信息创建包含地址词的地址词库,并设置地址词的权重;使用分词工具并加载地址词库,根据权重优先和长度优先原则对样本语料进行分词,并对分词后的样本语料进行词性标注;根据标注后的样本语料训练用于提取地址信息的机器学习模型;根据训练后的机器学习模型从未知语料中提取地址实体;根据每个地址实体在未知语料中的位置,标注每个地址实体的位置信息;根据所述位置信息,对地址实体进行拼接,生成完整的地址信息;其中,根据地址词在已知地址信息中的词频,所述地址词包括公共词和专有词;所述地址词的权重高于分词工具的分词词库中非地址词的权重。2.根据权利要求1所述的方法,其特征在于,所述根据已知地址信息创建包含地址词的地址词库,并设置地址词的权重,包括:对已知地址信息进行分词,并对分词得到的地址词进行词频统计;将词频小于预设阈值的地址词作为专有词,以及,将词频大于预设阈值的地址词作为公共词;以所述分词词库中非地址词的权重为取值基准,设置地址词的权重。3.根据权利要求1所述的方法,其特征在于,还包括:获取至少一个已知公共词库;对所述已知公共词库中的公共词进行规整;将规整后的公共词加入到所述地址词库中。4.根据权利要求1所述的方法,其特征在于,所述公共词还包括方位词。5.根据权利要求1所述的方法,其特征在于,所述对分词后的样本语料进行词性标注,包括:根据分词结果,对样本语料中的地址词和非地址词标注不同的学习目标值;将已标注学习目标值的样本语料转换成适用于机器学习模型的稀疏目标矩阵。6.根据权利要求5所述的方法,其特征在于,所述根据分词结果,对样本语料中的地址词和非地址词标注不同的学习目标值,包括:对地址词的首个字符标注第一学习目...
【专利技术属性】
技术研发人员:郭孟振,单培,李士勇,张瑞飞,李广刚,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。