一种基于贝叶斯分词算法的中文地址语义标注方法技术

技术编号:14953996 阅读:88 留言:0更新日期:2017-04-02 10:23
本发明专利技术公开了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表;步骤S2:获取预切分、标注好的训练语料;步骤S3:对训练语料进行统计学习得到词频词典、标注关系词典、标注模式表;步骤S4:输入待标注地址字符串进行全切分;步骤S5:根据词频词典及贝叶斯分词算法获取概率最大的分词方案;步骤S6:根据标注关系词典对分词方案进行标注得到标注结果。标注关系表设定了一个规范化的标注模板;通过统计学习训练语料获得了包含词频词典、标注关系词典以及标注模式表的数据库;根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。

【技术实现步骤摘要】

本专利技术涉及中文地址解析
,具体涉及一种基于贝叶斯分词算法的中文地址语义标注方法
技术介绍
随着互联网的发展,越来越多的网络内容直接来自于用户上传分享的信息。针对一些提供生活消费平台的网站,则会接收到成千上百万条用户上传的商户地址信息,而这些地址信息有很大一部分都是自由文本式的、无显示结构的且隐含语义性的附加说明信息。在互联网位置服务中,地理位置可以有多种方式来表达,中文地址是其中之一。一个规范的中文地址应该包含完整的行政区划,并按照行政区划(省/市/县/乡/村)、路街、牌号、建筑、户室等次序来表达。通过一个完整规范的中文地址信息,我们可以得到与其相对应的地理位置。现有技术中,针对各种地址信息仅仅使用分词技术已无法满足对中文地址解析的需求。我们需要更进一步地将形式化的文本中文地址信息转化成结构化的地址表示形式,识别出文本地址信息中的地址元素和语义信息,也即对中文地址信息进行规范化。中文地址信息的规范化一般包括地址和语义信息的识别和规范化,其中,地址识别指的是解析出文本地址信息中所包含的地址和附加说明信息;而规范化则是将解析出的地址切分标注成语义地址元素集。众所周知中文地址信息中各元素没有明确的分隔符,相关技术中针对中文地址元素的识别尚面临着解析完整性、多样性、歧义性等多种困难。因此,亟待提供一种将中文地址信息切分识别成规范化的地址语义信息的方法,为用户更好的提供服务。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于贝叶斯分词算法的中文地址语义标注方法,对于以自然语言形式表示的地址信息,根据地址数据表达的语义特点,对中文地址信息进行语义标注。本专利技术的技术方案是,提供一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti本文档来自技高网...

【技术保护点】
一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,包括:步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;步骤S3:对集合T进行统计学习,所述统计学习具体包括步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l‑1,其中,l是地址字符串S的长度;步骤S5:根据所述词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;步骤S6:根据所述标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp。...

【技术特征摘要】
1.一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,包括:步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表...

【专利技术属性】
技术研发人员:黄爽李晓林谢婷婷严柯刘志杰段艳会张玉敏
申请(专利权)人:武汉工程大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1