【技术实现步骤摘要】
智能机器人会话文本的地址信息提取方法及装置
本专利技术涉及信息处理与文本挖掘
,具体涉及一种智能机器人会话文本的地址信息提取方法和装置。
技术介绍
地址信息是当前最常用的社会公共信息资源,与大众的日常生活紧密相关,同时,也是政府基础行政管理的基础资源。随着互联网技术的发展,越来越多的场景中需要将文本中的地址信息提取出来,以便为后续的分析和利用工作做准备。现有的从文本中提取地址信息的方法主要是利用预设的识别规则进行匹配的方法,即,构建一定的地址识别规则,例如“xx省xx市xx区”,将地址识别规则与文本进行匹配,然后从文本中提取出与地址识别规则相匹配的文本,就得到了地址信息,例如“浙江省嘉兴市南湖区”。然而,在实际应用中,文本中的地址信息表述形式多样化,并不总以标准正确的形式出现。例如,“浙江省嘉兴市南湖区”中的“嘉”,由于字形复杂,在实际应用中有人习惯将其写成“加”。对于这样在文本中存在发音相同字形不同的错别字的情况,采用现有的利用地址识别规则匹配来提取方法,很容易导致提取出地址信息发生错误,例如提取出“浙江省加兴市南湖区”这样的地址信息。此外,也有人采用地址 ...
【技术保护点】
1.一种智能机器人会话文本的地址信息提取方法,其特征在于,包括:获取待抽取文本;如果待抽取文本中包括至少一个中文表述的地址,则将待抽取文本转化为拼音文本;逐个将地址模型的节点上保存的拼音名与所述拼音文本进行比对,所述地址模型包括至少一个节点,在所述地址模型的节点上,保存有地址元素和与所述地址元素对应的拼音名,所述节点的节点等级与地址元素的等级相对应;如果节点上的拼音名与所述拼音文本匹配,则提取出匹配的拼音名所对应的地址元素;利用提取出的地址元素,以及提取出的地址元素在所述地址模型中所处的节点的节点等级,生成地址信息。
【技术特征摘要】
1.一种智能机器人会话文本的地址信息提取方法,其特征在于,包括:获取待抽取文本;如果待抽取文本中包括至少一个中文表述的地址,则将待抽取文本转化为拼音文本;逐个将地址模型的节点上保存的拼音名与所述拼音文本进行比对,所述地址模型包括至少一个节点,在所述地址模型的节点上,保存有地址元素和与所述地址元素对应的拼音名,所述节点的节点等级与地址元素的等级相对应;如果节点上的拼音名与所述拼音文本匹配,则提取出匹配的拼音名所对应的地址元素;利用提取出的地址元素,以及提取出的地址元素在所述地址模型中所处的节点的节点等级,生成地址信息。2.根据权利要求1所述的方法,其特征在于,所述利用提取出的地址元素,以及提取出的地址元素在所述地址模型中所处的节点的节点等级,生成地址信息的步骤,包括:当提取出的地址元素个数大于或等于两个时,根据提取出的地址元素在所述地址模型中所处的节点的节点等级,确定提取出的地址元素中是否存在属于同一个地址信息的地址元素;如果至少两个地址元素属于同一个地址信息,则将所述至少两个地址元素组合,生成地址信息。3.根据权利要求2所述的方法,其特征在于,所述地址模型中的地址元素包括行政区;所述根据提取出的地址元素在所述地址模型中所处的节点的节点等级,确定提取出的地址元素中是否存在属于同一个地址信息的地址元素的步骤,包括:选取提取出的地址元素中的任意两个;如果选取出的两个地址元素中至少一个地址元素为行政区,并且在所述待抽取文本中的位置相隔小于预设数量个字符,则判断所述两个地址元素各自在地址模型中所处的节点是否为直属的上下级节点关系;如果是,则确定所述两个地址元素属于同一个地址信息。4.根据权利要求2所述的方法,其特征在于,所述地址模型中的地址元素包括标志物;所述根据提取出的地址元素在所述地址模型中所处的节点的节点等级,确定提取出的地址元素中是否存在属于同一个地址信息的地址元素的步骤,包括:选取提取出的地址元素中的任意两个;如果选取出的两个地址元素均为标志物,并且选取出的两个地址元素在地址模型中所处的节点隶属于同一个上一级节点,则从待抽取文本中识别出第一文本,所述第一文本为两个地址元素在待抽取文本中对应的中文原始字符串及二者之间的文本;判断所述第一文本与预设的第一规则是否匹配,其中,所述第一规则为表征两个地址元素之间存在方位关系的规则;...
【专利技术属性】
技术研发人员:杨凯程,张青,蒋宏飞,
申请(专利权)人:北京玄一科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。