地理地址解析方法、装置、可读存储介质及电子设备制造方法及图纸

技术编号:22689085 阅读:26 留言:0更新日期:2019-11-30 03:40
本说明书公开了地理地址解析的方法、装置、可读存储介质及电子设备,首先对包含地理地址的待解析的文本进行分词处理,其次针对每个分词,确定该分词在预设的至少一个特征维度上的特征值,确定该分词的特征向量,之后根据针对条件随机场预设的特征模板,确定与该分词关联的其他分词,然后根据得到的各分词的特征向量、确定出的分词之间的关联关系以及该包含地理地址的待解析的文本,通过训练完成条件随机场模型确定各分词的类型,从而确定该文本的解析结果。通过将解析对象从字符扩充为分词,降低了模型计算复杂度。而根据在确定的各分词的特征向量,丰富了模型的输入。从而得到更准确的分词的类型,减少了行文不规范等情况导致的问题。

Geographic address resolution methods, devices, readable storage media and electronic equipment

The specification discloses the method, device, readable storage medium and electronic equipment of geographic address resolution. Firstly, the text to be resolved containing the geographic address is segmented. Secondly, for each segmented word, the eigenvalue of the segmented word on at least one preset feature dimension is determined, and the feature vector of the segmented word is determined. Then, according to the feature template preset for the conditional random field Then, according to the feature vector of each participle, the relationship between the participles and the text containing the geographic address to be parsed, the conditional random field model is trained to determine the type of each participle, so as to determine the parsing result of the text. By extending the parsing object from character to participle, the computational complexity of the model is reduced. According to the feature vector of each participle, the input of the model is enriched. So we can get a more accurate type of word segmentation and reduce the problems caused by nonstandard writing.

【技术实现步骤摘要】
地理地址解析方法、装置、可读存储介质及电子设备
本申请涉及互联网
,尤其涉及地理地址解析方法、装置、计算机可读存储介质及电子设备。
技术介绍
地理地址,通常指个人的居住地点或机关团体的所在地,对应于实际的一个地理位置。从形式上说一般由国家、省市、区域、楼门号、门牌号等信息组成,通过地理地址可以准确的确定一个地理位置。目前,由于某些业务在执行时需要用户的地址,因此服务提供方可接收用户提供的地理地址的文本,如,物流平台在为用户提供物流服务时,需要用户输入收货地址和送货地址。但是,用户提供的地理地址的文本通常行文并不规范,在文本中可能携带有用户的惯用语,或者也会出现地理地址的文本填写错误等问题。而文本的行文不规范或者填写错误,可能会导致业务执行效率下降或者导致业务无法执行如,用户提供了错误的地址,物流平台无法进行配送。
技术实现思路
本说明书实施例提供的地理地址解析方法、装置、计算机可读存储介质及电子设备,用于部分解决现有技术中存在的问题。本说明书实施例采用下述技术方案:本说明书提供的地理地址解析的方法,包括:对包含地理地址的待解析的文本进行分词处理,得到若干分词;针对得到的每个分词,确定该分词在预设的至少一个特征维度上的特征值,基于所述特征值得到该分词的特征向量;根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词;根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型;根据确定出的分词的类型,确定所述文本的解析结果。可选地,所述特征模板是根据预设的上下文关系设定的;相应地,所述根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词,包括:将设定所述特征模板所基于的上下文关系作为特定上下文关系;确定与该分词的上下文关系为所述特定上下文关系的其他分词,作为与该分词关联的其他分词。可选地,所述根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型,包括:初始化所述文本中各分词的类型;针对所述文本中的每个分词,将该分词的类型作为当前类型;根据该分词及其关联的其他分词的特征向量、所述文本、所述特征模板,确定该分词在所述当前类型下的得分;根据确定出的文本中各分词的得分,确定所述文本的总分;以最大化所述文本的总分为优化目标,调整所述文本中各分词的类型,并确定调整后所述文本的总分,直至满足所述条件随机场模型的输出条件为止,确定所述本文的总分最大化时所述文本中各分词的类型。可选地,所述特征模板包含若干特征函数;所述特征函数对应的输入数据包括:所述当前类型以及所需分词的特征向量中至少一种特征维度的特征值;或者,所述特征函数对应的输入数据包括:所述当前类型以及所需分词包含的字符;所述所需分词包括:该分词以及与该分词关联的其他分词中的至少一个;所述根据该分词及其关联的其他分词的特征向量、所述文本、所述特征模板,确定该分词在所述当前类型下的得分,包括:针对至少一个特征函数,根据所述文本确定该特征函数对应的输入数据,并将该特征函数对应的输入数据输入该特征函数,得到计算结果;将针对每个特征函数得到的计算结果的和值,作为该分词在所述当前类型下的得分。可选地,所述方法还包括:针对至少一个类型,提取属于该类型的分词包含的字符,并根据预设的转换规则,确定提取出的字符的转换结果,以按照预设的存储规则存储所述转换结果。可选地,所述方法还包括:针对属于同一类型的各分词,根据预设的合并规则,进行分词合并。可选地,所述方法还包括:对分词合并得到的合并结果进行字符串去重处理。本说明书提供的地理地址解析的装置,包括:分词模块,其配置为用于根据预设的分词方法,对待解析的文本进行分词处理,得到若干分词;特征提取模块,其配置为用于针对得到的每个分词,确定该分词在预设的至少一个特征维度上的特征值,得到该分词的特征向量;关联确定模块,其配置为用于根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词;解析模块,其配置为用于根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型;确定模块,其配置为用于根据确定出的分词的类型,确定所述文本的解析结果。本说明书提供的计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述地理地址解析的方法。本说明书提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述地理地址解析的方法。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:首先对于包含地理地址的待解析的文本进行分词处理,得到若干分词,其次针对每个分词,确定该分词在预设的至少一个特征维度上的特征值,从而确定该分词的特征向量,之后,继续针对每个分词,根据针对条件随机场(ConditionalRandomFieldAlgorithm,CRF)预设的特征模板,确定与该分词关联的其他分词,然后根据得到的各分词的特征向量、确定出的分词之间的关联关系以及该包含地理地址的待解析的文本,通过训练完成CRF模型,分别确定各分词的类型,最后根据确定出的各分词的类型,确定该待解析的文本的解析结果。由于地理地址的行文不规范或者填写错误,通常导致的是字与字间的关联关系不规范,因此先通过分词处理,将文本解析的对象从包含信息较少的单个字,扩充为包含信息更丰富的分词。一方面降低了后续通过CRF模型确定类型序列的复杂度,另一方面利用行文不规范或者填写错误通常不会导致一句完整文本中分词之间的关系发生改变,使得可以基于分词处理结果后对行文不规范和填写错误进行纠正成为可能。之后,根据预设的若干特征维度,确定每个分词的特征向量,相当于再次扩充了输入CRF的数据的丰富程度,而预设的特征模板可保证相较于现有技术中增加的特征向量中的特征值可以输入该CRF。而上述过程丰富了每个分词对应的输入,使得通过CRF模型可输出更准确的分词的类型,以更准确确定文本的解析结果,减少了行文不规范等情况带来的业务执行效率下降或者业务无法执行的问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本说明书实施例提供的一种地理地址解析的过程;图2为本说明书实施例提供的特征模板的示意图;图3为本说明书实施例提供的一种地理地址解析的装置的结构示意图;图4为本说明书实施例提供的对应于图1的电子设备示意图。具体实施方式为使本说明书的目的、技本文档来自技高网...

【技术保护点】
1.一种地理地址解析方法,其特征在于,包括:/n对包含地理地址的待解析的文本进行分词处理,得到若干分词;/n针对得到的每个分词,确定该分词在预设的至少一个特征维度上的特征值,基于所述特征值得到该分词的特征向量;/n根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词;/n根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型;/n根据确定出的分词的类型,确定所述文本的解析结果。/n

【技术特征摘要】
1.一种地理地址解析方法,其特征在于,包括:
对包含地理地址的待解析的文本进行分词处理,得到若干分词;
针对得到的每个分词,确定该分词在预设的至少一个特征维度上的特征值,基于所述特征值得到该分词的特征向量;
根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词;
根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型;
根据确定出的分词的类型,确定所述文本的解析结果。


2.如权利要求1所述的方法,其特征在于,所述特征模板是根据预设的上下文关系设定的;相应地,
所述根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词,包括:
将设定所述特征模板所基于的上下文关系作为特定上下文关系;
确定与该分词的上下文关系为所述特定上下文关系的其他分词,作为与该分词关联的其他分词。


3.如权利要求1所述的方法,其特征在于,所述根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型,包括:
初始化所述文本中各分词的类型;
针对所述文本中的每个分词,将该分词的类型作为当前类型;
根据该分词及其关联的其他分词的特征向量、所述文本、所述特征模板,确定该分词在所述当前类型下的得分;
根据确定出的文本中各分词的得分,确定所述文本的总分;
以最大化所述文本的总分为优化目标,调整所述文本中各分词的类型,并确定调整后所述文本的总分,直至满足所述条件随机场模型的输出条件为止,确定所述本文的总分最大化时所述文本中各分词的类型。


4.如权利要求3所述的方法,其特征在于,所述特征模板包含若干特征函数;
所述特征函数对应的输入数据包括:所述当前类型以及所需分词的特征向量中至少一种特征维度的特征值;或者,所述特征函数对应的输入数据包括:所述当前类型以及所需分词包含的字符;
所述所需分词包括:该分词以及与该分词关联的其...

【专利技术属性】
技术研发人员:何威邢轲
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1