The specification discloses the method, device, readable storage medium and electronic equipment of geographic address resolution. Firstly, the text to be resolved containing the geographic address is segmented. Secondly, for each segmented word, the eigenvalue of the segmented word on at least one preset feature dimension is determined, and the feature vector of the segmented word is determined. Then, according to the feature template preset for the conditional random field Then, according to the feature vector of each participle, the relationship between the participles and the text containing the geographic address to be parsed, the conditional random field model is trained to determine the type of each participle, so as to determine the parsing result of the text. By extending the parsing object from character to participle, the computational complexity of the model is reduced. According to the feature vector of each participle, the input of the model is enriched. So we can get a more accurate type of word segmentation and reduce the problems caused by nonstandard writing.
【技术实现步骤摘要】
地理地址解析方法、装置、可读存储介质及电子设备
本申请涉及互联网
,尤其涉及地理地址解析方法、装置、计算机可读存储介质及电子设备。
技术介绍
地理地址,通常指个人的居住地点或机关团体的所在地,对应于实际的一个地理位置。从形式上说一般由国家、省市、区域、楼门号、门牌号等信息组成,通过地理地址可以准确的确定一个地理位置。目前,由于某些业务在执行时需要用户的地址,因此服务提供方可接收用户提供的地理地址的文本,如,物流平台在为用户提供物流服务时,需要用户输入收货地址和送货地址。但是,用户提供的地理地址的文本通常行文并不规范,在文本中可能携带有用户的惯用语,或者也会出现地理地址的文本填写错误等问题。而文本的行文不规范或者填写错误,可能会导致业务执行效率下降或者导致业务无法执行如,用户提供了错误的地址,物流平台无法进行配送。
技术实现思路
本说明书实施例提供的地理地址解析方法、装置、计算机可读存储介质及电子设备,用于部分解决现有技术中存在的问题。本说明书实施例采用下述技术方案:本说明书提供的地理地址解析的方法,包括:对包含地理地址的待解析的文本进行分词处理,得到若干分词;针对得到的每个分词,确定该分词在预设的至少一个特征维度上的特征值,基于所述特征值得到该分词的特征向量;根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词;根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型 ...
【技术保护点】
1.一种地理地址解析方法,其特征在于,包括:/n对包含地理地址的待解析的文本进行分词处理,得到若干分词;/n针对得到的每个分词,确定该分词在预设的至少一个特征维度上的特征值,基于所述特征值得到该分词的特征向量;/n根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词;/n根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型;/n根据确定出的分词的类型,确定所述文本的解析结果。/n
【技术特征摘要】
1.一种地理地址解析方法,其特征在于,包括:
对包含地理地址的待解析的文本进行分词处理,得到若干分词;
针对得到的每个分词,确定该分词在预设的至少一个特征维度上的特征值,基于所述特征值得到该分词的特征向量;
根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词;
根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型;
根据确定出的分词的类型,确定所述文本的解析结果。
2.如权利要求1所述的方法,其特征在于,所述特征模板是根据预设的上下文关系设定的;相应地,
所述根据针对条件随机场模型预设的特征模板,确定与该分词关联的其他分词,包括:
将设定所述特征模板所基于的上下文关系作为特定上下文关系;
确定与该分词的上下文关系为所述特定上下文关系的其他分词,作为与该分词关联的其他分词。
3.如权利要求1所述的方法,其特征在于,所述根据得到的分词的特征向量、确定出的分词之间的关联关系以及所述文本,通过训练完成的条件随机场模型,确定所述文本中各分词的类型,包括:
初始化所述文本中各分词的类型;
针对所述文本中的每个分词,将该分词的类型作为当前类型;
根据该分词及其关联的其他分词的特征向量、所述文本、所述特征模板,确定该分词在所述当前类型下的得分;
根据确定出的文本中各分词的得分,确定所述文本的总分;
以最大化所述文本的总分为优化目标,调整所述文本中各分词的类型,并确定调整后所述文本的总分,直至满足所述条件随机场模型的输出条件为止,确定所述本文的总分最大化时所述文本中各分词的类型。
4.如权利要求3所述的方法,其特征在于,所述特征模板包含若干特征函数;
所述特征函数对应的输入数据包括:所述当前类型以及所需分词的特征向量中至少一种特征维度的特征值;或者,所述特征函数对应的输入数据包括:所述当前类型以及所需分词包含的字符;
所述所需分词包括:该分词以及与该分词关联的其...
【专利技术属性】
技术研发人员:何威,邢轲,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。