一种信息获取方法、装置及计算机可读存储介质制造方法及图纸

技术编号:20680774 阅读:27 留言:0更新日期:2019-03-27 18:49
本文公开了一种信息获取方法、装置及计算机可读存储介质,包括:获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息,作为目标地址信息;根据目标地址信息的所属地址类别获取目标地址信息所属实体之间的关系信息。从本发明专利技术实施例可见,由于能够根据地址信息获取所属实体关系信息,从而极大程度地提高了实体关系信息的获取率。

【技术实现步骤摘要】
一种信息获取方法、装置及计算机可读存储介质
本专利技术实施例涉及计算机
,尤其涉及一种信息获取方法、装置及计算机可读存储介质。
技术介绍
数据挖掘是数据库知识发现中的一个步骤,通常是指通过算法从大量的数据中搜索隐藏于其中信息的过程。相关技术中,基于归属特定字段的信息的实体关系信息挖掘方案已经比较成熟,例如,当数据库设置有姓名字段和公司名称字段,且姓名字段下存储有一定数量的个人姓名信息,公司名称字段下存储有与对应所存储的个人姓名信息的公司名称信息,从而根据这些信息挖掘哪些个人属于一个公司,即挖掘出同事关系。然而,基于地址信息的实体关系信息挖掘(基于地址的实体关系信息挖掘指的是根据地址信息挖掘地址所属实体之间可能的关系信息,例如,同学关系、同事关系和同小区关系等)却缺乏相应方案。
技术实现思路
为了解决上述技术问题,本专利技术实施例提供一种信息获取方法、装置及计算机可读存储介质,能够根据地址信息获取所属实体关系信息,从而提高实体关系信息的获取率。为了达到本专利技术实施例目的,本专利技术实施例提供了一种信息获取方法,包括:获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息,作为目标地址信息;根据所述目标地址信息的所属地址类别获取所述目标地址信息所属实体之间的关系信息。所述获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息之前,还包括:根据预先建立的地址分词与地址级别的第一对应关系对所述地址信息数据库中的地址信息进行匹配和切分,针对每个地址信息得到包含至少一个地址分词的地址分词组、与所述第一对应关系匹配成功的地址分词以及对应的地址级别;判断获得的地址分词组中是否存在与所述第一对应关系匹配失败的地址分词;如果获得的地址分词组中不存在与所述第一对应关系匹配失败的地址分词;根据预先建立的地址信息完整程度判定规则和获得的地址级别确定所述地址信息的信息完整程度。如果获得的地址分词组中存在与所述第一对应关系匹配失败的地址分词,还包括:判断与所述第一对应关系匹配失败的地址分词是否都是包含地址分词主体和地址分词后缀的标准地址分词;如果与所述第一对应关系匹配失败的地址分词都是所述标准地址分词;根据预先建立的地址分词后缀与地址级别的第二对应关系获取所述与第一对应关系匹配失败的地址分词对应的地址级别;根据所述地址信息完整程度判定规则和获得的地址级别确定所述地址信息的信息完整程度。如果所述与第一对应关系匹配失败的地址分词不都是所述标准地址分词,还包括:对所述与第一对应关系匹配失败的地址分词进行标准化处理;根据所述第二对应关系获取经过标准化处理后的所述与第一对应关系匹配失败的地址分词对应的地址级别;根据所述地址信息完整程度判定规则和获得的地址级别确定所述地址信息的信息完整程度。所述对与第一对应关系匹配失败的地址分词进行标准化处理,包括:根据所述第二对应关系和预先建立的字符序列标注规则对所述与第一对应关系匹配失败的地址分词进行标注,得到标注序列;根据所述标注序列对所述与第一对应关系匹配失败的地址分词进行合并,得到所述标准地址分词。所述信息完整程度以数值形式表示,所述地址信息完整程度判定规则为地址级别组合与完整程度的数值的对应关系;所述根据地址信息完整程度判定规则和获得的地址级别确定地址信息的信息完整程度,包括:在所述地址级别组合与完整程度的数值的对应关系中查找与获得的地址分词的地址级别相同的地址级别组合;获取与获得的地址级别组合对应的完整程度的数值,作为所述信息完成程度。所述获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息之前,还包括:根据预先建立的地址信息相似程度判定规则、所述待处理地址信息对应的待处理地址分词以及所述待处理地址分词的地址级别确定所述待处理地址信息之间的信息相似程度;根据预先建立的地址类别判定模型获取所述待处理地址信息的所属地址类别。所述信息相似程度以数值形式表示,所述地址信息相似程度判定规则为地址级别组合与相似程度的数值的对应关系;所述根据预先建立的地址信息相似程度判定规则、待处理地址信息对应的待处理地址分词以及待处理地址分词的地址级别确定待处理地址信息之间的信息相似程度,包括:按照地址级别由高到低依次判断所述待处理地址信息对应的同级别待处理地址分词之间是否相同,直到其中一个待处理地址分词判断完毕或者同级别待处理分词之间不相同;根据所述地址级别组合与相似程度的数值的对应关系查找包含待处理分词相同的地址级别的地址级别组合;获取与获得的地址级别组合对应的相似程度的数值,作为所述信息相似程度。所述根据预先建立的地址信息相似程度判定规则、待处理地址信息对应的待处理地址分词以及待处理地址分词的地址级别确定待处理地址信息之间的信息相似程度之前,还包括:获取所述待处理地址信息的创建时间;所述根据预先建立的地址信息相似程度判定规则、待处理地址信息对应的待处理地址分词以及待处理地址分词的地址级别确定待处理地址信息之间的信息相似程度,包括:所述根据预先建立的地址信息相似程度判定规则、创建时间符合预设要求的所述待处理地址信息对应的待处理地址分词以及所述待处理地址分词的地址级别确定所述待处理地址信息之间的信息相似程度。所述根据目标地址信息的所属地址类别建立目标地址信息所属实体之间的关系信息,包括:如果所述目标地址信息的所属地址类别为学校地址,获取所述目标地址信息所属实体之间的关系信息为同学关系;如果所述目标地址信息的所属地址类别为商铺地址,获取所述目标地址信息所属实体之间的关系信息为同商区关系;如果所述目标地址信息的所属地址类别为公司地址,获取所述目标地址信息所属实体之间的关系信息为同事关系。本专利技术实施例还提供了一种信息获取装置,包括:获取模块,用于获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;所述获取模块,还用于获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息,作为目标地址信息;处理模块,用于根据所述目标地址信息的所属地址类别获取所述目标地址信息所属实体之间的关系信息。本专利技术实施例还提供了一种信息获取装置,包括:处理器和存储器,其中,存储器中存储有以下可被处理器执行的指令:获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息,作为目标地址信息;根据所述目标地址信息的所属地址类别获取所述目标地址信息所属实体之间的关系信息。本专利技术实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机可执行指令,所述计算机可执行指令用于执行以下步骤:获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息,作为目标地址信息;根据所述目标地址信息的所属地址类别获取所述目标地址信息所属实体之间的关系信息。本专利技术实施例至少包括:获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;获取信息相似程度大于第二预设程度信息且所属地址类别相同的本文档来自技高网...

【技术保护点】
1.一种信息获取方法,其特征在于,包括:获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息,作为目标地址信息;根据所述目标地址信息的所属地址类别获取所述目标地址信息所属实体之间的关系信息。

【技术特征摘要】
1.一种信息获取方法,其特征在于,包括:获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息,作为待处理地址信息;获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息,作为目标地址信息;根据所述目标地址信息的所属地址类别获取所述目标地址信息所属实体之间的关系信息。2.根据权利要求1所述的信息获取方法,其特征在于,所述获取地址信息数据库中信息完整程度大于第一预设程度信息的地址信息之前,还包括:根据预先建立的地址分词与地址级别的第一对应关系对所述地址信息数据库中的地址信息进行匹配和切分,针对每个地址信息得到包含至少一个地址分词的地址分词组、与所述第一对应关系匹配成功的地址分词以及对应的地址级别;判断获得的地址分词组中是否存在与所述第一对应关系匹配失败的地址分词;如果获得的地址分词组中不存在与所述第一对应关系匹配失败的地址分词;根据预先建立的地址信息完整程度判定规则和获得的地址级别确定所述地址信息的信息完整程度。3.根据权利要求2所述的信息获取方法,其特征在于,如果获得的地址分词组中存在与所述第一对应关系匹配失败的地址分词,还包括:判断与所述第一对应关系匹配失败的地址分词是否都是包含地址分词主体和地址分词后缀的标准地址分词;如果与所述第一对应关系匹配失败的地址分词都是所述标准地址分词;根据预先建立的地址分词后缀与地址级别的第二对应关系获取所述与第一对应关系匹配失败的地址分词对应的地址级别;根据所述地址信息完整程度判定规则和获得的地址级别确定所述地址信息的信息完整程度。4.根据权利要求3所述的信息获取方法,其特征在于,如果所述与第一对应关系匹配失败的地址分词不都是所述标准地址分词,还包括:对所述与第一对应关系匹配失败的地址分词进行标准化处理;根据所述第二对应关系获取经过标准化处理后的所述与第一对应关系匹配失败的地址分词对应的地址级别;根据所述地址信息完整程度判定规则和获得的地址级别确定所述地址信息的信息完整程度。5.根据权利要求4所述的信息获取方法,其特征在于,所述对与第一对应关系匹配失败的地址分词进行标准化处理,包括:根据所述第二对应关系和预先建立的字符序列标注规则对所述与第一对应关系匹配失败的地址分词进行标注,得到标注序列;根据所述标注序列对所述与第一对应关系匹配失败的地址分词进行合并,得到所述标准地址分词。6.根据权利要求2-4任一项所述的信息获取方法,其特征在于,所述信息完整程度以数值形式表示,所述地址信息完整程度判定规则为地址级别组合与完整程度的数值的对应关系;所述根据地址信息完整程度判定规则和获得的地址级别确定地址信息的信息完整程度,包括:在所述地址级别组合与完整程度的数值的对应关系中查找与获得的地址分词的地址级别相同的地址级别组合;获取与获得的地址级别组合对应的完整程度的数值,作为所述信息完成程度。7.根据权利要求2-4任一项所述的信息获取方法,其特征在于,所述获取信息相似程度大于第二预设程度信息且所属地址类别相同的待处理地址信息之前,还包括:根据预先建立的地址信息相似程度判定规则、所述待处理地址信息对应的待处理地址分词以及所述待处理地址分词的地址级别确定所述待处理地址信息之间的信息相似程度;根据预先建立的地址类别判定模型获取所述待...

【专利技术属性】
技术研发人员:陈奇宁
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1