兴趣点POI的处理方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:23343489 阅读:24 留言:0更新日期:2020-02-15 03:55
本申请实施例提供了一种兴趣点POI的处理方法、装置、电子设备及计算机可读存储介质,涉及数据处理技术领域。该方法包括:当接收到新POI,对新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到新POI的名称与目标POI的名称之间的匹配特征信息;基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。本申请实施例能够大大提高判定相同主体的准确度,为后续高精确率的POI去重、合并等操作提供前提保证。

Processing method, device, electronic equipment and computer storage medium of poi

【技术实现步骤摘要】
兴趣点POI的处理方法、装置、电子设备及计算机存储介质
本申请涉及数据处理
,具体而言,本申请涉及一种兴趣点POI的处理方法、装置、电子设备及计算机存储介质。
技术介绍
无论是车载导航还是手机导航,如今市面上的导航都有自己的POI(PointofInterest,兴趣点)。POI是指地理信息系统中的某个地标、景点,用以标示出该地所代表的政府部门、各行各业之商业机构(加油站、百货公司、超市、餐厅、酒店、便利店、医院等)、旅游景点(公园、公共厕所)、名胜古迹、交通设施(各式车站、停车场、超速照相机、限速标示)等处所。兴趣点包含四方面信息:名称、类别、坐标、分类。在实际应用中,地图服务商通过会同时使用多个数据服务商提供的兴趣点,这样就会出现一个问题:多个数据服务商在采集同一个兴趣点的时候可能使用不一样的名称。因此,需要对兴趣点进行相似计算,即通过模型来判断两个POI的名称是否是表示相同的实体。在现有技术中,通常采用两种模型来进行相似计算:DSSM(DeepStructuredSemanticModels,深层结构化语义模型)和MatchPyramid(构造匹配矩阵)。DSSM的模型如图1所示,DSSM模型是采用将两个文本表示为低纬度的语义向量,并通过cosine距离来计算两个语义向量的距离。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。但是,上述两种模型都存在如下缺陷:针对近似字,比如同义词、同音字及形近字等进行相似计算的效果较差,以及无法对未录入词库的字词进行相似计算,导致判断两个POI的名称是否表示相同的实体的准确率较低。而且,用户在搜索某个POI的时候,就会展示多个名称不同,但其实是同一地点的候选POI,需要用户手动选择,用户的体验较差。
技术实现思路
本申请提供了一种兴趣点POI的处理方法、装置、电子设备及计算机可读存储介质,可以解决现有技术中,判断两个POI的名称是否表示相同的实体的准确率较低的问题。所述技术方案如下:第一方面,提供了一种兴趣点POI的处理方法,该方法包括:当接收到新POI,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:对所述新POI的名称进行一元分词,得到至少两个维度的第一分词,以及,对所述目标POI的名称进行一元分词,得到至少两个维度的第二分词;对所述新POI的名称进行二元分词,得到至少两个维度的第三分词,以及,所述目标POI的名称进行二元分词,得到至少两个维度的第四分词;所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:将各个维度的第一分词分别与对应维度的第二分词进行匹配处理得到至少两个第一匹配度,将各个维度的第一分词分别与对应维度的第四分词进行匹配处理得到至少两个第二匹配度,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第三匹配度,以及,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第四匹配度,并将各个第一匹配度、各个第二匹配度、各个第三匹配度,以及各个第四匹配度作为所述匹配特征信息。优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:对所述新POI的名称进行细粒度分词,得到至少一个维度的第五分词,以及,对所述目标POI的名称进行细粒度分词,得到至少一个维度的第六分词;对所述新POI的名称进行粗粒度分词,得到至少一个维度的第七分词,以及,对所述目标POI的名称进行粗粒度分词,得到至少一个维度的第八分词;所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:将各个维度的第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配处理,得到至少两个第五匹配度;基于预置的近似词的先验信息,对各个第五匹配度进行更新,得到各个更新后的第五匹配度,并将各个更新后的第五匹配度作为所述匹配特征信息。优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:对所述新POI的名称进行语义角色标注,得到至少两个维度的第一语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第二语义分词;所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:基于各个语义角色预设的权重值,分别将各个维度的第一语义分词与对应维度的第二语义分词进行匹配处理,得到至少两个第六匹配度,并将各个第六匹配度作为所述匹配特征信息。优选地,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:对所述POI的名称进行语义角色标注,得到至少两个维度的第三语义分词,以及,对所述目标POI的名称进行语义角色标注,得到至少两个维度的第四语义分词;分别计算各个维度的第三语义分词与对应维度的第四语义分词的编辑距离,得到至少两个第七匹配度,并将各个第七匹配度作为所述匹配特征信息。优选地,在得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果的步骤之后,还包括:当所述新POI的名称与所述目标POI的名称为相同的实体,建立所述新POI与所述目标POI的关联关系;当所述新POI的名称与所述目标POI的名称为不相同的实体,则将所述新POI存储至所述POI数据库。第二方面,提供了一种兴趣点POI的处理的装置,该装置包括:接收模块,用于接收新POI;分词模块,用于对所述新POI的名称采用预设的分词规则进行分词处理,得到本文档来自技高网
...

【技术保护点】
1.一种兴趣点POI的处理方法,其特征在于,包括:当接收到新POI,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;/n将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;/n基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。/n

【技术特征摘要】
1.一种兴趣点POI的处理方法,其特征在于,包括:当接收到新POI,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词;
将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息;
基于所述匹配特征信息,通过卷积神经网络,得到所述新POI的名称与所述目标POI的名称是否为相同实体的判定结果。


2.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行一元分词,得到至少两个维度的第一分词,以及,对所述目标POI的名称进行一元分词,得到至少两个维度的第二分词;
对所述新POI的名称进行二元分词,得到至少两个维度的第三分词,以及,所述目标POI的名称进行二元分词,得到至少两个维度的第四分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第一分词分别与对应维度的第二分词进行匹配处理得到至少两个第一匹配度,将各个维度的第一分词分别与对应维度的第四分词进行匹配处理得到至少两个第二匹配度,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第三匹配度,以及,将各个维度的第三分词分别与对应维度的第二分词进行匹配处理得到至少两个第四匹配度,并将各个第一匹配度、各个第二匹配度、各个第三匹配度,以及各个第四匹配度作为所述匹配特征信息。


3.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度的目标POI分词,包括:
对所述新POI的名称进行细粒度分词,得到至少一个维度的第五分词,以及,对所述目标POI的名称进行细粒度分词,得到至少一个维度的第六分词;
对所述新POI的名称进行粗粒度分词,得到至少一个维度的第七分词,以及,对所述目标POI的名称进行粗粒度分词,得到至少一个维度的第八分词;
所述将各个维度的新POI分词分别与对应维度的目标POI分词进行匹配,得到所述新POI的名称与所述目标POI的名称之间的匹配特征信息的步骤,包括:
将各个维度的第五分词、第六分词、第七分词,以及第八分词分别进行两两匹配处理,得到至少两个第五匹配度;
基于预置的近似词的先验信息,对各个第五匹配度进行更新,得到各个更新后的第五匹配度,并将各个更新后的第五匹配度作为所述匹配特征信息。


4.根据权利要求1所述的兴趣点POI的处理方法,其特征在于,对所述新POI的名称采用预设的分词规则进行分词处理,得到至少两个维度的新POI分词,以及,对预置的POI数据库中的目标POI的名称采用所述分词规则进行分词处理,得到至少两个维度...

【专利技术属性】
技术研发人员:周世洋卢俊之季成晖
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1