一种网站中兴趣点数据的置信度的判定方法和装置制造方法及图纸

技术编号:12799930 阅读:60 留言:0更新日期:2016-01-30 20:49
本发明专利技术实施例提供了一种网站中兴趣点数据的置信度的判定方法和装置,该方法包括:在网页中提取兴趣点数据;从所述兴趣点数据中识别正确的第一目标兴趣点数据;统计归属同一个网站的第一目标兴趣点数据的第一数量;根据所述第一数量确定所述网站中兴趣点数据的置信度。本发明专利技术实施例根据置信度允许从这些可信的POI数据来源抓取POI数据,抓取到的POI数据的正确性高,减少了计算机的系统资源和带宽资源的浪费,提高了POI数据抓取效率。

【技术实现步骤摘要】

本专利技术设及计算机处理的
,特别是设及一种网站中兴趣点数据的置信度 方法和一种网站中兴趣点数据的置信度装置。
技术介绍
阳00引兴趣点(PointofInterest,P0I),又可W称为"信息点",其包含多方面的信息, 如名称、类别、经度缔度等等。 在地理信息系统中,一个P0I可W是一栋房子、一个商铺、一个邮筒、一个公交站 等。 传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴 趣点的经缔度,然后再标记下来。 阳0化]正因为P0I数据的采集是一个非常费时费事的工作,对一个地理信息系统来说,P0I的数量在一定程度代表着整个系统的价值。 为了丰富地理信息系统的P0I数据的数量,目前从网页中挖掘P0I数据,大多是根 据网页的结构配置合适的模板,通过模板来提取。 但是,用户并不一定会按照网页的规定去发布信息,使得运些包含P0I的网站中 充斥着大量的脏数据,是错误的P0I数据。 例如,某个网站约定网页的一个区域是发布公司名称,但是,有的用户可能发布诸 如"世界五百强企业"等数据,并非是一个真正的P0I名称。 若后续应用运些错误的P0I数据进行导航等操作,操作的错误率高,造成资源浪 费。 并且,计算机一直抓取运些错误的P0I数据,浪费计算机的系统资源和带宽资源, P0I数据抓取效率很低。
技术实现思路
鉴于上述问题,提出了本专利技术W便提供一种克服上述问题或者至少部分地解决上 述问题的一种网站中兴趣点数据的置信度方法和相应的一种网站中兴趣点数据的置信度 装置。 依据本专利技术的一个方面,提供了一种网站中兴趣点数据的置信度的判定方法,包 括: 在网页中提取兴趣点数据; 从所述兴趣点数据中识别正确的第一目标兴趣点数据; 统计归属同一个网站的第一目标兴趣点数据的第一数量; 根据所述第一数量确定所述网站中兴趣点数据的置信度。 可选地,还包括: 当所述置信度高于预设的第一阔值时,允许从所述网站的网页提取兴趣点数据。 可选地,所述在网页中提取兴趣点数据的步骤包括: 查找针对网页配置的模板; 在所述网页中,依据所述模板指示的位置提取兴趣点数据。 可选地,所述兴趣点数据包括兴趣点名称; 所述从所述兴趣点数据中识别正确的第一目标兴趣点数据的步骤包括: 将标识同一对象的兴趣点名称设置为兴趣点名称集合; 从所述兴趣点名称集合中识别正确的第一目标兴趣点名称; 确定所述第一目标兴趣点名称所属的兴趣点数据为正确的第一目标兴趣点数据。 可选地,所述兴趣点数据包括兴趣点地址; 所述将标识同一对象的兴趣点名称设置为兴趣点名称集合的步骤包括: 判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点 名称设置为兴趣点名称集合。 可选地,所述从所述兴趣点名称集合中识别正确的第一目标兴趣点名称的步骤包 括: 在所述兴趣点名称集合中的兴趣点名称选取关键词; 依据所述关键词从所述兴趣点名称中识别正确的第一目标兴趣点名称。 可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤包括: 对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词; 查找所述分词在预设的兴趣点集合中的第一词频; 将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键 词,其中,X为正整数。 可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤还包括: 当所述分词与预设的地址数据匹配时,移除所述分词。 可选地,所述依据所述关键词从所述兴趣点名称中识别正确的第一目标兴趣点名 称的步骤包括: 计算所述关键词在所述兴趣点集合中的第二词频; 将所述第二词频最高的Y个关键词所属的兴趣点名称作为正确的第一目标兴趣 点名称,其中,Y为正整数。 阳0创可选地,所述兴趣点数据包括U化; 所述统计归属同一个网站的第一目标兴趣点数据的第一数量的步骤包括: 查找所述第一目标兴趣点数据对应的U化; 当所述第一目标兴趣点数据对应的U化属于同一个网站的域名时,统计所述第一 目标兴趣点数据的第一数量。 可选地,所述根据所述第一数量确定所述网站中兴趣点数据的置信度的步骤包 括: 依据所述第一数量计算正确率; 按照所述正确率确定所述网站中兴趣点数据的置信度。 根据本专利技术的另一方面,提供了一种网站中兴趣点数据的置信度的判定装置,包 括: 兴趣点数据提取模块,适于在网页中提取兴趣点数据; 正确兴趣点数据识别模块,适于从所述兴趣点数据中识别正确的第一目标兴趣点 数据; 正确数量统计模块,适于统计归属同一个网站的第一目标兴趣点数据的第一数 量; 可信置信度确定模块,适于根据所述第一数量确定所述网站中兴趣点数据的置信 度。 可选地,还包括: 阳化5] 允许提取模块,适于在所述置信度高于预设的第一阔值时,允许从所述网站的网 页提取兴趣点数据。 可选地,所兴趣点数据提取模块还适于: 查找针对网页配置的模板; 在所述网页中,依据所述模板指示的位置提取兴趣点数据。 可选地,所述兴趣点数据包括兴趣点名称; 所述正确兴趣点数据识别模块还适于: 将标识同一对象的兴趣点名称设置为兴趣点名称集合; 从所述兴趣点名称集合中识别正确的第一目标兴趣点名称; 确定所述第一目标兴趣点名称所属的兴趣点数据为正确的第一目标兴趣点数据。 可选地,所述兴趣点数据包括兴趣点地址; 阳0化]所述正确兴趣点数据识别模块还适于: 判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点 名称设置为兴趣点名称集合。 可选地,所述正确兴趣点数据识别模块还适于: 在所述兴趣点名称集合中的兴趣点名称选取关键词; 依据所述关键词从所述兴趣点名称中识别正确的第一目标兴趣点名称。 可选地,所述正确兴趣点数据识别模块还适于: 对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词; 查找所述分词在预设的兴趣点集合中的第一词频; 将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键 词,其中,X为正整数。 可选地,所述正确兴趣点数据识别模块还适于:当所述分词与预设的地址数据匹配时,移除所述分词。 可选地,所述正确兴趣点数据识别模块还适于: 计算所述关键词在所述兴趣点集合中的第二词频; 将所述第二词频最高的Y个关键词所属的兴趣点名称作为正确的第一目标兴趣 点名称,其中,Y为正整数。 可选地,所述兴趣点数据包括U化; 所述正确数量统计模块还适于: 查找所述第一目标兴趣点数据对应的U化; 当所述第一目标兴趣点数据对应的U化属于同一个网站的域名时,统计所述第一 目标兴趣点数据的第一数量。 可选地,所述可信置信度确定模块还适于: 阳084] 依据所述第一数量计算正确率;按照所述正确率确定所述网站中兴趣点数据的置信度。 本专利技术实施例从网页提取中的兴趣点数据中识别正确的第一目标兴趣点数据,并 统计归属同一个网站的第一目标兴趣点数据的第一数量确定网站中兴趣点数据的置信度, 从而在后续的操作中应用运些正确的P0I数据,降低了操作的错误率,减少了资源浪费。 进而,根据置信度允许从运些可信的P0I数据来源抓取P0I数据,抓取到的P0I数 据的正确性高,减少了计算机的系统资源和带宽资源的浪费,提高了P0I数据抓取效率。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了本文档来自技高网...

【技术保护点】
一种网站中兴趣点数据的置信度的判定方法,包括:在网页中提取兴趣点数据;从所述兴趣点数据中识别正确的第一目标兴趣点数据;统计归属同一个网站的第一目标兴趣点数据的第一数量;根据所述第一数量确定所述网站中兴趣点数据的置信度。

【技术特征摘要】

【专利技术属性】
技术研发人员:王智广
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1