【技术实现步骤摘要】
黄页信息获取方法、装置及电子设备
本申请涉及互联网
,具体而言,本申请涉及一种黄页信息获取方法、装置及电子设备。
技术介绍
随着互联网技术的发展,各种各样的信息都可以在网络中获取到。在人们想获取一个电话号码的黄页信息时,也可以通过网络进行搜索来获取。相关技术中,一般通过搜索引擎对电话号码的黄页信息进行搜索,搜索引擎会返回一系列的与所搜索的电话号码相关的网页,然后再由用户从大量数据中查看和选择自己所需的黄页信息。然而,本申请专利技术人发现,这些黄页信息一般数量巨大而且杂乱无章,并且其准确性也无法保证,使得用户在进行选择时比较困难。
技术实现思路
本申请提供了一种黄页信息获取方法、装置及电子设备,用于从大量杂乱的搜索数据中获取较为准确的黄页信息。本申请的实施例根据第一方面,提供了一种黄页信息获取方法,该方法包括:通过搜索引擎对待查询电话号码进行查询,得到包含待查询电话号码的多个网页;通过预训练的识别模型,从多个网页中提取待选黄页信息;针对任一待选黄 ...
【技术保护点】
1.一种黄页信息获取方法,其特征在于,包括:/n通过搜索引擎对待查询电话号码进行查询,得到包含所述待查询电话号码的多个网页;/n通过预训练的识别模型,从所述多个网页中提取待选黄页信息;/n针对任一待选黄页信息,根据与其对应的至少一个网页所在来源网站的置信度权重进行加权计算,得到加权结果;/n确定加权结果最大的待选黄页信息作为所述待查询电话号码的黄页信息。/n
【技术特征摘要】
1.一种黄页信息获取方法,其特征在于,包括:
通过搜索引擎对待查询电话号码进行查询,得到包含所述待查询电话号码的多个网页;
通过预训练的识别模型,从所述多个网页中提取待选黄页信息;
针对任一待选黄页信息,根据与其对应的至少一个网页所在来源网站的置信度权重进行加权计算,得到加权结果;
确定加权结果最大的待选黄页信息作为所述待查询电话号码的黄页信息。
2.根据权利要求1所述的黄页信息获取方法,其特征在于,所述预训练的识别模型包括以下任一项:
预训练的命名实体识别模型;
依据标注数据训练得到的正则表达式集合。
3.根据权利要求1所述的黄页信息获取方法,其特征在于,在所述针对任一待选黄页信息,根据与其对应的至少一个网页所在来源网站的置信度权重进行加权计算之前,还包括:
确定各个来源网站的置信度权重。
4.根据权利要求3所述的黄页信息获取方法,其特征在于,所述确定各个来源网站的置信度权重,包括:
通过搜索引擎对已知黄页信息的多个样本电话号码进行搜索,得到包括各个样本电话号码的多个待判断网页;
通过预训练的命名实体识别模型,从各个待判断网页中分别提取待判断黄页信息;
将任一待判断黄页信息与相应的已知黄页信息进行相似度计算;
根据计算确定的相似度,确定任一待判断黄页信息对应的待判断网页所在来源网站的置信度权重。
5.根据权利要求4所述的黄页信息获取方法,其特征在于,所述将任一待判断黄页信息与相应的已知黄页信息进行相似度计算,包括:
对所述待判断黄页信息与相应的已知黄页信息分别进...
【专利技术属性】
技术研发人员:张勇攀,周楠,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。