监测跨境购房网站的方法及装置、电子设备及存储介质制造方法及图纸

技术编号:27126814 阅读:15 留言:0更新日期:2021-01-25 19:48
本发明专利技术实施例提供一种监测跨境购房网站的方法及装置、电子设备及存储介质,包括:采集监测对象,所述监测对象包括若干个网址及其html文档;通过预设条件从监测对象中筛选出目标对象;将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别。本发明专利技术实施例通过自动搜索预设关键词库中的关键词、定期爬取涉嫌开展跨境购房资讯网站和指定网址名单的方式搜集监测对象,也就是可疑网址名单,并使用预先训练好的跨境购房业务判别模型提高识别准确率,识别涉嫌开展跨境购房业务网站,相比于现有技术,极大减轻了人工排查压力,提升了监测效率。提升了监测效率。提升了监测效率。

【技术实现步骤摘要】
监测跨境购房网站的方法及装置、电子设备及存储介质


[0001]本专利技术属于互联网监测
,具体涉及一种监测跨境购房网站的方法及装置、电子设备及存储介质。

技术介绍

[0002]现有技术中,有关监管部门密切关注开展跨境购房相关业务的网站,积极开展监测工作。前期所使用的方法主要是:第一阶段,首先,通过人工使用搜索引擎搜索相关关键词,采集有关网址;然后,通过人工对所获网址一一打开排查核实,查询网站备案信息等,填写数据信息表格。第二阶段,引入爬虫技术,首先,自动调用搜索引擎搜索指定关键词,并针对少数资讯网站定制爬虫程序进行爬取,获得有关网址;然后,爬取每个网址html文档,根据是否包含少量特定关键词(如“海外购房”等),判断是否开展跨境购房相关业务,再对疑似开展有关业务的网站进行人工访问排查,并引入第三方接口数据补充网站备案信息等。
[0003]第一阶段的方法,完全依赖人工完成,监测周期长,整体效率较为低下;受制于人工效率,所获取的网址数量较少,监测覆盖面有限。第二阶段的方法,利用程序自动化爬取,能够获取较多网址,扩大了监测覆盖面,并且对所获取的网址进行了初步筛选。但由于筛选规则过于简单,筛选后跨境购房相关业务网站的命中率仍然偏低,从未高于70%,一般在50%上下浮动,导致大量无关网站进入后续人工排查环节中,增加了后续监测工作压力。
[0004]除以上方法外,目前市场上暂无专门针对跨境购房相关业务的网站进行监测的产品或方法。相关技术虽然有助于提升监测效率,但并未针对跨境购房相关业务类型进行专门研究及模型定制,也未能结合一线人工排查工作经验来满足监管需求。

技术实现思路

[0005]本专利技术实施例提供一种能够提高识别准确率、减轻人工排查压力,提升监测效率的监测跨境购房网站的方法及装置、电子设备及存储介质。
[0006]本专利技术实施例提供一种监测跨境购房网站的方法,包括:
[0007]S1:采集监测对象,所述监测对象包括若干个网址及其html文档;
[0008]S2:通过预设条件从监测对象中筛选出目标对象;
[0009]S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
[0010]S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;
[0011]S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;
[0012]S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。
[0013]根据本专利技术实施例所述的监测跨境购房网站的方法,其中,所述S1具体包括:通过预设条件从监测对象中筛选出目标对象;
[0014]根据预设关键词库调用搜索引擎,爬取监测对象,所述预设关键词库包括预设关键词和新增关键词;
[0015]或爬取与跨境购房网站相关的资讯网站作为监测对象;
[0016]或将输入网址或批量导入的网址作为监测对象。
[0017]根据本专利技术实施例所述的监测跨境购房网站的方法,其中,所述S2具体包括:
[0018]S21:利用白名单对所述监测对象进行筛选,排除属于白名单的网址,得到剩余监测对象;
[0019]S22:爬取所述剩余监测对象的html文档,根据获取情况及对html文档内容的分析,排除异常网址,得到目标对象。
[0020]根据本专利技术实施例所述的监测跨境购房网站的方法,其中,所述S32具体包括:
[0021]S321:根据预设关键词字典,对所述html文档进行分类和打分,其中,所述预设关键词字典以分类关键词为索引,所述分类关键词的值包括所述分类关键词是否启用、属于何种业务类型、所赋分值、所用的计算规则、出现频次,以及根据所赋分值、出现频次、所用的计算规则所计算的得分;
[0022]S322:根据所述分类关键词所属的业务类型对所述html文档进行分类,并对每个业务类型的得分分别进行加总,得到所述html文档在三个业务类型上的初始得分,将每个业务类型上的初始得分减去各个业务类型对应的标准分值,得到所述html文档在每个业务类型的最终得分。
[0023]根据本专利技术实施例所述的监测跨境购房网站的方法,其中,所述S33具体包括:
[0024]若所述目标业务类型的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为目标业务类型,若否,则判别所述目标对象开展的业务类型为无效样本;
[0025]若所述资讯的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为跨境购房资讯,若否,则判别所述目标对象开展的业务类型为一般资讯;
[0026]若所述无效样本的最终得分最高,则判别所述目标对象开展的业务类型为无效样本。
[0027]根据本专利技术实施例所述的监测跨境购房网站的方法,其中,所述S3之后还包括:
[0028]S4:判断所述目标对象开展的业务类型是否为目标业务类型,若是,则执行S5;若否,则记录目标对象开展的业务类型;
[0029]S5:引入第三方接口数据,补充所述目标对象的第三方相关信息,所述第三方相关信息包括ICP备案信息、IP地址信息;并对所述html文档进行提取分析,以获取所述目标对象的网站相关信息,所述网站相关信息包括版权信息、网页展示的ICP备案信息;
[0030]S6:将所述S1至S5的过程数据进行汇总、保存至数据库。
[0031]根据本专利技术实施例所述的监测跨境购房网站的方法,其中,所述预设的跨境购房业务判别模型的训练过程具体包括:
[0032]选取若干个预设样本作为目标对象,分别将若干个预设样本输入所述跨境购房业
务判别模型,执行所述S31至S33,输出若干个所述预设样本的业务类型;
[0033]以若干个所述预设样本的实际业务类型为参照,统计若干个输出的所述预设样本的业务类型的准确率;
[0034]根据所述准确率对所述跨境购房业务判别模型的预设门槛关键词、预设关键词字典的内容进行修正。
[0035]本专利技术实施例提供一种监测跨境购房网站的装置,包括:
[0036]监测对象采集模块,用于采集监测对象,所述监测对象包括若干个网址及其html文档;
[0037]目标对象筛选模块,连接所述监测对象采集模块,用于通过预设条件从监测对象中筛选出目标对象;
[0038]业务类型判别模块,连接所述目标对象筛选模块,用于将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:
[0039]S31:通过正则匹配在输入的html文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监测跨境购房网站的方法,其特征在于,包括:S1:采集监测对象,所述监测对象包括若干个网址及其html文档;S2:通过预设条件从监测对象中筛选出目标对象;S3:将所述目标对象的html文档输入至预设的跨境购房业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。2.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S1具体包括:通过预设条件从监测对象中筛选出目标对象;根据预设关键词库调用搜索引擎,爬取监测对象,所述预设关键词库包括预设关键词和新增关键词;或爬取与跨境购房网站相关的资讯网站作为监测对象;或将输入网址或批量导入的网址作为监测对象。3.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S2具体包括:S21:利用白名单对所述监测对象进行筛选,排除属于白名单的网址,得到剩余监测对象;S22:爬取所述剩余监测对象的html文档,根据获取情况及对html文档内容的分析,排除异常网址,得到目标对象。4.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S32具体包括:S321:根据预设关键词字典,对所述html文档进行分类和打分,其中,所述预设关键词字典以分类关键词为索引,所述分类关键词的值包括所述分类关键词是否启用、属于何种业务类型、所赋分值、所用的计算规则、出现频次,以及根据所赋分值、出现频次、所用的计算规则所计算的得分;S322:根据所述分类关键词所属的业务类型对所述html文档进行分类,并对每个业务类型的得分分别进行加总,得到所述html文档在三个业务类型上的初始得分,将每个业务类型上的初始得分减去各个业务类型对应的标准分值,得到所述html文档在每个业务类型的最终得分。5.根据权利要求1所述的监测跨境购房网站的方法,其特征在于,所述S33具体包括:若所述目标业务类型的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为目标业务类型,若否,则判别所述目标对象开展的业务类型为无效样本;若所述资讯的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的...

【专利技术属性】
技术研发人员:张黎娜王天晰李知常
申请(专利权)人:中国互联网金融协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1