一种基于网页内容识别的用户信息挖掘方法与系统技术方案

技术编号:38097808 阅读:13 留言:0更新日期:2023-07-06 09:13
本发明专利技术公开了一种基于网页内容识别的用户信息挖掘方法与系统。该用户信息挖掘方法周期性提取社交媒体网页中页面数据,根据第一文本数据挖掘页面源码,再挖掘页面源码中的第二文本数据,输入第二参考信息提取域名信息中的账号信息,再基于二级超链接网址提取用户信息。本发明专利技术可以根据使用者提供的第一参考信息和第二参考信息,挖掘有效的用户信息。本发明专利技术以第一参考信息建立索引权重,优先识别相似度较高的图像数据,可以提高挖掘用户信息的效率。率。率。

【技术实现步骤摘要】
一种基于网页内容识别的用户信息挖掘方法与系统


[0001]本专利技术涉及网页数据处理技术,尤其涉及一种基于网页内容识别的用户信息挖掘方法与系统。

技术介绍

[0002]大数据时代下信息传播速度更快,尤其是在社交媒体网页中,具有商业价值的用户信息处于公开状态。获取用户信息对于优化网络营销渠道具有重要的商业价值,能够大大提高商业行为的精确度。现有技术中,CN114385709A公开了一种用户信息挖掘方法及装置,通过不同维度权重评分挖掘决策人,该方案仅适用于通话业务。另外,CN112667702A公开了一种基于大数据的数据挖掘系统,通过单独建立分布式的大数据分析和挖掘平台,用于数据分析挖掘、模型部署以及平台集成的管理,用于泛化大数据信息的挖掘和信息处理。但是该方案没有涉及从页面内容识别实现用户信息挖掘的方法。因此,现有技术希望能够具有一种通过页面内容提取用户信息的技术手段,用于解决社交媒体网页用户信息获取难的技术问题。

技术实现思路

[0003]针对上述问题,本专利技术提供了一种基于网页内容识别的用户信息挖掘方法与系统。该方法通过获取社交媒体网页的页面数据,根据第一文本数据挖掘页面源码,挖掘页面源码中的第二文本数据,输入第二参考信息提取域名信息中的账号信息,再基于二级超链接网址提取用户信息。
[0004]进一步的,本专利技术基于标签建立图像数据的索引表,并按照用户信息的准确性修正索引权重,优先识别记载用户信息频率较高的图像数据。再进一步的,本专利技术将社交媒体网页更新时的数据请求项作为挖掘对象,扩大了数据范围,可以提高数据提取的成功率。
[0005]本申请的专利技术目的可通过以下技术手段实现:一种基于网页内容识别的用户信息挖掘方法,包括以下步骤:步骤1:输入社交媒体网页的地址,根据该地址获取社交媒体网页中的页面数据,基于页面生成规则提取第一文本数据和多组图像数据;步骤2:根据第一文本数据提取社交媒体网页的页面源码,并挖掘所述页面源码中的第二文本数据;步骤3:输入第一参考信息,基于第一参考信息提取第二文本数据的域名信息;步骤4:判断域名信息是否有效,若域名信息有效,则进入步骤5,若域名信息无效,则进入步骤7;步骤5:输入第二参考信息,提取域名信息的账号信息,再获取账号信息的二级超链接网址,基于第二参考信息抓取二级超链接网址中的用户信息;步骤6:判断用户信息是否有效,若用户信息有效,则进入步骤9,若用户信息无效,则进入步骤7;
步骤7:根据图像数据的标签建立图像数据的索引表,根据预设的索引权重排列所述索引表的图像数据;步骤8:按照索引表顺序逐一调用图像数据,识别图像数据中的用户信息,若用户信息有效,调整该图像数据的索引权重,否则继续调用图像数据;步骤9:存储所述用户信息。
[0006]在本专利技术中,在步骤1中,页面生成规则包括页面结构与页面内各个数据项的位置,将页面数据的HTML文档转换为XHTML文档,提取所述XHTML文档中的标签,保留指向第一文本数据和图像数据的至少一个标签,构成所述页面结构。
[0007]在本专利技术中,在步骤1中,建立Ajax异步数据加载模块,监听社交媒体网页的数据请求项,查找数据请求项的缓存文本与缓存图像,将缓存文本纳入所述第一文本数据,将缓存图像纳入所述图像数据。
[0008]在本专利技术中,在步骤2中,记录解析页面源码后返回的cookie,写入多个cookie后构建cookie池,根据cookie池的脚本提取第二文本数据。
[0009]在本专利技术中,第一参考信息为用户身份编码,第二参考信息为基于域名信息确定的URL链接。
[0010]在本专利技术中,在步骤4中,对域名信息进行DNS解析,若解析成功则返回IP地址,该域名信息有效,若未返回IP地址,域名信息无效。
[0011]在本专利技术中,在步骤6中,若所述用户信息缺失属性字段或包含无效字段,则用户信息无效,否则用户信息有效。
[0012]在本专利技术中,在步骤7中,提取图像数据的二值特征与第一参考信息的文本特征,图像数据的索引权重为,为文本特征i与二值特征d的相似度,f1为第一参考信息的所有文本特征,f2为图像数据的所有二值特征。
[0013]在本专利技术中,在步骤8中,调整后的索引权重,A为调整系数,t
a
为从该图像数据提取有效用户信息的次数,t
max
为提取有效用户信息的总次数。
[0014]一种实现所述基于网页内容识别的用户信息挖掘方法的用户信息挖掘系统,包括第一数据识别模块、第二数据识别模块、第三数据识别模块、文本分析模块、图像分析模块、判别模块、第一数据库、第二数据库,其中,第一数据识别模块用于提取页面数据的第一文本数据和多组图像数据;第二数据识别模块用于提取社交媒体网页的页面源码并挖掘第二文本数据;第三数据识别模块用于提取第二文本数据的域名信息;文本分析模块用于抓取二级超链接网址中的用户信息;图像分析模块用于识别图像数据中的用户信息;判别模块用于判断域名信息和用户信息是否有效;第一数据库用于根据索引表并存储图像数据;第二数据库用于存储用户信息。
[0015]实施本专利技术的基于网页内容识别的用户信息挖掘方法与系统,具有以下有益效
果:本专利技术通过周期性提取社交媒体网页中页面数据,可以按照使用者提供的第一参考信息和第二参考信息精确抓取社交媒体网页中的相关数据。鉴于图像数据识别速度慢,本专利技术以第一参考信息建立索引权重,优先识别相似度较高的图像数据,可以提高挖掘用户信息的效率。当社交媒体网页数量较多时,本专利技术将社交媒体网页更新时的数据请求项作为挖掘对象,可以提高数据提取的成功率。
附图说明
[0016]图1为本专利技术的基于网页内容识别的用户信息挖掘方法的流程图;图2为本专利技术的社交媒体网页的示意图;图3为本专利技术的拼接URL链接的示例图;图4为本专利技术的基于第一参考信息提取域名信息的原理图;图5为本专利技术优选的提取社交媒体网页数据的方法的示意图;图6为本专利技术优选的通过二级超链接网址内生成用户信息的方法的示意图;图7为本专利技术的用户信息挖掘系统的硬件框图。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0018]商业用户信息广泛存在于各类社交媒体网页中,社交媒体网页中账号信息和域名信息可以作为查找商业用户信息的主要方法。大部分社交媒体网页中,域名信息由公司名称、账号信息、域名主体构成。而账号信息、域名信息在社交媒体网页中可以作为挖掘用户信息的条件。本专利技术的这种基于网页内容识别的用户信息挖掘方法与系统,可以按照使用者提供的第一参考信息和第二参考信息精确抓取社交媒体网页中的相关数据。同时以第一参考信息建立索引权重,优先识别相似度较高的图像数据,可以提高挖掘用户信息的效率。
实施例一
[0019]本实施例的的基于网页内容识别的用户信息挖掘方法,基于账号信息、域名信息访问社交媒体网页主页后,基于分布式爬虫架构获取网页源码及二级超级链接,在二级超级链接中获取用户信息。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网页内容识别的用户信息挖掘方法,其特征在于,包括以下步骤:步骤1:输入社交媒体网页的地址,根据该地址获取社交媒体网页中的页面数据,基于页面生成规则提取第一文本数据和多组图像数据;步骤2:根据第一文本数据提取社交媒体网页的页面源码,并挖掘所述页面源码中的第二文本数据;步骤3:输入第一参考信息,基于第一参考信息提取第二文本数据的域名信息;步骤4:判断域名信息是否有效,若域名信息有效,则进入步骤5,若域名信息无效,则进入步骤7;步骤5:输入第二参考信息,提取域名信息的账号信息,再获取账号信息的二级超链接网址,基于第二参考信息抓取二级超链接网址中的用户信息;步骤6:判断用户信息是否有效,若用户信息有效,则进入步骤9,若用户信息无效,则进入步骤7;步骤7:根据图像数据的标签建立图像数据的索引表,根据预设的索引权重排列所述索引表的图像数据;步骤8:按照索引表顺序逐一调用图像数据,识别图像数据中的用户信息,若用户信息有效,调整该图像数据的索引权重,否则继续调用图像数据;步骤9:存储所述用户信息。2.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法,其特征在于,在步骤1中,页面生成规则包括页面结构与页面内各个数据项的位置,将页面数据的HTML文档转换为XHTML文档,提取所述XHTML文档中的标签,保留指向第一文本数据和图像数据的至少一个标签,构成所述页面结构。3.根据权利要求2所述的基于网页内容识别的用户信息挖掘方法,其特征在于,在步骤1中,建立Ajax异步数据加载模块,监听社交媒体网页的数据请求项,查找数据请求项的缓存文本与缓存图像,将缓存文本纳入所述第一文本数据,将缓存图像纳入所述图像数据。4.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法,其特征在于,在步骤2中,记录解析页面源码后返回的cookie,写入多个cookie后构建cookie池,根据cookie池的脚本提取第二文...

【专利技术属性】
技术研发人员:陈景宏孙斌
申请(专利权)人:江西顶易科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1