System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及网络信息关注用户群体,具体为用于网络信息主题及其关注用户群体的发现方法。
技术介绍
1、网络信息关注用户群体指的是在网络上关注某一信息事件,并对其发表观点、意见、评论等的人群。
2、公开号为cn115905724a的中国专利公开了一种基于双层信息区块链的重大信息事件溯源方法,主要通过构建双层区块链,基于区块链的防篡改与可追溯性,实现对社交网络平台中的各个用户行为全流程可追踪,以用户节点影响力增长幅度与情感分析算法融合机制,实现异常信息快速识别,通过双层区块链查询用户行为与用户所属社区数据,挖掘推动信息发展的个人与群体的信息,实现重大信息事件的溯源,上述专利虽然解决了信息追溯的问题,但是在实际操作中还存在以下问题:
3、1.没有将信息数据与关注用户之间的关联进行更准确的分析,从而导致信息数据与关注用户群体之间的关系了解不清楚。
4、2.没有将信息数据的浏览用户特征进行更详细的分析,从而导致无法更准确的了解不同用户与不同信息数据之间行为联系。
5、3.没有将网络信息数据根据数据的内容进行详细的主题划分,从而导致信息数据主题不明确。
技术实现思路
1、本专利技术的目的在于提供用于网络信息主题及其关注用户群体的发现方法,通过曲线数据转换、子曲线数据构建、重叠比较和关注群体比例判断等一系列步骤,可以更准确地理解用户和信息数据的内在关系和特点,提供更有价值的数据洞察和分析结果,通过提取目标信息数据中的关注浏览用户,进一步分析用户的特
2、为实现上述目的,本专利技术提供如下技术方案:
3、用于网络信息主题及其关注用户群体的发现方法,包括如下步骤:
4、s1:网络信息数据采集:将网络信息数据通过不同的获取平台进行数据获取,并将获取的数据以及该数据获取的平台进行编码对应;
5、s2:网络信息数据分析:根据对应的编码分别将获取的数据进行数据预处理,数据预处理完成后将获取的数据进行主题建模,主题建模后得到目标信息数据;
6、s3:信息关注用户信息采集:将目标信息数据中的关注用户信息进行确认,根据关注用户信息进行用户画像特征提取,并将提取的用户画面特征标注为标准用户数据;
7、s4:用户信息特征分析:将标准用户数据和目标信息数据进行特征重叠,根据重叠区域判断目标信息数据的关注群体比例。
8、优选的,针对s1中网络信息数据通过不同的获取平台进行数据获取,包括:
9、网络信息数据的获取平台包括社交媒体平台、优化网站平台、第三方数据平台、人工检索平台;
10、将不同评估获取的信息数据分别与该平台进行对应;
11、对应完成后得到获取的信息数据与获取平台的唯一编码标号。
12、优选的,针对s2中将获取的数据进行数据预处理,包括:
13、将唯一编码标号中的信息数据进行确认;
14、确认完成后将信息数据依次进行数据清洗、数据归一化和数据转换;
15、其中,数据清洗先将信息数据进行缺失值、异常值和重复值的处理,处理后得到第一处理数据;
16、再将第一处理数据缩放到预设范围内,缩放后完成数据归一化的处理,并得到第二处理数据;
17、将第二处理数据进行建模格式转换,转换后完成数据转换的处理,并得到第三处理数据。
18、优选的,数据清洗的处理过程包括:
19、提取所述信息数据中的文字数据信息;
20、对所述文字数据信息进行文字识别,判断所述文字数据信息中是否存在乱码字段;
21、当所述文字数据信息中存在乱码字段时,根据所述乱码字段的参数信息获取所述乱码字段对应的权重参数;其中,所述权重参数通过如下公式获取:
22、
23、其中,w表示乱码字段对应的权重参数;fm表示乱码字段对应的字符数;fj表示乱码字段所处短句中,所述短句所对应的字符数;fd表示乱码字段所处段落中的所述段落对应的字符数;λ表示所述乱码字段的上部分语句信息对应的平均词向量与下部分语句信息对应的平均词向量之间的余弦相速度;
24、当所述乱码字段的权重参数低于预设的权重阈值时,则判断是否需要对所述乱码字段予以删除;
25、当所述乱码字段的权重参数不低于预设的权重阈值时,则从数据接口端调取乱码部分对应的文字数据信息的原始数据信息。
26、优选的,当所述乱码字段的权重参数低于预设的权重阈值时,则判断是否需要对所述乱码字段予以删除,包括:
27、当所述乱码字段的权重参数低于预设的权重阈值时,调取所述乱码字段所处文字部分的上部分语句信息和下部分语句信息;
28、获取所述上部分语句信息对应的平均词向量与下部分语句信息对应的平均词向量之间的欧几里得距离;
29、利用所述所述上部分语句信息对应的平均词向量与下部分语句信息对应的平均词向量之间的欧几里得距离对所述所述乱码字段的权重参数进行补偿处理,获得补偿处理后的权重参数;其中,所述补偿处理后的权重参数通过如下公式获取:
30、
31、其中,wb表示补偿处理后的权重参数;o表示所述上部分语句信息对应的平均词向量与下部分语句信息对应的平均词向量之间的欧几里得距离;o0表示预设的欧几里得距离阈值;
32、当所述补偿处理后的权重参数低于预设的权重阈值时,则对所述乱码字段予以删除;
33、当所述补偿处理后的权重参数不低于预设的权重阈值时,则从数据接口端调取乱码部分对应的文字数据信息的原始数据信息。
34、优选的,针对s2中将获取的数据进行主题建模,包括:
35、当第三处理数据进行主体建模之前,先将第三处理数据进行数据主题特征提取;
36、其中,先确认第三处理数据的数据主题类型,数据主题类型包括政治信息主题、经济信息主题、文化信息主题和社会信息主题;
37、将第三处理数据进行数据主题分析,将第三处理数据分割为多层的主题树,每一层包括多个簇;
38、对每一层对应的子数据信息进行聚类信息,得到若干个聚类集合,将每个聚类集合分配给对应的簇;
39、对每个簇中的聚类集合包括的第三处理数据的语句类型进行分词操作,得到第三处理数据中的若干个提取词语;
40、确定每个提取词语的词语特征及每个提取词语在语句类型中的语句特征。
41、优选的,针对s2中将获取的数据进行主题建模,还包括:
42、根据构建的同义词词典及每个提取词语的词语特征,本文档来自技高网...
【技术保护点】
1.用于网络信息主题及其关注用户群体的发现方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对S1中网络信息数据通过不同的获取平台进行数据获取,包括:
3.根据权利要求2所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对S2中将获取的数据进行数据预处理,包括:
4.根据权利要求3所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:数据清洗的处理过程包括:
5.根据权利要求4所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:当所述乱码字段的权重参数低于预设的权重阈值时,则判断是否需要对所述乱码字段予以删除,包括:
6.根据权利要求3所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对S2中将获取的数据进行主题建模,包括:
7.根据权利要求6所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对S2中将获取的数据进行主题建模,还包括:
8.根据权利要求7所述的用于网络信息主
9.根据权利要求8所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对S3中根据关注用户信息进行用户画像特征提取,包括:
10.根据权利要求9所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对S4中根据重叠区域判断目标信息数据的关注群体比例,包括:
...【技术特征摘要】
1.用于网络信息主题及其关注用户群体的发现方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对s1中网络信息数据通过不同的获取平台进行数据获取,包括:
3.根据权利要求2所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:针对s2中将获取的数据进行数据预处理,包括:
4.根据权利要求3所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:数据清洗的处理过程包括:
5.根据权利要求4所述的用于网络信息主题及其关注用户群体的发现方法,其特征在于:当所述乱码字段的权重参数低于预设的权重阈值时,则判断是否需要对所述乱码字段予以删除,包括:
6.根据权...
【专利技术属性】
技术研发人员:方舟,曲家兴,呼大永,白瑞,杨霄璇,宋雪,徐雪吟,李锐,刘颖,姜天一,
申请(专利权)人:黑龙江省网络空间研究中心黑龙江省信息安全测评中心,黑龙江省国防科学技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。