一种基于制造技术

技术编号:39571586 阅读:11 留言:0更新日期:2023-12-03 19:22
本发明专利技术提供了一种基于

【技术实现步骤摘要】
一种基于AIGC的资讯文档收集系统


[0001]本专利技术涉及电数字数据处理领域,具体涉及一种基于
AIGC
的资讯文档收集系统


技术介绍

[0002]网络途径是当前了解事件内容的最常见方式,但在当前的网络环境下,在不同的资讯站点会存在重复的资讯内容,大大影响了用户全面了解事情的准确性以及效率,因此,需要一种系统能够全面收集特定的资讯内容,帮助用户掌握网络上的信息

[0003]
技术介绍
的前述论述仅意图便于理解本专利技术

此论述并不认可或承认提及的材料中的任一种公共常识的一部分

[0004]现在已经开发出了很多资讯收集系统,经过我们大量的检索与参考,发现现有的资讯收集系统有如公开号为
CN114817730B
所公开的系统,这些系统一般包括数据采集模块

数据分析模块

资讯推荐模块

数据库

本专利技术可通过用户检索数据实时采集输入检索数据

停留观看时间

重复观看次数;提取活动信息的关键词,根据关键词以及近似关键词匹配同类活动信息,推送相同

相似关键词资讯活动信息数量;根据用户对资讯信息停留观看时间长短

资讯活动信息观看次数,分析判断后续资讯活动信息推荐的数量,并实时调整资讯活动信息推荐的数量;检索查看中断后,进入资讯锁定状态,直接大幅度减少同类活动信息推荐量,同时根据用户后续查阅数据实时调整推荐量,当查阅量达到临界点,解除锁定状态

但该系统仅用于推送资讯,而无法提供全面的需求资讯,无法帮助用户更准确

快速地了解网络上的资讯内容


技术实现思路

[0005]本专利技术的目的在于,针对所存在的不足,提出了一种基于
AIGC
的资讯文档收集系统

[0006]本专利技术采用如下技术方案:一种基于
AIGC
的资讯文档收集系统,包括数据接入模块

场景标注模块

收集采纳模块

文档管理模块和交互处理模块;所述数据接入模块用于连接资讯站点并获取文本信息,所述场景标注模块用于对每份文本信息进行场景标注,所述收集采纳模块用于收集符合要求的文本信息并生成对应的文档,所述文档管理模块用于对文档进行整理理清资讯内容的发展关系,所述交互处理模块用于输入要求信息并显示收集结果;所述数据接入模块包括网络连接单元和数据抓取单元,所述网络连接单元用于与资讯站点建立连接关系,所述数据抓取单元用于从连接的资讯站点中抓取文本信息并记录相关信息;所述场景标注模块包括文本分析单元和场景标注单元,所述文本分析单元用于对每份文本信息进行语义分析,所述场景标注单元根据语义分析结果为每份文本信息添加对应的场景标注;
所述收集采纳模块包括条件匹配单元和文档生成单元,所述条件匹配单元用于对文本信息进行筛选匹配,选出符合要求的文本信息,所述文档生成单元基于选出的文本信息生成特定形式的文档;进一步的,所述文本分析单元包括实意词判断处理器

实意词统计处理器和关键词分析处理器,所述实意词判断处理器用于判断文本信息中的词是否含有实际含义,在含有实际含义的基础上再判断实意词的词性,所述实意词统计处理器用于统计每个实意词的出现次数,所述关键词分析处理器基于词性以及出现次数从实意词中筛选出关键词,所述关键词分析处理器根据下式计算出每个实意词的关键指数
Cr
:;其中,
n
为实意词的出现次数,
s
为在相同词性实意词中的排序,出现次数越多,排序越靠前,
a
为调整参数;所述关键词分析处理器将选取关键指数较大的
m
个实意词作为关键词,
m
为预设的关键词数量;进一步的,所述场景标注单元包括场景分类管理处理器和场景标注计算处理器,所述场景分类管理处理器用于记录每类场景所包含的关键词以及关键词的场景关联度,所述场景标注计算处理器用于计算每类场景与文本信息关键词之间的标注度
Ma
:;其中,
W
表示场景中包含的关键词,表示关键词的场景关联度,表示关键词是否属于文本信息的关键词,当属于文本信息的关键词时,
=1
,当不属于文本信息的关键词时,
=0
;当所述标注度大于标注阈值时,对文本信息添加对应的场景标注;进一步的,所述条件匹配单元包括要求信息解析处理器和匹配计算处理器,所述要求信息解析处理器用于接收并解析要求信息,所述匹配计算处理器用于将解析结果和资讯文本的场景标注信息进行匹配计算处理;所述要求信息解析处理器根据每类场景包含的关键词信息将要求信息直接解析为相关的场景标注,所述匹配计算处理器根据下式计算出要求信息与文本的匹配度
P
:;其中,为要求信息的场景标注数量,为资讯文本的场景标注数量,为要求信息和资讯文本的相同场景标注数量;当
P
大于阈值时,匹配成功;进一步的,所述交互处理模块包括用户输入单元和结果展示单元,所述用户输入单元用于提供界面输入要求信息,所述结果展示单元用于显示收集的资讯内容,所述用户输入单元包括显示输入处理器和信息传输处理器,所述显示输入处理器用于显示至少两个要求项,每个要求项中能够输入文字信息,所述要求项分为一级要求项和二级要求项,所述信息传输处理器用于要求项中的文字信息转发至数据接入模块和收集采纳模块,其中,一级要求项的文字信息被发送至数据接入模块,二级要求项的文字信息被发送至收集采纳模


[0007]本专利技术所取得的有益效果是:本系统通过
AIGC
技术提供了场景标注与关键词之间的关系,并基于这关系对获取的资讯文本进行场景标注,然后再根据场景标注与需求信息进行匹配,获得全面的资讯文档,同时对资讯文档进行逻辑整理,合并重复资讯,根据时间信息得到资讯的发展路线,使用户能够更全面地了解资讯内容

[0008]为使能更进一步了解本专利技术的特征及
技术实现思路
,请参阅以下有关本专利技术的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本专利技术加以限制

附图说明
[0009]图1为本专利技术整体结构框架示意图;图2为本专利技术场景标注模块构成示意图;图3为本专利技术收集采纳模块构成示意图;图4为本专利技术文本分析单元构成示意图;图5为本专利技术场景标注单元构成示意图

具体实施方式
[0010]以下是通过特定的具体实施例来说明本专利技术的实施方式,本领域技术人员可由本说明书所公开的内容了解本专利技术的优点与效果

本专利技术可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本专利技术的精神下进行各种修饰与变更

另外,本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
AIGC
的资讯文档收集系统,其特征在于,包括数据接入模块

场景标注模块

收集采纳模块

文档管理模块和交互处理模块;所述数据接入模块用于连接资讯站点并获取文本信息,所述场景标注模块用于对每份文本信息进行场景标注,所述收集采纳模块用于收集符合要求的文本信息并生成对应的文档,所述文档管理模块用于对文档进行整理理清资讯内容的发展关系,所述交互处理模块用于输入要求信息并显示收集结果;所述数据接入模块包括网络连接单元和数据抓取单元,所述网络连接单元用于与资讯站点建立连接关系,所述数据抓取单元用于从连接的资讯站点中抓取文本信息并记录相关信息;所述场景标注模块包括文本分析单元和场景标注单元,所述文本分析单元用于对每份文本信息进行语义分析,所述场景标注单元根据语义分析结果为每份文本信息添加对应的场景标注;所述收集采纳模块包括条件匹配单元和文档生成单元,所述条件匹配单元用于对文本信息进行筛选匹配,选出符合要求的文本信息,所述文档生成单元基于选出的文本信息生成特定形式的文档
。2.
如权利要求1所述的一种基于
AIGC
的资讯文档收集系统,其特征在于,所述文本分析单元包括实意词判断处理器

实意词统计处理器和关键词分析处理器,所述实意词判断处理器用于判断文本信息中的词是否含有实际含义,在含有实际含义的基础上再判断实意词的词性,所述实意词统计处理器用于统计每个实意词的出现次数,所述关键词分析处理器基于词性以及出现次数从实意词中筛选出关键词,所述关键词分析处理器根据下式计算出每个实意词的关键指数
Cr
:;其中,
n
为实意词的出现次数,
s
为在相同词性实意词中的排序,出现次数越多,排序越靠前,
a
为调整参数;所述关键词分析处理器将选取关键指数较大的
m
个实意词作为关键词,
m
为预设的关键词数量
。3.
...

【专利技术属性】
技术研发人员:张卫平王丹邵胜博李显阔张伟
申请(专利权)人:环球数科集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1