当前位置: 首页 > 专利查询>中国人民解放军军事科学院系统工程研究院专利>正文

一种云边端架构下的文本信息协同过滤方法技术

技术编号：41228910 阅读：4 留言：0更新日期：2024-05-09 23:45

本发明专利技术公开了一种云边端架构下的文本信息协同过滤方法，属于云计算技术领域，对信息文本基于虚词进行了样本提取，并通过分词进行了二次降维，提高了相似度对比的效率，更适配边缘环境高实时要求。该方案包括以下步骤：构建云‑边‑端模式的协同模拟应用场景，包括各级中心云、边缘云以及终端，终端包括手持式终端和嵌入式终端。在每个协同模拟节点部署信息过滤软件。各协同模拟节点间通过网络连接的方式建立协同机制；网络连接的方式包括有线宽带、无线局域网以及无线自组网。针对云‑边‑端模式的协同模拟应用场景下各协同模拟节点间的信息进行汇聚同步。信息过滤软件在各协同模拟节点信息汇聚同步时自主过滤重复度高于设定门限的文本信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及云计算，具体涉及一种云边端架构下的文本信息协同过滤方法。

技术介绍

1、“云-边-端”中的云是中心云，边即边缘云，云由各级中心云构成，网络环境稳定，按需共享通信网络等资源；边的构成覆盖各级各类业务信息系统，边利用有限的资源构建高内聚的服务能力；端由平板、手机等终端组成，轻量便携。边对上可与中心云互联，对下可为终端用户提供伴随式服务；此外，也可与其它边互联，共同形成“云-边-端”的协同架构。

2、信息文本过滤一直是热门研究问题，在资源受限的边缘协同模式下，如何有效对文本信息重复过滤不仅能够节省资源，更是高实时高动态的基本要求，目前已有的相关方法包括url去重过滤、链接分析去重过滤以及基于内容的去重过滤方法，现有方法相似度对比效率低，不能适配边缘环境高实时要求。

技术实现思路

1、有鉴于此，本专利技术提供了一种云边端架构下的文本信息协同过滤方法，能够对信息文本基于虚词进行了样本提取，并通过分词进行了二次降维，提高了相似度对比的效率，更适配边缘环境高实时要求。

2、为达到上述目的，本专利技术的技术方案包括以下步骤：

3、步骤1：构建云-边-端模式的协同模拟应用场景，包括各级中心云、边缘云以及终端，终端包括手持式终端和嵌入式终端。

4、步骤2：在每个协同模拟节点部署信息过滤软件。

5、步骤3：各协同模拟节点间通过网络连接的方式建立协同机制；网络连接的方式包括有线宽带、无线局域网以及无线自组网。

6、步骤4

7、信息过滤软件在各协同模拟节点信息汇聚同步时自主过滤重复度高于设定门限的文本信息。

8、进一步地，步骤1中构建云-边-端模式的协同模拟应用场景的具体步骤为：

9、以服务器、交换机、加固客户机以及存储设备模拟中心云；以服务器、交换机以及加固客户机模拟边缘云；以平板模拟嵌入式终端；以手机模拟手持终端。

10、进一步地，步骤3中，各协同模拟节点间通过网络连接的方式建立协同机制的具体步骤包括：

11、中心云与边缘云通过百兆有线宽带建立云边协同模式；

12、边缘云与边缘云通过无线局域网建立边边对等协同模式；

13、边缘云与平板通过数据链建立边端协同模式；

14、边缘云与手机通过窄带网建立边端协同模式；

15、平板与手机通过无线自组织网建立端端对等协同模式。

16、进一步地，步骤4：针对云-边-端模式的协同模拟应用场景下各协同模拟节点间的信息进行汇聚同步，具体步骤为：

17、云边协同模式下，边通过信息上报的方式向云同步文本信息，而云通过信息下发向边同步文本信息。

18、边边对等、端端对等模式下通过组播的方式同级同步文本信息。

19、边端协同模式下，端通过信息上报的方式向边同步文本信息，而边通过信息下发向端同步文本信息。

20、进一步地，信息过滤软件在各协同模拟节点信息汇聚同步时自主过滤重复度高于设定门限的文本信息，具体采用如下步骤：

21、①基于文本信息文件的虚词特征提取特征段样本；

22、②对文本信息特征段样本进行分词，将信息特征段简化为分词向量；

23、③通过余弦相似度算法对分词向量进行两两计算，判断文本信息是否重复；如果重复则以文本信息文件大小为基准门限，保留大于基准门限的文件，小于基准门限的文件作为重复文件从同步库中删除。

24、进一步地，基于文本信息文件的虚词特征提取特征段样本的具体步骤为：对文本信息文件顺序遍历；以虚词数大于3的文本段为大段落，依照虚词数对文本段落进行排序，优先选择前三个大段落作为信息文本特征段；若特征段少于3个则选择字数最长的前几个文本段自动补齐三个文本段作为特征段。

25、有益效果：

26、本专利技术提供的一种云边端架构下的文本信息协同过滤方法，本专利技术通过根据边缘网络环境智能无感切换协同模式，自主形成云边、边端、边边、端端的协同模式；通过虚词的文本信息样本段提取、样本段分词的两次降维，时间上提高了效率；通过余弦相似度滤比较相似度优化了空间效率；通过对文本信息的多模式协同过滤在节约资源占用率的同时可靠保障了文本信息的高实时与唯一性。该方法是一种能够适应资源受限、网络通信时断时续边缘环境的文本信息过滤技术，通过过滤文本信息在节约资源的同时能够对协同节点传输的多份文本信息进行实时过滤更新，满足高实时场景需求。

本文档来自技高网...

【技术保护点】

1.一种云边端架构下的文本信息协同过滤方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种云边端架构下的文本信息协同过滤方法，其特征在于，步骤1中构建云-边-端模式的协同模拟应用场景的具体步骤为：

3.根据权利要求1或2所述的一种云边端架构下的文本信息协同过滤方法，其特征在于，所述步骤3中，各协同模拟节点间通过网络连接的方式建立协同机制的具体步骤包括：

4.根据权利要求3所述的一种云边端架构下的文本信息协同过滤方法，其特征在于，所述步骤4：针对云-边-端模式的协同模拟应用场景下各协同模拟节点间的信息进行汇聚同步，具体步骤为：

5.根据权利要求4所述的一种云边端架构下的文本信息协同过滤方法，其特征在于，所述信息过滤软件在各协同模拟节点信息汇聚同步时自主过滤重复度高于设定门限的文本信息，具体采用如下步骤：

6.根据权利要求5所述的一种云边端架构下的文本信息协同过滤方法，其特征在于，所述基于文本信息文件的虚词特征提取特征段样本的具体步骤为：

【技术特征摘要】

1.一种云边端架构下的文本信息协同过滤方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种云边端架构下的文本信息协同过滤方法，其特征在于，步骤1中构建云-边-端模式的协同模拟应用场景的具体步骤为：

4.根据权利要求3所述的一种云边端架构下的文本信息协同过...

【专利技术属性】
技术研发人员：汪李峰，吴丰，李智敏，刘千里，于睿，
申请(专利权)人：中国人民解放军军事科学院系统工程研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人