System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种移动应用知识库构建系统和方法技术方案_技高网

一种移动应用知识库构建系统和方法技术方案

技术编号:41391420 阅读:9 留言:0更新日期:2024-05-20 19:13
本发明专利技术涉及人工智能和知识工程技术领域,本发明专利技术提供了一种移动应用知识库构建系统和方法,能够实现面向移动应用知识库的构建,完成移动应用知识库的智能应用。本发明专利技术移动应用知识库构建系统,基于APP(应用)基础信息和内容数据的多源异构数据,通过应用实体抽取、属性抽取、关系抽取等结构化处理,结合移动APP推理规则和移动APP标签图谱实现,为移动APP相似性、关联性分析以及移动应用内容分析、风险研判等建立基于检索式的知识服务方式,提供了一种面向移动应用的知识库,是一套面向业务应用的知识属性体系,提高相关的工作和生产效率。

【技术实现步骤摘要】

本专利技术涉及人工智能和知识工程,具体涉及一种移动应用知识库构建系统和方法


技术介绍

1、知识库目前逐渐演化形成了以用户为核心的建设模式,用户参与知识库建设,一方面用户为了解决工作上的难题或提升工作绩效,将向知识库寻找解决方案并提出新功能和服务要求;另一方面,用户的需求得到满足后进一步贡献相关知识和技术诀窍,参与到知识库的改进过程中,构成了一个螺旋式上升的良性循环。

2、知识图谱(knowledge graph)本质是一种叫做语义网络(semantic network)的知识库,即具有有向图结构的一个知识库,由“节点-边-节点”组成。其中节点代表“概念”或“实体”,边则代表两个节点之间的关系,用以描述现实世界中的概念、实体以及他们之间丰富的关联关系。近些年,国内推出了大量以中文为主语言的知识图谱,它们主要都是基于百度百科和维基百科的结构化信息构建起来的,如上海交通大学的zhishi.me、清华大学的xlore、复旦大学的cn-pedia。然而,目前尚没有一个专门面向移动应用的知识库及其应用。


技术实现思路

1、有鉴于此,本专利技术提供了一种移动应用知识库构建系统和方法,能够实现面向移动应用知识库的构建,完成移动应用知识库的智能应用。

2、一种移动应用知识库构建系统,包括移动app基础信息的采集模块、移动app内容数据智能分类模块、知识规则和动app标签图谱构建模块以及移动app智能搜索模块;

3、其中,移动app基础信息的采集模块进行移动应用市场数据采集,将采集到的数据结果按照要求存储至相关数据库中;

4、移动app内容数据的采集模块,采集和解析移动app特定功能、频道中内容,将采集的文字、图片内容的结果按照要求存储至数据库中;

5、移动app内容数据智能分类模块,对采集获得的文本数据进行自动分类;知识规则和动app标签图谱构建模块,基于app基础信息和内容数据的多源异构数据,通过结构化处理,结合移动app推理规则构建和移动app标签图谱构建,完成移动app知识库的构建;

6、移动app智能搜索模块,在用户检索及使用过程中,对用户的检索词进行统计,并按照访问频度进行聚焦,主动向用户推送热搜词并定期更新;同时在用户输入时,实时根据用户键入的关键词,通过内容分析实现检索词自动补全。

7、其中,所述移动app内容数据的采集模块中,通过分析移动app信息发布模式和通信特征情况,通过配置爬虫爬取链接和解析提取参数,采集和解析移动app特定功能、频道中内容。

8、其中,所述移动app内容数据的采集模块中,部分移动app核心请求与网站请求方式一致,或者可脱离app或移动设备,基于浏览器驱动的自动化测试模型,模拟移动app的web访问过程,加载目标链接以获取数据;针对不提供web服务的特定应用,对移动客户端进行抓包,分析与服务端之间的通信协议,然后分析url中爬虫用到的字段进行逆向,分析生成的算法,模拟客户端的协议,利用app模拟运行联合中间人的方式获取app内容数据。

9、其中,所述移动app内容数据智能分类模块,采用神经网络技术实现对采集获得的文本数据进行自动分类,包括文本预处理、数据抽取、数据清洗和数据转换;其中加载利用word2vec预训练好的词典,根据词典将文本分词结果向量化;利用预训练好的神经网络对新增文本进行分类。

10、其中,知识规则和动app标签图谱构建模块中,app推理规则构建是在基本规则引擎的基础上,建立一套可视化的规则管理,通过专家用户的人工管理,构建移动应用app知识库推理规则;移动app标签图谱构建是基于大型预训练模型,进行app实体抽取和关系抽取,使用openkg开放知识图谱组织的开源百科图谱作为基底知识,与抽取结果进行知识融合,结合专家用户人工标注,形成标签。

11、一种移动应用知识库构建方法,采用本专利技术所述系统实现,包括如下步骤:

12、步骤1:移动应用市场数据采集;

13、步骤2:移动应用内容采集;

14、步骤3:文本数据分类;

15、步骤4:基于规则引擎的知识规则构建;

16、步骤5:移动app标签图谱构建;

17、步骤6:移动app的相关性搜索功能、热搜词推送和检索词自动补全。

18、其中,相关性搜索具体过程为:接收用户检索词,对检索词进行语义分析,识别实体;根据识别的实体,检索实体;如果语义解析出的实体不存在知识库中,不返回任何相关搜索词;如果语义解析出的实体存在知识库中,从知识库中按照相关性评分检索实体top n相关实体,返回top n相关搜索词;记录用户操作记录是否有检索相关推荐词,如果有检索相关推荐词则说明该关键词与识别实体相关向更加符合用户的需求,则优化知识库中相关实体评分,增加两者实体的相关性评分;其中n为设定值。

19、其中,热搜词推送具体过程为:

20、用户搜索关键词时,记录用户搜索关键词;按照时间维度对搜索关键词进行统计;按照搜索次数维度对关键词进行统计;按照用户维度对关键词进行统计;记录用户浏览页面记录;根据搜索关键词时间维度统计数据、搜索次数维度统计数据利用加权算法或其他评估算法对搜索关键词进行综合评分;以用户浏览页面记录为依据,记录搜索关键词搜索结果用户采纳率,及用户维度统计数据对搜索关键词综合评分进行调优;查询top n热搜索词展示给用户。

21、其中,检索词自动补全具体过程为:

22、召回阶段提供多方位的推荐词查询数据源,为关键词自动补全推荐词提供候选数据集;构建覆盖用户拼音、汉字、缩写的搜索索引结构;模型排序阶段针对查询词,以召回阶段生成的索引结构及单个词特征数据为依据,对已有关键词进行加权融合排序,并进行自动补全词子串过滤,依据评分生成top n个自动补全推荐数据集给自动化推荐阶段;自动化补全推荐阶段根据用户输入关键词,从模型排序阶段获取符合用户查询意图的top n个自动补全推荐词给用户选择,如果用户点击采纳推荐的自动补全词,则记录该推荐词,利用该数据对自动补全推荐词评分进行优化。

23、有益效果:

24、1.本专利技术移动应用知识库构建系统,基于app(应用)基础信息和内容数据的多源异构数据,通过应用实体抽取、属性抽取、关系抽取等结构化处理,结合移动app推理规则和移动app标签图谱实现,为移动app相似性、关联性分析以及移动应用内容分析、风险研判等建立基于检索式的知识服务方式,提供了一种面向移动应用的知识库,是一套面向业务应用的知识属性体系,提高相关的工作和生产效率。

25、2.本专利技术构建系统中,使用移动app智能搜索,对比传统的字符串匹配检索方式,通过支持相关性智能搜索功能,将与该关键词相关的检索词自动推荐,供用户进一步选择使用。在用户检索及使用过程中,对用户的检索词进行统计,并按照访问频度进行聚焦,主动向用户推送热搜词并定期更新。同时在用户输入时,实时根据用户键本文档来自技高网...

【技术保护点】

1.一种移动应用知识库构建系统,其特征在于,包括移动APP基础信息的采集模块、移动APP内容数据智能分类模块、知识规则和动APP标签图谱构建模块以及移动APP智能搜索模块;

2.如权利要求1所述的系统,其特征在于,所述移动APP内容数据的采集模块中,通过分析移动APP信息发布模式和通信特征情况,通过配置爬虫爬取链接和解析提取参数,采集和解析移动APP特定功能、频道中内容。

3.如权利要求2所述的系统,其特征在于,所述移动APP内容数据的采集模块中,部分移动APP核心请求与网站请求方式一致,或者可脱离APP或移动设备,基于浏览器驱动的自动化测试模型,模拟移动APP的Web访问过程,加载目标链接以获取数据;针对不提供web服务的特定应用,对移动客户端进行抓包,分析与服务端之间的通信协议,然后分析URL中爬虫用到的字段进行逆向,分析生成的算法,模拟客户端的协议,利用APP模拟运行联合中间人的方式获取APP内容数据。

4.如权利要求1-3任意一项所述的系统,其特征在于,所述移动APP内容数据智能分类模块,采用神经网络技术实现对采集获得的文本数据进行自动分类,包括文本预处理、数据抽取、数据清洗和数据转换;其中加载利用word2vec预训练好的词典,根据词典将文本分词结果向量化;利用预训练好的神经网络对新增文本进行分类。

5.如权利要求4所述的系统,其特征在于,知识规则和动APP标签图谱构建模块中,APP推理规则构建是在基本规则引擎的基础上,建立一套可视化的规则管理,通过专家用户的人工管理,构建移动应用APP知识库推理规则;移动APP标签图谱构建是基于大型预训练模型,进行APP实体抽取和关系抽取,使用openkg开放知识图谱组织的开源百科图谱作为基底知识,与抽取结果进行知识融合,结合专家用户人工标注,形成标签。

6.一种移动应用知识库构建方法,其特征在于,采用如权利要求1-5所述系统实现,包括如下步骤:

7.如权利要求6所述的方法,其特征在于,相关性搜索具体过程为:接收用户检索词,对检索词进行语义分析,识别实体;根据识别的实体,检索实体;如果语义解析出的实体不存在知识库中,不返回任何相关搜索词;如果语义解析出的实体存在知识库中,从知识库中按照相关性评分检索实体Top N相关实体,返回Top N相关搜索词;记录用户操作记录是否有检索相关推荐词,如果有检索相关推荐词则说明该关键词与识别实体相关向更加符合用户的需求,则优化知识库中相关实体评分,增加两者实体的相关性评分;其中N为设定值。

8.如权利要求7所述的方法,其特征在于,热搜词推送具体过程为:

9.如权利要求7或8所述的方法,其特征在于,检索词自动补全具体过程为:

...

【技术特征摘要】

1.一种移动应用知识库构建系统,其特征在于,包括移动app基础信息的采集模块、移动app内容数据智能分类模块、知识规则和动app标签图谱构建模块以及移动app智能搜索模块;

2.如权利要求1所述的系统,其特征在于,所述移动app内容数据的采集模块中,通过分析移动app信息发布模式和通信特征情况,通过配置爬虫爬取链接和解析提取参数,采集和解析移动app特定功能、频道中内容。

3.如权利要求2所述的系统,其特征在于,所述移动app内容数据的采集模块中,部分移动app核心请求与网站请求方式一致,或者可脱离app或移动设备,基于浏览器驱动的自动化测试模型,模拟移动app的web访问过程,加载目标链接以获取数据;针对不提供web服务的特定应用,对移动客户端进行抓包,分析与服务端之间的通信协议,然后分析url中爬虫用到的字段进行逆向,分析生成的算法,模拟客户端的协议,利用app模拟运行联合中间人的方式获取app内容数据。

4.如权利要求1-3任意一项所述的系统,其特征在于,所述移动app内容数据智能分类模块,采用神经网络技术实现对采集获得的文本数据进行自动分类,包括文本预处理、数据抽取、数据清洗和数据转换;其中加载利用word2vec预训练好的词典,根据词典将文本分词结果向量化;利用预训练好的神经网络对新增文本进行分类。

【专利技术属性】
技术研发人员:刘晓辉赵淳璐刘洋张琳杨博姚晓张翠谢程利
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1