System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据技术中数据挖掘与分析和自然语言处理领域,主要涉及一种基于五类网络数据的虚实实体探测技术。
技术介绍
1、在大数据技术中,数据挖掘与分析和自然语言处理是两个非常重要的领域。数据挖掘与分析涉及到对大规模、分散的信息数据资源进行收集,清洗和预处理,并根据不同的数据建立不同的模型处理,然后对数据挖掘结果进行解释和分析得到需要的数据。而自然语言处理则是指对大数据的有效管理、处理和使用,以使其更有价值和可用性。在大数据环境下,需要从海量数据中快速定位和提取需求数据,从而更好地服务于业务需求和发展。而数据挖掘与分析技术恰好能够满足这一需求,它通过特征选择和特征提取,从原始数据中选择或创建最相关的特征来表示数据,再选择适当的数据挖掘模型或算法,例如聚类、分类、关联规则挖掘、时间序列分析等。根据数据的特点和问题的要求,建立合适的模型处理数据。而自然语言处理,则需要对数据进行信息抽取等多个环节的处理,将繁琐的抽取数据工作交给机器处理,以提高数据质量和可用性并减少成本。
2、现有的应用产品依赖大数据技术对不同的网站进行爬取、数据抓取和数据处理工作,并且要对这些数据进行预处理、过滤、分类和索引等操作,以加快搜索效率。包括数据存储、数据清洗、分析、挖掘等多种技术手段,使得搜索更加方便快捷,覆盖面广阔,但是相对应的,这些应用也有缺点,当需要精准搜索实体身份时,比如满足虚拟身份能关联到相关标识信息时就力有不逮,只能通过人工分析整合各条数据进行查询,耗费时间长不说而且会有虚假的信息掺杂其中,浪费时间又耗费精力,这个时候人们迫切需要一
技术实现思路
1、针对现有技术中的问题,本申请提出了一种基于五类网络数据的虚实实体探测技术,运用大数据技术治理采集到的五类虚实相关数据,针对数据进行实体和实体关系的识别提取,提升查询的可靠性,准确性和分析效率,增加自然语言处理功能,自动化处理相关数据。
2、基于五类网络数据的虚实实体探测技术的专利技术目的是采集五类网络相关虚实数据后,运用数据挖掘技术针对不同数据选择适当的数据挖掘模型或算法,例如聚类、分类、关联规则挖掘、时间序列分析等建立合适模型,收集,清洗,预处理技术。运用自然语言处理技术处理数据,一部分自动地从文本数据中抽取和识别出各种实体及其对应的属性、关系等信息,从而帮助用户更快地获取相关信息和知识。通过基于五类网络数据的虚实实体探测技术,可以实现以下目标:
3、1.提高搜索引擎和推荐系统的精度:基于五类网络数据的虚实实体探测技术可以使搜索引擎和推荐系统更加智能化和精准化,从而提高搜索结果和推荐结果的质量和精度。
4、2.提高企业和机构的决策分析效率:基于五类网络数据的虚实实体探测技术可以帮助企业和机构更快地找到相关信息,实现信息的智能化和高效化处理,因此能够提高决策分析效率和准确性。
5、3.提高网络安全性:基于五类网络数据的虚实实体探测技术可以帮助检测虚拟身份的滥用,提高网络安全性。
6、根据本专利技术的一方面,提出了一种基于五类网络数据的虚实实体探测技术,具体包括:
7、步骤s1、采集五类网络数据。
8、进一步的,所述五类网络数据具体包括社交媒体、新闻媒体、股票数据、网页数据和论坛信息等数据。
9、步骤s2、利用大数据处理技术将所述五类网络数据进行处理和清洗生成结构化数据。
10、进一步的,所述大数据处理技术具体包括:对收集到的五类网络数据进行去除噪声、分段、切分句子、时间格式化和结构化处理。
11、其中,结构化处理具体包括:对数据进行识别,获取数据中的实体、属性和关系生成结构化数据。
12、步骤s3、利用自然语言处理技术自动化识别出所述结构化数据中的实体和实体关系。
13、进一步的,所述的自然语言处理技术具体包括:对所述结构化数据进行解析、句子分词、词性标注和语法分析。
14、进一步的,所述的自动化识别出所述结构化数据中的实体和实体关系具体为虚实映射实体关系的识别和提取。
15、其中,所述虚实映射实体关系的识别和提取具体还包括:
16、对所述结构化数据进行句子划分,对所述句子进行数据分词、词性标注、命名实体和依存分析。
17、利用依存结构进行规则匹配获取句法规则,每匹配一条生成式为一条句法规则,利用所述的句法规则生成三元组。
18、对三元组进一步处理识别出关系。
19、步骤s4、利用分布式数据库存储所述结构化数据中的实体和实体关系。
20、进一步的,所述的分布式数据库具体包括:采用分布式搜索和分析引擎elasticsearch实现对数据的高效存储和查询。
21、步骤s5、利用统计模型来统计所述结构化数据中的实体和实体关系实现数据可视化展示。
22、进一步的,所述的统计模型具体包括:对数据总量、数据类别、关系种类和常用数据的统计。
23、本专利技术的优点及有益效果如下:
24、1、提高查询准度,采集五类网络数据相关表,大数据处理之后搜索准度更加精准。
25、2、提升查询效率,采集五类网络数据相关表,查询数据效率更加高效。
26、3、关联分析,对于五类网络数据,关联相关数据分析处理,提升分析效率并智能化辅助决策。
27、4、通过自然语言处理,对收集到的五类网络数据进行解析、分词、词性标注、语法分析等处理,从而提取实体及其相关信息,自动化处理数据,提升数据处理效率,降低维护成本。
本文档来自技高网...【技术保护点】
1.一种基于五类网络数据的虚实实体探测技术,其特征在于,包括以下步骤:
2.根据权利要求1所述的虚实实体探测技术,其特征在于:
3.根据权利要求1所述的虚实实体探测技术,其特征在于:
4.根据权利要求1所述的虚实实体探测技术,其特征在于:
5.根据权利要求1所述的虚实实体探测技术,其特征在于:
6.根据权利要求1所述的虚实实体探测技术,其特征在于:
7.根据权利要求1所述的虚实实体探测技术,其特征在于:
8.根据权利要去3所述的虚实实体探测技术,其特征在于:所述结构化处理具体包括:对数据进行识别,获取数据中的实体、属性和关系生成结构化数据。
9.根据权利要求5所述的虚实实体探测技术,其特征在于:所述虚实映射实体关系的识别和提取具体还包括:
10.根据权利要求9所述的虚实实体探测技术,其特征在于:
11.一种计算机可读介质,其中存储有计算机程序,所述计算机程序在被处理器执行时实施如权利1-10中任一项所述的方法。
【技术特征摘要】
1.一种基于五类网络数据的虚实实体探测技术,其特征在于,包括以下步骤:
2.根据权利要求1所述的虚实实体探测技术,其特征在于:
3.根据权利要求1所述的虚实实体探测技术,其特征在于:
4.根据权利要求1所述的虚实实体探测技术,其特征在于:
5.根据权利要求1所述的虚实实体探测技术,其特征在于:
6.根据权利要求1所述的虚实实体探测技术,其特征在于:
7.根据权利要求1所述的虚实实体探测技术,其特征...
【专利技术属性】
技术研发人员:林山,陈子夫,陈妙瑛,叶青,
申请(专利权)人:厦门安胜网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。