一种数据提取方法技术

技术编号:21089559 阅读:64 留言:0更新日期:2019-05-11 09:57
本发明专利技术提供一种数据提取方法,所述数据包括一类数据和二类数据,所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据,包括:获取数据集合,所述数据集合包括一类数据和二类数据;对所述数据集合进行预处理以得到数据网络集合{di},所述数据网络集合中的数据网络元素以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据;根据所述数据网络集合中的顶点的标题获取主题向量集;获取数据网络集合中各个顶点的标识与所述主题向量集中各个向量的相关度,得到相关度集合;根据所述相关度集合进行数据提取。本发明专利技术能够有效提取目标用户和与主题相关的重要数据。

A Data Extraction Method

【技术实现步骤摘要】
一种数据提取方法
本专利技术涉及通信领域,尤其一种数据提取方法。
技术介绍
在数据分析领域,经常需要对数据进行清洗和提取。在常见互动性网站中,比如知乎,百度贴吧存在大量的用户互评类数据,这类数据能够反应用户的个人偏好,也能够用于研究时事热点和社会现象,存在较多的社会信息,能够被广泛的应用于广告目标用户研究,热点问题研究,舆情监督等各个领域。但是现有技术中缺乏对于这类数据的有效清洗和科学分析方法,从而能够得到的信息有限。
技术实现思路
为了解决上述技术问题,本专利技术提供一种数据提取方法。本专利技术是以如下技术方案实现的:一种数据提取方法,所述数据包括一类数据和二类数据,所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据,包括:获取数据集合,所述数据集合包括一类数据和二类数据;对所述数据集合进行处理以得到数据网络集合{di},所述数据网络集合中的数据网络元素以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据;根据所述数据网络集合中的顶点的标题获取主题向量集;获本文档来自技高网...

【技术保护点】
1.一种数据提取方法,所述数据包括一类数据和二类数据,所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据,其特征在于,包括:获取数据集合,所述数据集合包括一类数据和二类数据;对所述数据集合进行处理以得到数据网络集合{di},所述数据网络集合中的数据网络元素以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据;根据所述数据网络集合中的顶点的标题获取主题向量集;获取数据网络集合中各个顶点的标识与所述主题向量集中各个向量的相关度,得到相关度集合;根据所述相关度集合进行数据...

【技术特征摘要】
1.一种数据提取方法,所述数据包括一类数据和二类数据,所述一类数据为直接发布的数据,所述二类数据为针对一类数据的评论数据,其特征在于,包括:获取数据集合,所述数据集合包括一类数据和二类数据;对所述数据集合进行处理以得到数据网络集合{di},所述数据网络集合中的数据网络元素以di={V,E}的形式记录,其中V为用户标识,E代表一个用户标识发布的二类数据对另一个用户标识发布的一类数据的评论关系,每个顶点均包括用户标识、标题和内容三部分数据;根据所述数据网络集合中的顶点的标题获取主题向量集;获取数据网络集合中各个顶点的标识与所述主题向量集中各个向量的相关度,得到相关度集合;根据所述相关度集合进行数据提取。2.根据权利要求1所述的方法,其特征在于,所述根据所述相关度集合进行数据提取包括:为所述主题向量集中的各个主题生成数据容器,每个主题有唯一对应的数据容器,所述数据容器用于收集与所述主题对应的数据;获取待提取顶点的相关度集合;判断所述相关度集合中是否存在目标相关度,所述相关度为值大于第一预设阈值的相关度,若存在,则将目标相关度提取出来;获取所述目标相关度对应的主题,将所述待提取顶点的加入所述主题对应的数据容器之中;获取下一个待提取顶点,若所述下一个待提取顶点不为空,则重复执行步骤:...

【专利技术属性】
技术研发人员:金涛江浩
申请(专利权)人:杭州铭智云教育科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1