The invention relates to a short text data aggregation system, including data acquisition module, used to obtain the first set, the data to be aggregated short short text data; data extraction module, used to form the first field attribute data second sets and second field attribute data; and the data aggregation module, including query candidate data unit, similarity calculation the passage unit and data aggregation unit; wherein, the candidate data query unit from second set query and second field attribute data of a plurality of first field attribute data, similarity similarity calculation unit calculated between each of the first field second field attribute data and attribute data, this essay data aggregation unit data corresponding to the short text the highest similarity first field attribute data and text data gathered polymerization He. The data aggregation process based on the system has high matching accuracy and high system execution efficiency. The system is simple in logic and easy to configure.
【技术实现步骤摘要】
短文本数据聚合系统及方法
本专利技术涉及数据融合
,更具体地说,涉及一种短文本数据聚合系统及方法。
技术介绍
目前,社交媒体、移动互联网、大数据分析、云计算、物联网这些行业不是孤立发展的,而是在相互融合,进而实现高速协同发展。作为智能决策的支持手段,大数据在金融机构、企业、事业、政府、社会管理和发展领域内的应用是研发人员努力的方向。传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析,分析人员对数据的来源和结构有一定的控制和深层的了解。而在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。将来源不同的数据进行归类、分析,其中涉及两个技术瓶颈。一、各类数据来源不同、结构不同,在数据聚类融合之前,需要提取其中共同的字段;二、数据聚类融合技术的准确率制约着该技术的应用广度和深度。现有技术中,就短文本数据之间的聚类融合而言,存在许多应用技术,但其中,往往以短文本中关键词出现的词频作为数据聚合的首要依据,这容易造成决策的片面性,进而严重影响数据聚合的准确率。此外,在需要处理海量数据的场合,数据聚合的执行效率是本领域技术人员格外重视的技术问题。
技术实现思路
本专利技术的目的在于提供一种聚合准确率高、执行效率高的短文本数据聚合系统。为实现上述目的,本专利技术提供一种技术方案如下:一种短文本数据聚合系统,包括:数据获取模块,其包括内部数据加载单元和外部数据获取单元,内部数据加载单元从系统的数据存储模块获取短文本数据的第一集合, ...
【技术保护点】
一种短文本数据聚合系统,包括:数据获取模块,其包括内部数据加载单元和外部数据获取单元,所述内部数据加载单元从所述系统的数据存储模块获取短文本数据的第一集合,所述外部数据获取单元从所述系统的外部获取待聚合短文本数据;数据抽取模块,与所述数据获取模块耦合,其包括字段抽取单元,所述字段抽取单元从所述第一集合中分别抽取各所述短文本数据的参与聚合的字段,以形成第一字段属性数据的第二集合,并从所述待聚合短文本数据中抽取参与聚合的字段,以形成第二字段属性数据;以及数据聚合模块,与所述数据抽取模块耦合,其包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元;其中,所述候选数据查询单元从所述第二集合中查询与所述第二字段属性数据相关的若干个所述第一字段属性数据,以形成所述第一字段属性数据的第三集合,所述相似度计算单元计算所述第三集合中的每一所述第一字段属性数据与所述第二字段属性数据之间的相似度,所述短文本数据聚合单元将所述第三集合中、与所述第二字段属性数据相似度最高的所述第一字段属性数据所对应的所述短文本数据与所述待聚合文本数据进行数据聚合。
【技术特征摘要】
1.一种短文本数据聚合系统,包括:数据获取模块,其包括内部数据加载单元和外部数据获取单元,所述内部数据加载单元从所述系统的数据存储模块获取短文本数据的第一集合,所述外部数据获取单元从所述系统的外部获取待聚合短文本数据;数据抽取模块,与所述数据获取模块耦合,其包括字段抽取单元,所述字段抽取单元从所述第一集合中分别抽取各所述短文本数据的参与聚合的字段,以形成第一字段属性数据的第二集合,并从所述待聚合短文本数据中抽取参与聚合的字段,以形成第二字段属性数据;以及数据聚合模块,与所述数据抽取模块耦合,其包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元;其中,所述候选数据查询单元从所述第二集合中查询与所述第二字段属性数据相关的若干个所述第一字段属性数据,以形成所述第一字段属性数据的第三集合,所述相似度计算单元计算所述第三集合中的每一所述第一字段属性数据与所述第二字段属性数据之间的相似度,所述短文本数据聚合单元将所述第三集合中、与所述第二字段属性数据相似度最高的所述第一字段属性数据所对应的所述短文本数据与所述待聚合文本数据进行数据聚合。2.根据权利要求1所述的系统,其特征在于,所述数据聚合模块还包括倒排表构造单元,所述倒排表构造单元对所述第二字段属性数据构造倒排表,所述候选数据查询单元根据所述倒排表来从所述第二集合中查询所述相关的若干个所述第一字段属性数据。3.根据权利要求1所述的系统,其特征在于,所述数据抽取模块还包括数据过滤单元,所述数据过滤单元从所述第二集合中滤除与所述第二字段属性数据无法匹配的所述第一字段属性数据。4.根据权利要求1所述的系统,其特征在于,所述候选数据查询单元计算所述第二集合中各所述第一字段属性数据与所述第二字段属性数据之间的相关度,并以所述相关度大于相关度阈值的所述第一字段属性数据形成所述第三集合。5.根据权利要求4所述的系统,其特征在于,所述相关度以所述第一字段属性数据的分词序列与所述第二字段属性数据的分词序列之间相同的分词词语的个数为计算因子。6.根据权利要求1所述的系统,其特征在于,所述相似度计算单...
【专利技术属性】
技术研发人员:郑建宾,华锦芝,周钰,
申请(专利权)人:中国银联股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。