短文本数据聚合系统及方法技术方案

技术编号:15878680 阅读:87 留言:0更新日期:2017-07-25 16:40
本发明专利技术涉及一种短文本数据聚合系统,包括:数据获取模块,用于获取短文本数据的第一集合、待聚合短文本数据;数据抽取模块,用于形成第一字段属性数据的第二集合以及第二字段属性数据;以及数据聚合模块,包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元;其中,候选数据查询单元从第二集合中查询与第二字段属性数据相关的若干个第一字段属性数据,相似度计算单元计算每一第一字段属性数据与第二字段属性数据之间的相似度,短文本数据聚合单元将相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合。基于该系统的数据聚合过程匹配准确率高、系统执行效率高。该系统逻辑简单、配置方便。

Short text data aggregation system and method

The invention relates to a short text data aggregation system, including data acquisition module, used to obtain the first set, the data to be aggregated short short text data; data extraction module, used to form the first field attribute data second sets and second field attribute data; and the data aggregation module, including query candidate data unit, similarity calculation the passage unit and data aggregation unit; wherein, the candidate data query unit from second set query and second field attribute data of a plurality of first field attribute data, similarity similarity calculation unit calculated between each of the first field second field attribute data and attribute data, this essay data aggregation unit data corresponding to the short text the highest similarity first field attribute data and text data gathered polymerization He. The data aggregation process based on the system has high matching accuracy and high system execution efficiency. The system is simple in logic and easy to configure.

【技术实现步骤摘要】
短文本数据聚合系统及方法
本专利技术涉及数据融合
,更具体地说,涉及一种短文本数据聚合系统及方法。
技术介绍
目前,社交媒体、移动互联网、大数据分析、云计算、物联网这些行业不是孤立发展的,而是在相互融合,进而实现高速协同发展。作为智能决策的支持手段,大数据在金融机构、企业、事业、政府、社会管理和发展领域内的应用是研发人员努力的方向。传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析,分析人员对数据的来源和结构有一定的控制和深层的了解。而在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。将来源不同的数据进行归类、分析,其中涉及两个技术瓶颈。一、各类数据来源不同、结构不同,在数据聚类融合之前,需要提取其中共同的字段;二、数据聚类融合技术的准确率制约着该技术的应用广度和深度。现有技术中,就短文本数据之间的聚类融合而言,存在许多应用技术,但其中,往往以短文本中关键词出现的词频作为数据聚合的首要依据,这容易造成决策的片面性,进而严重影响数据聚合的准确率。此外,在需要处理海量数据的场合,数据聚合的执行效率是本领域技术人员格外重视的技术问题。
技术实现思路
本专利技术的目的在于提供一种聚合准确率高、执行效率高的短文本数据聚合系统。为实现上述目的,本专利技术提供一种技术方案如下:一种短文本数据聚合系统,包括:数据获取模块,其包括内部数据加载单元和外部数据获取单元,内部数据加载单元从系统的数据存储模块获取短文本数据的第一集合,外部数据获取单元从系统的外部获取待聚合短文本数据;数据抽取模块,与数据获取模块耦合,其包括字段抽取单元,字段抽取单元从第一集合中分别抽取各短文本数据的参与聚合的字段,以形成第一字段属性数据的第二集合,并从待聚合短文本数据中抽取参与聚合的字段,以形成第二字段属性数据;以及数据聚合模块,与数据抽取模块耦合,其包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元;其中,候选数据查询单元从第二集合中查询与第二字段属性数据相关的若干个第一字段属性数据,以形成第一字段属性数据的第三集合,相似度计算单元计算第三集合中的每一第一字段属性数据与第二字段属性数据之间的相似度,短文本数据聚合单元将第三集合中、与第二字段属性数据相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合。优选地,数据聚合模块还包括倒排表构造单元,倒排表构造单元对第二字段属性数据构造倒排表,候选数据查询单元根据倒排表来从第二集合中查询相关的若干个第一字段属性数据。优选地,数据抽取模块还包括数据过滤单元,数据过滤单元从第二集合中滤除与第二字段属性数据无法匹配的第一字段属性数据。优选地,候选数据查询单元计算第二集合中各第一字段属性数据与第二字段属性数据之间的相关度,并以相关度大于相关度阈值的第一字段属性数据形成第三集合。优选地,相关度以第一字段属性数据的分词序列与第二字段属性数据的分词序列之间相同的分词词语的个数为计算因子。优选地,该系统还包括序列化单元、反序列化单元,序列化单元用于将内存数据序列化以供存储于磁盘上,反序列化单元用于将磁盘文件转换为内存数据。本专利技术还公开一种短文本数据聚合方法,其包括如下步骤:a)、从数据存储模块获取短文本数据的第一集合,从外部获取待聚合短文本数据;b)、从第一集合中分别抽取各短文本数据的参与聚合的字段,以形成第一字段属性数据的第二集合,并从待聚合短文本数据中抽取参与聚合的字段,以形成第二字段属性数据;c)、从第二集合中查询与第二字段属性数据之间的相关度满足相关度阈值的若干个第一字段属性数据,以形成第一字段属性数据的第三集合;d)、计算第三集合中的每一第一字段属性数据与第二字段属性数据之间的相似度;e)、将第三集合中、与第二字段属性数据相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合。本专利技术提供的短文本数据聚合系统及方法,实现了一种匹配准确率高、系统执行效率高的数据聚合过程。通过多批次的过滤或匹配,在对海量外部数据进行处理时,其耗时显著缩短。该系统逻辑简单、配置方便、实施成本低,便于在行业内推广应用。附图说明图1示出本专利技术一实施例的短文本数据聚合系统的模块结构示意图。具体实施方式如图1所示,本专利技术一实施例提供一种短文本数据聚合系统,其包括数据获取模块10、数据抽取模块20、数据聚合模块30以及数据存储模块40。其中,数据获取模块10包括内部数据加载单元101和外部数据获取单元102,内部数据加载单元101从数据存储模块40获取短文本数据的第一集合,外部数据获取单元102从系统的外部获取输入,即,待聚合短文本数据或待聚合短文本数据的集合。考虑到数据存储模块40中储存的短文本数据可能相当大,该系统还可包括序列化单元、反序列化单元(附图未示出),序列化单元用于将内存数据序列化以供存储于磁盘上,而反序列化单元则用于将磁盘文件转换为内存数据。数据抽取模块20与数据获取模块10相耦合,数据抽取模块20至少包括字段抽取单元201,字段抽取单元201从第一集合中分别抽取各短文本数据的参与聚合的字段,以形成第一字段属性数据的第二集合;并从待聚合短文本数据中抽取参与聚合的字段,以形成第二字段属性数据。其中,字段抽取单元201可包括一字段配置表,供用户对参与聚合的字段进行配置或定义。用户配置完成后,字段抽取单元201直接加载该字段配置表,并依照其进行字段抽取动作。进一步地,数据抽取模块20还可以包括数据过滤单元(附图未示出),数据过滤单元从第二集合中滤除与第二字段属性数据明显无法匹配的第一字段属性数据。作为示例,若第二集合中存在一数据元素(第一字段属性数据),其各字段与待聚合短文本数据的各字段没有任何交集,则可从第二集合中滤除该数据元素。数据聚合模块30与数据抽取模块耦合20相耦合,数据聚合模块30包括候选数据查询单元301、相似度计算单元302以及短文本数据聚合单元303,其中,候选数据查询单元301耦合至相似度计算单元302,相似度计算单元302耦合至短文本数据聚合单元303。具体地,候选数据查询单元301从第二集合中查询与第二字段属性数据相关的若干个第一字段属性数据,以形成第一字段属性数据的第三集合,相似度计算单元302计算第三集合中的每一第一字段属性数据与第二字段属性数据之间的相似度,短文本数据聚合单元303将第三集合中相似度最高的第一字段属性数据所对应的短文本数据与待聚合文本数据进行数据聚合,并以聚合的结果形成系统的输出。其中,候选数据查询单元301计算第二集合中各第一字段属性数据与第二字段属性数据之间的相关度,并以相关度大于相关度阈值的第一字段属性数据形成第三集合。其中,相似度计算单元302可采用如下算法其中一项或多项的组合来计算相似度:Jaro-Winkler相似度算法;Levenshetin相似度算法;最长公共子串算法;短语相似度算法;以及余弦相似度算法。作为优选实施方式,数据聚合模块30还包括倒排表构造单元(附图未示出),倒排表构造单元对第二字段属性数据构造倒排表,候选数据查询单元301将根据倒排表来从第二集合中查询相关本文档来自技高网...
短文本数据聚合系统及方法

【技术保护点】
一种短文本数据聚合系统,包括:数据获取模块,其包括内部数据加载单元和外部数据获取单元,所述内部数据加载单元从所述系统的数据存储模块获取短文本数据的第一集合,所述外部数据获取单元从所述系统的外部获取待聚合短文本数据;数据抽取模块,与所述数据获取模块耦合,其包括字段抽取单元,所述字段抽取单元从所述第一集合中分别抽取各所述短文本数据的参与聚合的字段,以形成第一字段属性数据的第二集合,并从所述待聚合短文本数据中抽取参与聚合的字段,以形成第二字段属性数据;以及数据聚合模块,与所述数据抽取模块耦合,其包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元;其中,所述候选数据查询单元从所述第二集合中查询与所述第二字段属性数据相关的若干个所述第一字段属性数据,以形成所述第一字段属性数据的第三集合,所述相似度计算单元计算所述第三集合中的每一所述第一字段属性数据与所述第二字段属性数据之间的相似度,所述短文本数据聚合单元将所述第三集合中、与所述第二字段属性数据相似度最高的所述第一字段属性数据所对应的所述短文本数据与所述待聚合文本数据进行数据聚合。

【技术特征摘要】
1.一种短文本数据聚合系统,包括:数据获取模块,其包括内部数据加载单元和外部数据获取单元,所述内部数据加载单元从所述系统的数据存储模块获取短文本数据的第一集合,所述外部数据获取单元从所述系统的外部获取待聚合短文本数据;数据抽取模块,与所述数据获取模块耦合,其包括字段抽取单元,所述字段抽取单元从所述第一集合中分别抽取各所述短文本数据的参与聚合的字段,以形成第一字段属性数据的第二集合,并从所述待聚合短文本数据中抽取参与聚合的字段,以形成第二字段属性数据;以及数据聚合模块,与所述数据抽取模块耦合,其包括候选数据查询单元、相似度计算单元以及短文本数据聚合单元;其中,所述候选数据查询单元从所述第二集合中查询与所述第二字段属性数据相关的若干个所述第一字段属性数据,以形成所述第一字段属性数据的第三集合,所述相似度计算单元计算所述第三集合中的每一所述第一字段属性数据与所述第二字段属性数据之间的相似度,所述短文本数据聚合单元将所述第三集合中、与所述第二字段属性数据相似度最高的所述第一字段属性数据所对应的所述短文本数据与所述待聚合文本数据进行数据聚合。2.根据权利要求1所述的系统,其特征在于,所述数据聚合模块还包括倒排表构造单元,所述倒排表构造单元对所述第二字段属性数据构造倒排表,所述候选数据查询单元根据所述倒排表来从所述第二集合中查询所述相关的若干个所述第一字段属性数据。3.根据权利要求1所述的系统,其特征在于,所述数据抽取模块还包括数据过滤单元,所述数据过滤单元从所述第二集合中滤除与所述第二字段属性数据无法匹配的所述第一字段属性数据。4.根据权利要求1所述的系统,其特征在于,所述候选数据查询单元计算所述第二集合中各所述第一字段属性数据与所述第二字段属性数据之间的相关度,并以所述相关度大于相关度阈值的所述第一字段属性数据形成所述第三集合。5.根据权利要求4所述的系统,其特征在于,所述相关度以所述第一字段属性数据的分词序列与所述第二字段属性数据的分词序列之间相同的分词词语的个数为计算因子。6.根据权利要求1所述的系统,其特征在于,所述相似度计算单...

【专利技术属性】
技术研发人员:郑建宾华锦芝周钰
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1