The invention belongs to the technical field of data processing, and specifically relates to a data query method based on quality text similarity. The invention makes use of TF formula to do word frequency weight statistics; at the same time, in the similarity matching algorithm, the method based on cosine similarity is used to obtain spatial transfer matrix by learning sample space, which makes the same sample space more compact and different sample space more dispersed, thus matching database data quickly and accurately. Compared with the existing technology, the technical scheme of the present invention solves the problem that the database fuzzy query needs to rely on strict query conditions (word-by-word matching, non-semantics), which results in low accuracy of data matching, and overcomes the problem that the traditional SQL statement can not solve complex data matching. At the same time, based on the characteristics of cosine similarity algorithm, it also guarantees its fast calculation speed and high operation efficiency.
【技术实现步骤摘要】
基于质量文本相似性的数据查询方法
本专利技术属于数据处理
,具体涉及一种基于质量文本相似性的数据查询方法。
技术介绍
在军工集团主数据查询中,一般采用传统的like或者where等sql语句查询匹配的结果,但是当数据库中收录的数据量大且复杂,同时要求相关相识度匹配大量数据或对数据做对比、校验时,传统的sql无法解决这个问题。而利用文本相似度方法可以有效的匹配所需数据,在处理中文文本相似性的过程中,中文分词是研究的基础的。中文分词方法包括基于词典的分词法、正向最大匹配法、双向匹配分词法等。在完成分词的基础上,做文本的相似性比对,常用的相似度匹配的算法包括汉明距离、Jaccard相似性系数、贝叶斯算法和曼哈顿距离等。汉明距离是通过比较向量每一位是否相同,若不同则汉明距离加1,这样得到汉明距离向量相似性越高,对应汉明距离越小;Jaccard相似性系数,主要用于计算符号度量或者布尔值度量的个体间的相识度,只能获得是否相同这个结果;余弦相似度用向量空间中的两个向量夹角的余弦值作为衡量两个个体之间的差异的大小,它更注重两个向量方向上的差异。面对大量数据库特征文本,大多数相似性匹配算法都能满足简单的匹配需求,但都存在无法精确、快速的完成数据库数据的匹配的问题。其中基于贝叶斯算法无法在少数文本的情况下,构建联合概率分布估计概率;而基于SimHash算法速度快,但是相识性的准确度太低。而基于余弦相识度匹配算法,用相似度值作为训练样本,在处理数据库短文中,可以快速的、准确的获取数据库相似性数据。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:如何提供一种 ...
【技术保护点】
1.一种基于质量文本相似性的数据查询方法,其特征在于,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;所述方法包括如下步骤:步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;步骤4:词频权重获取模块根据TF‑IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库 ...
【技术特征摘要】
1.一种基于质量文本相似性的数据查询方法,其特征在于,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;所述方法包括如下步骤:步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;步骤4:词频权重获取模块根据TF-IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量...
【专利技术属性】
技术研发人员:刘林,杜贝娜,王俊,张谦,牛志超,马语菡,沈巍,高晓琼,董丽娜,
申请(专利权)人:北京京航计算通讯研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。