基于质量文本相似性的数据查询方法技术

技术编号:20176836 阅读:43 留言:0更新日期:2019-01-23 00:25
本发明专利技术属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询方法。本发明专利技术利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明专利技术提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。

Data Query Method Based on Quality Text Similarity

The invention belongs to the technical field of data processing, and specifically relates to a data query method based on quality text similarity. The invention makes use of TF formula to do word frequency weight statistics; at the same time, in the similarity matching algorithm, the method based on cosine similarity is used to obtain spatial transfer matrix by learning sample space, which makes the same sample space more compact and different sample space more dispersed, thus matching database data quickly and accurately. Compared with the existing technology, the technical scheme of the present invention solves the problem that the database fuzzy query needs to rely on strict query conditions (word-by-word matching, non-semantics), which results in low accuracy of data matching, and overcomes the problem that the traditional SQL statement can not solve complex data matching. At the same time, based on the characteristics of cosine similarity algorithm, it also guarantees its fast calculation speed and high operation efficiency.

【技术实现步骤摘要】
基于质量文本相似性的数据查询方法
本专利技术属于数据处理
,具体涉及一种基于质量文本相似性的数据查询方法。
技术介绍
在军工集团主数据查询中,一般采用传统的like或者where等sql语句查询匹配的结果,但是当数据库中收录的数据量大且复杂,同时要求相关相识度匹配大量数据或对数据做对比、校验时,传统的sql无法解决这个问题。而利用文本相似度方法可以有效的匹配所需数据,在处理中文文本相似性的过程中,中文分词是研究的基础的。中文分词方法包括基于词典的分词法、正向最大匹配法、双向匹配分词法等。在完成分词的基础上,做文本的相似性比对,常用的相似度匹配的算法包括汉明距离、Jaccard相似性系数、贝叶斯算法和曼哈顿距离等。汉明距离是通过比较向量每一位是否相同,若不同则汉明距离加1,这样得到汉明距离向量相似性越高,对应汉明距离越小;Jaccard相似性系数,主要用于计算符号度量或者布尔值度量的个体间的相识度,只能获得是否相同这个结果;余弦相似度用向量空间中的两个向量夹角的余弦值作为衡量两个个体之间的差异的大小,它更注重两个向量方向上的差异。面对大量数据库特征文本,大多数相似性匹配算法都能满足简单的匹配需求,但都存在无法精确、快速的完成数据库数据的匹配的问题。其中基于贝叶斯算法无法在少数文本的情况下,构建联合概率分布估计概率;而基于SimHash算法速度快,但是相识性的准确度太低。而基于余弦相识度匹配算法,用相似度值作为训练样本,在处理数据库短文中,可以快速的、准确的获取数据库相似性数据。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:如何提供一种基于质量文本相似性的数据查询方法,用于军工集团主数据查询,能够智能化、快速匹配到准确度高的数据库短文本数据、符合预期的查询、对比和校验结果。(二)技术方案为解决上述技术问题,本专利技术提供一种基于质量文本相似性的数据查询方法,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;所述方法包括如下步骤:步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;步骤4:词频权重获取模块根据TF-IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;步骤7:相似度判断模块根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。其中,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。其中,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,生成停用词去除后的原始文本数据。其中,所述停用词表包括名词。其中,所述停用词表包括代词。其中,所述停用词表包括介词。其中,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。(三)有益效果与现有技术相比较,本专利技术通过用jieba库动态规划查找最大概率路径的分词方法;利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本专利技术提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。附图说明图1为本专利技术技术方案流程图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。为解决现有技术问题,本专利技术提供一种基于质量文本相似性的数据查询方法,如图1所示,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;如图1所示,所述方法包括如下步骤:步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;步骤4:词频权重获取模块根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;步骤7:相似度判断模块根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。其中,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。其中,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,生成停用词去除后的原始文本数据。其中,所述停用词表包括名词。其中,所述停用词表包括代词。其中,所述停用词表包括介词。其中,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。此外,本专利技术还提供一种基于质本文档来自技高网...

【技术保护点】
1.一种基于质量文本相似性的数据查询方法,其特征在于,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;所述方法包括如下步骤:步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;步骤4:词频权重获取模块根据TF‑IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;步骤7:相似度判断模块根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。...

【技术特征摘要】
1.一种基于质量文本相似性的数据查询方法,其特征在于,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;所述方法包括如下步骤:步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;步骤4:词频权重获取模块根据TF-IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量...

【专利技术属性】
技术研发人员:刘林杜贝娜王俊张谦牛志超马语菡沈巍高晓琼董丽娜
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1