一种基于统计和向量空间融合的文本匹配方法及系统技术方案

技术编号：33242545 阅读：33 留言：0更新日期：2022-04-27 17:47

本发明专利技术提供一种基于统计和向量空间融合的文本匹配方法及系统，涉及文本匹配技术领域，包括：针对知识库文本数据中每行数据分别基于统计和基于向量进行文本数据结构化，获得词频向量和句向量；根据用户输入的场景描述，获取对应的词频向量和句向量；根据知识库文本数据中每行数据的词频向量和句向量及用户输入的场景描述对应的词频向量和句向量，分别计算基于统计和基于向量的向量余弦相似度得分；对基于统计和基于向量的向量余弦相似度得分进行加权融合，输出最终得分；根据得分情况，获取文本匹配结果。本发明专利技术基于统计输出词频矩阵进行统计召回，基于word2vec输出词向量空间召回，对两个结果进行融合，输出最终的匹配结果。输出最终的匹配结果。输出最终的匹配结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于统计和向量空间融合的文本匹配方法及系统

[0001]本专利技术涉及文本匹配
，尤其是涉及一种基于统计和向量空间融合的文本匹配方法及系统。

技术介绍

[0002]在电信智能营销过程中，用户通过输入业务描述，对产品、模型、画像、渠道等自动生成准确的推荐方案，根据方案来实施推荐业务。这一过程主要包含两个过程，其一是对源数据的认识，了解数据情况，其二是文本处理，即将用户输入的业务描述，能够在源文本中匹配到相关的文本。文本匹配是一种重要的自然语言技术，许多任务都可以抽象为文本匹配的问题，如搜索引擎，根据用户Query，在多个源文本中匹配到相似度高的文本。
[0003]现有文本匹配方法主要分为四个类型：单语义模型、多语义模型、匹配矩阵模型和句子间模型。单语义模型将句子编码成特征向量，然后计算两个句子间的匹配度，缺乏考虑句子中类似短语的局部结构；多语义模型考虑了句子细粒度，但计算度复杂；匹配矩阵模型更多的考虑句子间单词的匹配，再通过深度网络提取特征；句子间模型采用了attention机制，挖掘句子间单词的联系，计算步...

【技术保护点】

【技术特征摘要】
1.一种基于统计和向量空间融合的文本匹配方法，其特征在于，包括：针对知识库文本数据中每行数据分别基于统计和基于向量进行文本数据结构化，获得词频向量和句向量；根据用户输入的场景描述，获取对应的词频向量和句向量；根据所述知识库文本数据中每行数据的词频向量和句向量及用户输入的所述场景描述对应的词频向量和句向量，分别计算基于统计和基于向量的向量余弦相似度得分；对基于统计和基于向量的向量余弦相似度得分进行加权融合，输出最终得分；根据得分情况，获取文本匹配结果。2.根据权利要求1所述的文本匹配方法，其特征在于：先逐行获取所述知识库文本数据的分词和关键词；针对每行所述知识库文本数据的所述分词和关键词分别基于统计和向量进行文本数据结构化，获取到对应的词频向量和句向量。3.根据权利要求2所述的文本匹配方法，其特征在于：获取所述知识库文本数据的分词和关键词时，去除所述分词和关键词中的停用词。4.根据权利要求2所述的文本匹配方法，其特征在于：所述逐行获取所述知识库文本数据的分词，包括：调用词典，采用jieba分词对知识库文本数据逐行进行分词处理。5.根据权利要求2所述的文本匹配方法，其特征在于：所述逐行获取所述知识库文本数据的关键词，包括：调用停用词库，采用tf
‑
idf进行关键词提取。6.一种实现如权利要求1～5任一项所述的文本匹配方法的系统，其特征在于，包括：数据处理...

【专利技术属性】
技术研发人员：孙亮，
申请(专利权)人：北京思特奇信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人