一种多特征匹配的文本匹配方法、终端及可读存储介质组成比例

技术编号：33384799 阅读：28 留言：0更新日期：2022-05-11 22:59

本发明专利技术公开了一种多特征匹配的文本匹配方法、终端及可读存储介质，涉及自然语言处理领域，解决了现有的文本匹配方法忽略了文本中细粒度的信息以及文本整体语义信息，获取待匹配文本、候选文本，对所述待匹配文本、候选文本进行预处理；对预处理后的文本进行基于N

全部详细技术资料下载

【技术实现步骤摘要】
一种多特征匹配的文本匹配方法、终端及可读存储介质

[0001]本专利技术涉及自然语言处理领域，更具体地说，它涉及一种多特征匹配的文本匹配方法、终端及可读存储介质。

技术介绍

[0002]随着信息时代的飞速发展，各式各样的文本信息充斥着网络世界。在网络搜索中，如何高效高准确的进行文本信息匹配成为了各大互联网平台提供数据搜索服务的有效保障。
[0003]现有技术中，文本匹配往往通过单个关键词提取，由深度学习表征方法训练所得的文本整体语义进行匹配。但上述现有方法中，使用关键词会导致忽略文本整体语义信息，使用深度学习表征方法会忽略文本中细粒度的信息导致了文本匹配准确度较低。
[0004]因此，需要提供更有效的方法来提升文本匹配方法的准确度。

技术实现思路

[0005]本专利技术所解决的技术问题是现有的文本匹配方法使用深度学习模型忽略了文本中细粒度的信息或采用关键词忽略了文本整体语义信息，本专利技术的目的是提供一种多特征匹配的文本匹配方法、终端及可读存储介质，本专利技术结合细粒度的词项语义信息与粗粒度的...

【技术保护点】

【技术特征摘要】
1.一种多特征匹配的文本匹配方法，其特征在于，所述方法包括以下步骤：获取待匹配文本和候选文本，对所述待匹配文本和候选文本进行预处理；对预处理后的文本进行基于N
‑
Gram的多粒度解析，获得不同粒度下的文本序列，将所述文本序列进行向量化，获得文本向量；将所述文本向量列输入深度学习语言模型中进行训练，获得待匹配文本和候选文本的编码向量；将所述待匹配文本编码和候选文本的编码向量进行相似度计算后求和取平均，获得待匹配文本和候选文本的匹配度。2.根据权利要求1所述的一种多特征匹配的文本匹配方法，其特征在于，将所述待匹配文本和候选文本的无用符号和停用词去除，采用分词工具对所述待匹配文本和候选文本进行分词处理。3.根据权利要求2所述的一种多特征匹配的文本匹配方法，其特征在于，以1
‑
Gram，2
‑
Gram和3
‑
Gram三种粒度方式对待匹配文本与候选文本进行解析，其中，分词处理后的结果即为1
‑
Gram所解析的文本序列，2
‑
Gram按照分词处理后的文本序列自身的顺序进行两两组合，3
‑
Gram按照分词处理后的文本序列自身的顺序进行三三组合。4.根据权利要求3所述的一种多特征匹配的文本匹配方法，其特征在于，将三种粒度解析出的文本序列转化为文本向量矩阵输入深度学习语言模型，分别对三种不同文本解析方式进行训练，获得待匹配文本和候选文本的编码向量。5.根据权利要求4述的一种多特征匹配的文本匹配方法...

【专利技术属性】
技术研发人员：夏书银，杨宁，张勇，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人