一种文本相似度的识别方法、系统、设备和存储介质技术方案

技术编号：26376400 阅读：35 留言：0更新日期：2020-11-19 23:45

本发明专利技术实施例公开了一种文本相似度的识别方法、系统、设备和存储介质。该方法包括：获取目标文本；将所述目标文本转换为目标特征矩阵；将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征；从预设数据库中获取对比文本的对比文本特征；根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。本发明专利技术实施例实现了快速确定文本之间相似度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度的识别方法、系统、设备和存储介质
本专利技术实施例涉及文本技术，尤其涉及一种文本相似度的识别方法、系统、设备和存储介质。
技术介绍
随着数字媒体技术和神经网络技术的蓬勃发展，包括文本图像在内的多媒体资源规模越来越大，且神经网络技术的应用也越来越广泛。多个文本之间的相似度逐渐成为自然语言处理领域中的一个研究热点，但是，传统的文本相似度识别方法，需要依赖基于OCR的复杂模型，才能达到较好的文本相似性检测效果。而文本内容的视觉呈现方式大致相同，在文本识别的早期研究中，特征提取需要经过版面分析、行切分、单字切分、单字识别等过程，而在近几年，基于神经网络的特征提取技术已经成为一个重要的研究方向。在各种神经网络模型中，卷积神经网络是图像处理任务中最强大的网络模型，使图像可以直接作为网络的输入，避免了传统识别方法中复杂的特征提取与数据重建过程。但是目前还是没有一种很好的方法能将神经网络技术融入文本相似度识别之中，以至于没有办法实现文本之间的相似度的快速确定。
技术实现思路
本专利技术实施例...

【技术保护点】
1.一种文本相似度的识别方法，其特征在于，包括：/n获取目标文本；/n将所述目标文本转换为目标特征矩阵；/n将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征；/n从预设数据库中获取对比文本的对比文本特征；/n根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。/n

【技术特征摘要】
1.一种文本相似度的识别方法，其特征在于，包括：
获取目标文本；
将所述目标文本转换为目标特征矩阵；
将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征；
从预设数据库中获取对比文本的对比文本特征；
根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文本转换为目标特征矩阵包括：
将所述目标文本划分为多个段落；
对每个段落进行分词以得到多个词语或多个单字；
将所述多个词语或多个单字输入至预先训练好的语言模型以得到每个段落的第一特征向量；
将所述第一特征向量进行拼接以得到多个段落的目标特征矩阵。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征包括：
对所述目标特征矩阵进行卷积以得到多个第二特征向量；
对所述第二特征向量池化以得到所述目标文本的目标文本特征。

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标文本特征和对比文本特征得到确定目标文本和对比文本的文本相似度之后包括：
获取和所述目标文本相似度最高的目标对比文本。

5.根据权利要求4所述的方法，其特征在于，所述获取和所述目标文本相似度最高的目标对比文本之后包括：
获取所述目标对比文本的多个段落的目标对比特征矩阵；

【专利技术属性】
技术研发人员：卓民，杨楠，
申请(专利权)人：深圳市卡牛科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人