当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于Seq2Seq和DBSCAN的古诗词语义检索方法技术

技术编号:45925808 阅读:10 留言:0更新日期:2025-07-25 17:53
本发明专利技术公开了一种基于Seq2Seq和DBSCAN的古诗词语义检索方法,基于Seq2Seq模型和LSTM网络,将古诗文序列生成白话文文本;然后基于预构建词典,通过逆向最大匹配算法切分翻译后的文本,构建古诗词语义特征向量库。接着基于用户输入的白话文查询,生成查询语句的语义特征向量,采用基于N‑Gram和动态滑动窗口的余弦相似度算法,提取查询语句和古诗词语义特征中的连续词组,计算相似度,检索出与用户查询最相近的古诗词,最后利用DBSCAN算法对语义特征向量进行聚类分析,扩展推荐相似古诗词。本发明专利技术解决了传统关键词匹配方法无法准确理解诗词深层语义的问题,能够实现高效且精准的个性化推荐,提高了检索效率。

【技术实现步骤摘要】

本专利技术属于自然语言处理和信息检索,具体涉及一种基于seq2seq和dbscan的古诗词语义检索方法。


技术介绍

1、古诗词作为中华文化的瑰宝,蕴含着丰富的文化内涵和艺术价值。随着信息技术和数字化技术的发展,古诗词的数字化资源呈现指数级增长。如何从庞大的古诗词数据库中快速、准确地检索出符合用户需求的内容,成为当前研究中的一大挑战。

2、目前,传统的古诗词检索方法主要依赖于关键词匹配技术,即用户输入的查询关键词与古诗词文本中出现的词汇进行匹配。然而,这种方法存在多个局限性,尤其是在古诗词的检索中,语言具有高度的凝练性和隐喻性。传统的关键词匹配无法理解诗词的深层语义,无法识别不同的表达方式,容易导致检索结果不相关或不准确。此外,关键词匹配无法捕捉到古诗词的上下文关系,忽略了诗词中蕴含的意境和情感。因此,该方法在处理复杂语言结构和大规模数据时,无法满足用户对高精度和高效率的需求。

3、近年来,基于机器学习和深度学习的自然语言处理技术逐渐被引入到古诗词的检索中。部分研究尝试使用神经网络模型进行诗词的语义表示,提升了检索的准确性。但这些方法本文档来自技高网...

【技术保护点】

1.一种基于Seq2Seq和DBSCAN的古诗词语义检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于Seq2Seq和DBSCAN的古诗词语义检索方法,其特征在于,步骤S1具体是:通过爬取技术收集古诗词样本数据,爬取过程中设置动态抓取规则,并且结合正则表达式和数据清洗算法,去除文本中的噪音信息,对古诗词样本数据进行去重、标准化处理,确保数据一致性。

3.根据权利要求1所述的一种基于Seq2Seq和DBSCAN的古诗词语义检索方法,其特征在于,步骤S2包括以下子步骤:

4.根据权利要求1所述的一种基于Seq2Seq和DBSCAN的古诗...

【技术特征摘要】

1.一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,步骤s1具体是:通过爬取技术收集古诗词样本数据,爬取过程中设置动态抓取规则,并且结合正则表达式和数据清洗算法,去除文本中的噪音信息,对古诗词样本数据进行去重、标准化处理,确保数据一致性。

3.根据权利要求1所述的一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,步骤s2包括以下子步骤:

4.根据权利要求1所述的一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,步...

【专利技术属性】
技术研发人员:陈玥谭樾石建
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1