【技术实现步骤摘要】
本专利技术属于自然语言处理和信息检索,具体涉及一种基于seq2seq和dbscan的古诗词语义检索方法。
技术介绍
1、古诗词作为中华文化的瑰宝,蕴含着丰富的文化内涵和艺术价值。随着信息技术和数字化技术的发展,古诗词的数字化资源呈现指数级增长。如何从庞大的古诗词数据库中快速、准确地检索出符合用户需求的内容,成为当前研究中的一大挑战。
2、目前,传统的古诗词检索方法主要依赖于关键词匹配技术,即用户输入的查询关键词与古诗词文本中出现的词汇进行匹配。然而,这种方法存在多个局限性,尤其是在古诗词的检索中,语言具有高度的凝练性和隐喻性。传统的关键词匹配无法理解诗词的深层语义,无法识别不同的表达方式,容易导致检索结果不相关或不准确。此外,关键词匹配无法捕捉到古诗词的上下文关系,忽略了诗词中蕴含的意境和情感。因此,该方法在处理复杂语言结构和大规模数据时,无法满足用户对高精度和高效率的需求。
3、近年来,基于机器学习和深度学习的自然语言处理技术逐渐被引入到古诗词的检索中。部分研究尝试使用神经网络模型进行诗词的语义表示,提升了检索
...【技术保护点】
1.一种基于Seq2Seq和DBSCAN的古诗词语义检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于Seq2Seq和DBSCAN的古诗词语义检索方法,其特征在于,步骤S1具体是:通过爬取技术收集古诗词样本数据,爬取过程中设置动态抓取规则,并且结合正则表达式和数据清洗算法,去除文本中的噪音信息,对古诗词样本数据进行去重、标准化处理,确保数据一致性。
3.根据权利要求1所述的一种基于Seq2Seq和DBSCAN的古诗词语义检索方法,其特征在于,步骤S2包括以下子步骤:
4.根据权利要求1所述的一种基于Seq2Seq
...【技术特征摘要】
1.一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,步骤s1具体是:通过爬取技术收集古诗词样本数据,爬取过程中设置动态抓取规则,并且结合正则表达式和数据清洗算法,去除文本中的噪音信息,对古诗词样本数据进行去重、标准化处理,确保数据一致性。
3.根据权利要求1所述的一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,步骤s2包括以下子步骤:
4.根据权利要求1所述的一种基于seq2seq和dbscan的古诗词语义检索方法,其特征在于,步...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。