一种基于大数据的文字相似度检索分析方法及系统技术方案

技术编号:43515272 阅读:17 留言:0更新日期:2024-12-03 12:06
本发明专利技术公开了一种基于大数据的文字相似度检索分析方法及系统,属于信息技术领域。该方法包括以下步骤:采集并预处理文字数据;获取目标文档与文字数据中各个文档的文字相似度;获取文字相似度检索分析结果;根据用户分析速度不满度对文字相似度检索分析速度进行优化,并通知用户定期维护文字相似度检索分析方法。本发明专利技术通过分析出用户分析速度不满次数和用户检索分析结果查询总次数比值,获取用户分析速度不满度,从而当用户分析速度不满度高于第一阈值时,对文字相似度检索分析速度进行优化,进而提高文字相似度检索分析速度,解决了现有技术中文字相似度检索分析速度较低的问题。

【技术实现步骤摘要】

本专利技术涉及电子信息处理,尤其涉及一种基于大数据的文字相似度检索分析方法及系统


技术介绍

1、随着大数据信息技术的快速发展和互联网的普及,大量的文字数据被产生和传播,文字相似度是指衡量两个或多个文本之间在内容、语义或风格上相似程度的指标,文字相似度检索分析是指通过计算机算法和技术,对给定的文本与大量文字数据进行比较,从而找出与其内容相似或相关的文本。

2、目前,对于文档检索分析有着多方面的研究,如中国专利技术专利cn111611814b公告了一种基于相似度感知的神经机器翻译方法,通过首先构建结构翻译记忆库和对应结构相似度算法。然后构建模板翻译记忆库和对应模板相似度算法。之后对测试集中的字符串、结构和模板维度的高潜力语句进行预先识别。而后构建多维度相似度先验知识,对训练集中所有平行语句进行多维度相似度检索。如中国专利技术专利cn117494711a公开了一种基于语义的用电地址相似度匹配的方法,通过收集和整合各类标准化后的地址数据;处理采集的用电地址,构建历史地址库;构建词袋模型,按照标准化后的地址要素,对地址对象基于tf-idf模型进行地址向本文档来自技高网...

【技术保护点】

1.一种基于大数据的文字相似度检索分析方法,其特征在于,包括以下步骤:

2.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述从选定的文字数据源中采集文字数据的具体方法为:

3.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述目标文档与文字数据中各个文档的文字相似度的获取方法为:

4.如权利要求3所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述根据文字数据构建词汇表和训练词嵌入模型的具体方法为:

5.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述文字相似度排...

【技术特征摘要】

1.一种基于大数据的文字相似度检索分析方法,其特征在于,包括以下步骤:

2.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述从选定的文字数据源中采集文字数据的具体方法为:

3.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述目标文档与文字数据中各个文档的文字相似度的获取方法为:

4.如权利要求3所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述根据文字数据构建词汇表和训练词嵌入模型的具体方法为:

5.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述文字相似度排序列表的具体获取方法为:

6.如权利要求1所述一种基于...

【专利技术属性】
技术研发人员:李擎擎许春庆李学美刘云霄刘飞鸿程鑫李冉冉
申请(专利权)人:中汇智山东高新技术发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1