【技术实现步骤摘要】
本专利技术涉及电子信息处理,尤其涉及一种基于大数据的文字相似度检索分析方法及系统。
技术介绍
1、随着大数据信息技术的快速发展和互联网的普及,大量的文字数据被产生和传播,文字相似度是指衡量两个或多个文本之间在内容、语义或风格上相似程度的指标,文字相似度检索分析是指通过计算机算法和技术,对给定的文本与大量文字数据进行比较,从而找出与其内容相似或相关的文本。
2、目前,对于文档检索分析有着多方面的研究,如中国专利技术专利cn111611814b公告了一种基于相似度感知的神经机器翻译方法,通过首先构建结构翻译记忆库和对应结构相似度算法。然后构建模板翻译记忆库和对应模板相似度算法。之后对测试集中的字符串、结构和模板维度的高潜力语句进行预先识别。而后构建多维度相似度先验知识,对训练集中所有平行语句进行多维度相似度检索。如中国专利技术专利cn117494711a公开了一种基于语义的用电地址相似度匹配的方法,通过收集和整合各类标准化后的地址数据;处理采集的用电地址,构建历史地址库;构建词袋模型,按照标准化后的地址要素,对地址对象基于tf-
...【技术保护点】
1.一种基于大数据的文字相似度检索分析方法,其特征在于,包括以下步骤:
2.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述从选定的文字数据源中采集文字数据的具体方法为:
3.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述目标文档与文字数据中各个文档的文字相似度的获取方法为:
4.如权利要求3所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述根据文字数据构建词汇表和训练词嵌入模型的具体方法为:
5.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在
...【技术特征摘要】
1.一种基于大数据的文字相似度检索分析方法,其特征在于,包括以下步骤:
2.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述从选定的文字数据源中采集文字数据的具体方法为:
3.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述目标文档与文字数据中各个文档的文字相似度的获取方法为:
4.如权利要求3所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述根据文字数据构建词汇表和训练词嵌入模型的具体方法为:
5.如权利要求1所述一种基于大数据的文字相似度检索分析方法,其特征在于:所述文字相似度排序列表的具体获取方法为:
6.如权利要求1所述一种基于...
【专利技术属性】
技术研发人员:李擎擎,许春庆,李学美,刘云霄,刘飞鸿,程鑫,李冉冉,
申请(专利权)人:中汇智山东高新技术发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。