一种基于OCR的文本相似度计算系统技术方案

技术编号:40445904 阅读:20 留言:0更新日期:2024-02-22 23:06
本发明专利技术公开了一种基于OCR的文本相似度计算系统,涉及人工智能技术领域。本发明专利技术包括文件预处理、OCR识别和文本相似度计算,文件预处理的输出端和OCR识别的输入端电性连接,OCR识别的输入端和文本相似度计算的输入端电性连接,文件预处理的输入端电性连接有数据输入,文本相似度计算的输出端和数据输出的输入端电性连接。本发明专利技术主要实现用户要求输入的PDF文件相似度计算和相似文本定位,PDF文件内容的智能提取、分析与相似度计算,为用户提供高精度的文本相似度服务,帮助快速定位到相似文本位置。本发明专利技术以文件预处理、OCR识别、文本相似度计算三个功能模块作为系统框架,实现从数据预处理到文本相似度计算的一站式服务。

【技术实现步骤摘要】

本专利技术属于人工智能,特别是涉及一种基于ocr的文本相似度计算系统。


技术介绍

1、如今,互联网技术发展逐渐成熟,用户体验更趋向智能化。传统的机器只能处理结构化数据,而网络中存在大量非结构化数据,如文章、图片、音频、视频等,在非结构化数据中文本数据信息量庞大、可利用价值高。为了充分分析和利用这些文本信息,使机器更智能,自然语言处理技术(natural language processing,nlp)应运而生。文本相似度计算被认为是自然语言处理领域中非常核心和关键的技术,被广泛应用于问答系统、机器翻译、信息检索、文本匹配和文本对比等诸多场景中。文本相似度计算是对两个不同文本之间的相似程度进行计算,得到两文本的相似度值,用户或机器可根据输出的相似度值判断两文本是否相似,以完成下游任务。一个快速、高效的文本相似度计算系统极其重要,它可以提高工作效率,节约人工成本,为企业业务高效发展赋能。

2、到目前为止,关于文本相似度计算的系统有很多,如:基于语义的文本相似度计算系统,它通过提取出需要计算的文本集的语义特征信息,然后计算文本集之间的语义相似度来确定本文档来自技高网...

【技术保护点】

1.一种基于OCR的文本相似度计算系统,包括文件预处理、OCR识别和文本相似度计算,其特征在于:所述文件预处理的输出端和OCR识别的输入端电性连接,所述OCR识别的输入端和文本相似度计算的输入端电性连接,所述文件预处理的输入端电性连接有数据输入,所述文本相似度计算的输出端和数据输出的输入端电性连接。

2.根据权利要求1所述的一种基于OCR的文本相似度计算系统,其特征在于:所述文件预处理包括文件裁剪和图片处理,所述文件裁剪和图片处理均与文本预处理电性连接。

3.根据权利要求1所述的一种基于OCR的文本相似度计算系统,其特征在于:所述OCR识别包括文本定位、文本方向检...

【技术特征摘要】

1.一种基于ocr的文本相似度计算系统,包括文件预处理、ocr识别和文本相似度计算,其特征在于:所述文件预处理的输出端和ocr识别的输入端电性连接,所述ocr识别的输入端和文本相似度计算的输入端电性连接,所述文件预处理的输入端电性连接有数据输入,所述文本相似度计算的输出端和数据输出的输入端电性连接。

2.根据权利要求1所述的一种基于ocr的文本相似度计算系统,其特征在于:所述文件预处理包括文件裁剪和图片处理,所述文件裁剪和图片处理均与文本预处理电性连接。

3.根据权利要求1所述的一种基于ocr的文本相似度计算系统,其特征在于:所述ocr识别包括文本定位、文本方向检测和文字识别,所述文本定位、文本方向检测和文字识别均与ocr识别电性连接。

4.根据权利要求1所述的一种基于ocr的文本相似度计算系统,其特征在于:所述文本相似度计算包括文本提取、文本相似度计算和...

【专利技术属性】
技术研发人员:姚娟邓小远胡龙湘韵黄胜张於
申请(专利权)人:多彩贵州数字科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1