System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 小票相似度检测方法、装置及电子设备制造方法及图纸_技高网

小票相似度检测方法、装置及电子设备制造方法及图纸

技术编号:40310811 阅读:3 留言:0更新日期:2024-02-07 20:53
本申请涉及一种小票相似度检测方法,通过获取待上传小票的待上传小票信息,对所述待上传小票信息进行分析,生成所述待上传小票对应的待上传小票文本嵌入向量,根据所述待上传小票文本嵌入向量,在预存的向量数据库中进行搜索,若未搜索到相近数据,则上传存储所述待上传小票。本方法中提取的文本嵌入向量基于向量数据库,在向量空间中进行高速相似性搜索,能够检测到细微差异的小票,得到数据库中是否存储待上传小票数据的结果,提高了小票相似度检测的速度和准确性。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种小票相似度检测方法、装置及电子设备


技术介绍

1、小票是指在消费者购物时由商场或其它商业机构给用户留存的销售凭据,同时也能作为销售人员考核业绩的参考因素。销售人员可以将记载着已销售商品信息的小票传入系统留存记录,作为考核业绩的证明。而这种方式也会有着弊端,例如销售人员对同一张小票上传两次,其中一次上传的小票没完全包含小票的信息,遗漏了小票的流水号;其中一次上传的小票完全包含小票的信息;这时系统会认为这是两份不同的小票,故而影响后续需要参考小票在系统记录的工作。除了小票的流水号,销售人员或许会对小票进行微小更改以规避系统的检测,存在舞弊风险,导致内部控制混乱。因此需要一种小票相似度的方法,以规避一票多用的情况。

2、在本专利技术之前,小票相似度的检测主要基于文本匹配的精确查找。这种方法通常依赖于小票号或流水号作为主要关键词进行特征提取、识别和分类。然而,由于传统流水号包含字符较多,难以准确提取其特征,且传统方法基于精确匹配,当小票的布局、格式、文字样式以及图像质量存在变化时,会影响ocr识别的准确性,导致关键信息提取出现偏差。因此在无法识别时,需逐步选择其他元素作为关键词,进行逐一检查,直到找到所需的特定值为止。这种方式用于比较上传的小票与系统中已有小票的相似性存在局限性,另外易导致查询结果不准确或速度慢,工作效率低下。


技术实现思路

1、有鉴于此,本申请提出了一种小票相似度检测方法、装置及电子设备,通过使用大语言模型提取小票的文本嵌入向量,结合向量数据库,通过在向量空间中的近似检索,找到与输入小票最相似的小票。通过本专利技术提高了检测的准确性,同时显著提高了系统的响应速度和工作效率。

2、本申请一方面,提供了一种小票相似度检测方法,所述方法包括以下步骤:

3、获取待上传小票的待上传小票信息;

4、对所述待上传小票信息进行分析,生成所述待上传小票对应的待上传小票文本嵌入向量;

5、根据所述待上传小票文本嵌入向量,在预存的向量数据库中进行搜索;

6、若未搜索到相近数据,则上传存储所述待上传小票。

7、作为本申请的一种可选实施方案,可选地,所述获取待上传小票的待上传小票信息,包括:

8、获取待上传小票的图像;

9、提取所述待上传小票的图像中的图形及文字信息;

10、将所提取的图形及文字信息通过特征检测和/或模式识别转换为待上传小票文本信息并存储。

11、作为本申请的一种可选实施方案,可选地,对所述待上传小票信息进行分析,生成所述待上传小票对应的待上传小票文本嵌入向量,包括:

12、提取所述待上传小票信息中的语义关系;

13、对所述待上传小票信息通过映射转化为数值向量;

14、根据所述待上传小票信息中的语义关系对所述数值向量添加位置编码,得到文本嵌入向量。

15、作为本申请的一种可选实施方案,可选地,还包括:

16、当搜索到与所述文本嵌入向量的相近数据时,计算所述文本嵌入向量和所述相近数据的相似距离,判断所述相似距离是否小于阈值;

17、若小于所述阈值时,则上传存储所述待上传小票。

18、作为本申请的一种可选实施方案,可选地,计算所述文本嵌入向量和所述相近数据的相似距离,判断所述相似距离是否小于阈值,还包括:

19、若所述相似距离大于或等于所述阈值时,在所述预存的向量数据库中寻找与所述待输入小票的最相近数据对应的相似小票,比对二者的流水号;

20、若流水号不一致,则上传存储所述待上传小票。

21、作为本申请的一种可选实施方案,可选地,比对二者的流水号,还包括:

22、若流水号一致,提示重复并返回所述相近数据对应的相似小票。

23、作为本申请的一种可选实施方案,可选地,包括:

24、所述待上传小票成功上传存储后,所述文本嵌入向量保存至预存的向量数据库。

25、作为本申请的一种可选实施方案,可选地,还包括:

26、预设相似度阈值规则;

27、从预存的向量数据库中获取与所述待上传小票相似的流水号;

28、对所述流水号对应的相近小票与所述输入小票进行全文匹配,得到相似小票的相似度;

29、根据所述预设相似度阈值规则,确定是否有相似小票。

30、本申请二方面,提出了一种实现上述所述的任一项一种小票相似度检测装置,包括:

31、获取小票模块,用于获取待上传小票的待上传小票信息;

32、生成文本嵌入向量模块,用于对所述待上传小票信息进行分析,生成所述待上传小票对应的待上传小票文本嵌入向量;

33、搜索模块,用于根据所述待上传小票文本嵌入向量,在预存的向量数据库中进行搜索;

34、通知模块,用于若未搜索到相近数据,则上传存储所述待上传小票,若搜索到相近数据,若流水号一致,提示重复并返回所述相近数据对应的相似小票。

35、本申请三方面,提出了一种电子设备,包括:

36、处理器;

37、用于存储处理器可执行指令的存储器;

38、其中,所述处理器被配置为执行所述可执行指令时实现上述所述的一种小票相似度检测方法。

39、本专利技术的有益效果:

40、本专利技术通过获取待上传小票的待上传小票信息,对所述待上传小票信息进行分析,生成所述待上传小票对应的待上传小票文本嵌入向量,根据所述待上传小票文本嵌入向量,在预存的向量数据库中进行搜索,能够检测到细微差异的小票,找到与输入小票最相似的小票,与传统模式无法进行近似查找,导致查询结果不准确或速度慢,工作效率低下相比,开辟了一种更准确、更快速的检索方法,提高了小票相似度检测的速度和准确性,减少了内部舞弊的可能性。

41、根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种小票相似度检测方法,其特征在于,包括:

2.根据权利要求1所述的一种小票相似度检测方法,其特征在于,所述获取待上传小票的待上传小票信息包括:

3.根据权利要求1所述的一种小票相似度检测方法,其特征在于,对所述待上传小票信息进行分析,生成所述待上传小票对应的待上传小票文本嵌入向量,包括:

4.根据权利要求1所述的一种小票相似度检测方法,其特征在于,还包括:

5.根据权利要求3所述的一种小票相似度检测方法,其特征在于,计算所述文本嵌入向量和所述相近数据的相似距离,判断所述相似距离是否小于阈值,还包括:

6.根据权利要求4所述的一种小票相似度检测方法,其特征在于,比对二者的流水号,还包括:

7.根据权利要求1所述的一种小票相似度检测方法,其特征在于,还包括:

8.根据权利要求1所述的一种小票相似度检测方法,其特征在于,还包括:

9.一种实现权利要求1-8任一项中所述的一种小票相似度检测装置,其特征在于,包括以下模块:

10.一种电子设备,其特征在于,包括:

【技术特征摘要】

1.一种小票相似度检测方法,其特征在于,包括:

2.根据权利要求1所述的一种小票相似度检测方法,其特征在于,所述获取待上传小票的待上传小票信息包括:

3.根据权利要求1所述的一种小票相似度检测方法,其特征在于,对所述待上传小票信息进行分析,生成所述待上传小票对应的待上传小票文本嵌入向量,包括:

4.根据权利要求1所述的一种小票相似度检测方法,其特征在于,还包括:

5.根据权利要求3所述的一种小票相似度检测方法,其特征在于,计算所述文本嵌入...

【专利技术属性】
技术研发人员:叶嘉桓刘昭韩洋洋李祥董芮伶
申请(专利权)人:云南白药集团医药电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1