System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本检测方法、装置、存储介质以及电子设备制造方法及图纸_技高网

一种文本检测方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:40791631 阅读:2 留言:0更新日期:2024-03-28 19:21
本申请公开了一种文本检测方法、装置、存储介质以及电子设备。其中方法包括:基于预先提取的待检测文本的关键字集以及事实内容语句集进行向量化处理,获得与所述关键字集对应的第一向量集以及与所述事实内容语句集对应的第二向量集;基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集;基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集;基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果。本申请中的方法可以提高检测效率。

【技术实现步骤摘要】

本专利技术涉及文本内容检测,特别涉及一种文本检测方法、装置、存储介质以及电子设备


技术介绍

1、随着生成式预训练语言大模型技术的快速发展,人工智能(artificialintelligence,简称ai)生成内容也被广泛应用,与人类撰写的内容相比,目前ai技术生成的内容,尤其是基于自回归语言模型生成的内容不可避免的存在事实类错误或者虚假内容,现有检测方法很难区分文本是否为ai自动生成文本,文本检测效率低。


技术实现思路

1、有鉴于此,本专利技术提供一种文本检测方法、装置、存储介质以及电子设备,主要目的在于解决目前存在现有检测方法很难区分文本是否为ai自动生成文本,文本检测效率低的问题。

2、为解决上述问题,本申请提供一种文本检测方法,包括:

3、基于预先提取的待检测文本的关键字集以及事实内容语句集进行向量化处理,获得与所述关键字集对应的第一向量集以及与所述事实内容语句集对应的第二向量集;

4、基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集;

5、基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集;

6、基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果。

7、可选的,所述基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集,具体包括:

8、基于所述第一向量集中各实体向量以及所述预设实体向量库中若干预设实体记录进行计算处理,获得与各所述实体向量对应的实体记录集以及第一初始向量点积值集;

9、分别针对同一实体向量对应的实体记录集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量分别对应的第一目标向量点积值集。

10、可选的,所述基于所述第一向量集中各实体向量以及所述预设实体向量库中若干预设实体记录进行计算处理,获得与各所述实体向量对应的实体记录集以及第一初始向量点积值集,具体包括:

11、基于所述第一向量集以及所述预设实体向量库进行实体向量的相似度计算,获得与所述第一向量集中的各实体向量对应的若干第一相似度;

12、对各所述第一相似度进行筛选处理,获得与各所述实体向量对应的若干第一目标相似度,以获得与各所述实体向量对应的、由计算得到各所述第一目标相似度的预设实体向量库中的各实体记录构成的实体记录集;

13、基于各所述第一目标相似度构建得到与各所述实体向量对应的第一初始向量点积值集。

14、可选的,所述分别针对同一实体向量对应的实体记录集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量分别对应的第一目标向量点积值集,具体包括:

15、分别基于各所述实体向量以及与各所述实体向量对应的所述实体记录集进行计算处理,得到与各所述实体向量对应的第一重复字符比值集;

16、基于同一实体向量对应的所述第一重复字符比值集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量对应的所述第一目标向量点积值集。

17、可选的,所述基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集,具体包括:

18、基于所述第二向量集中各事实内容语句向量以及所述预设事实内容语句向量库中若干预设事实内容语句记录进行计算处理,获得与各所述事实内容语句向量对应的事实内容语句记录集以及第二初始向量点积值集;

19、分别针对同一事实内容语句向量对应的所述事实内容语句记录集以及所述第二初始向量点积值集进行计算处理,获得与各所述事实内容语句向量分别对应的第二目标向量点积值集。

20、可选的,所述基于所述第二向量集中各事实内容语句向量以及所述预设事实内容语句向量库中若干预设事实内容语句记录进行计算处理,获得与各所述事实内容语句向量对应的事实内容语句记录集以及第二初始向量点积值集,具体包括:

21、基于所述第二向量集以及所述事实内容语句向量库进行事实内容语句向量的相似度计算,获得与所述第二向量集中的各事实内容语句向量对应的若干第二相似度;

22、对各所述第二相似度进行筛选处理,获得与各所述事实内容语句向量对应的若干第二目标相似度,以获得与各所述事实内容语句向量对应的、由计算得到各所述第二目标相似度的事实内容语句向量库中的各事实内容语句构成的事实内容语句记录集;

23、基于各所述第二目标相似度构建得到与各所述事实内容语句向量对应的第二初始向量点积值集。

24、可选的,所述分别针对同一事实内容语句向量对应的所述事实内容语句记录集以及所述第二初始向量点积值集进行计算处理,获得与各所述事实内容语句向量分别对应的第二目标向量点积值集,具体包括:

25、分别基于各所述事实内容语句向量以及与各所述事实内容语句向量对应的所述第二向量集进行计算处理,得到与各所述事实内容语句向量对应的第二重复字符比值集;

26、基于同一事实内容语句向量对应的所述第二重复字符比值集以及所述第二初始向量点积值集进行计算处理,获得与各所事实内容语句向量对应的所述第二目标向量点积值集。

27、可选的,所述基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果,具体包括:

28、基于各所述第一目标向量点积值集进行筛选,得到与各所述第一目标向量点积值集对应的目标第一向量点积值;

29、计算各所述第一向量点积值的均值,得到第一均值;

30、基于各所述第二目标向量点积值集进行筛选,得到与各所述第二目标向量点积值集对应的目标第二向量点积值;

31、计算各所述第二向量点积值的均值,得到第二均值;

32、基于所述第一均值、所述第二均值以及预设参数值进行计算处理,得到检测结果。

33、为解决上述问题本申请提供一种文本检测装置,包括:

34、向量化处理模块:用于基于预先提取的待检测文本的关键字集以及事实内容语句集进行向量化处理,获得与所述关键字集对应的第一向量集以及与所述事实内容语句集对应的第二向量集;

35、第一核查处理模块:基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集;

36、第二核查处理模块:用于基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集;

37、计算模块:用于基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果本文档来自技高网...

【技术保护点】

1.一种文本检测方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集,具体包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述第一向量集中各实体向量以及所述预设实体向量库中若干预设实体记录进行计算处理,获得与各所述实体向量对应的实体记录集以及第一初始向量点积值集,具体包括:

4.如权利要求2所述的方法,其特征在于,所述分别针对同一实体向量对应的实体记录集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量分别对应的第一目标向量点积值集,具体包括:

5.如权利要求1所述的方法,其特征在于,所述基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集,具体包括:

6.如权利要求5所述的方法,其特征在于,所述基于所述第二向量集中各事实内容语句向量以及所述预设事实内容语句向量库中若干预设事实内容语句记录进行计算处理,获得与各所述事实内容语句向量对应的事实内容语句记录集以及第二初始向量点积值集,具体包括:

7.如权利要求5所述的方法,其特征在于,所述分别针对同一事实内容语句向量对应的所述事实内容语句记录集以及所述第二初始向量点积值集进行计算处理,获得与各所述事实内容语句向量分别对应的第二目标向量点积值集,具体包括:

8.如权利要求1所述的方法,其特征在于,所述基于各所述第一目标向量点积值集以及各所述第二目标向量点积值集进行计算处理,得到所述待检测文本的检测结果,具体包括:

9.一种文本检测装置,其特征在于,包括:

10.一种电子设备,其特征在于,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-8任一项所述文本检测方法的步骤。

...

【技术特征摘要】

1.一种文本检测方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述基于所述第一向量集采用预设实体向量库进行核查处理,得到与所述第一向量集中的各实体向量对应的第一目标向量点积值集,具体包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述第一向量集中各实体向量以及所述预设实体向量库中若干预设实体记录进行计算处理,获得与各所述实体向量对应的实体记录集以及第一初始向量点积值集,具体包括:

4.如权利要求2所述的方法,其特征在于,所述分别针对同一实体向量对应的实体记录集以及所述第一初始向量点积值集进行计算处理,获得与各所述实体向量分别对应的第一目标向量点积值集,具体包括:

5.如权利要求1所述的方法,其特征在于,所述基于所述第二向量集采用预设事实内容语句向量库进行核查处理,得到与所述第二向量集中的各事实内容语句向量对应的第二目标向量点积值集,具体包括:

6.如权利要求5所述的...

【专利技术属性】
技术研发人员:薛德军师庆辉耿崇
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1