一种文本数据溯源方法、系统、存储介质及设备技术方案

技术编号：41303758 阅读：8 留言：0更新日期：2024-05-13 14:49

本发明专利技术提供了一种文本数据溯源方法、系统、存储介质及设备，该方法包括：获取与请求者的身份信息对应的身份编码；对文本数据中的内容进行语义分析以获取替换实体，在同义实体库中根据替换实体进行同义查询、并确认同义实体，将每一替换实体对应的多个同义实体输入于预设容积计算公式进行计算，以得到替换总容积，结合每一替换实体对应的多个同义实体、替换总容积以及身份编码进行综合计算，以确认与每一替换实体对应的至少一同义实体，并将同义实体与替换实体进行替换，通过该设置，实现在进行文本数据共享时，可以在不破坏文本含义的前提下对文本数据进行适当的文本转换，解决了在多种应用情况下均可以找到对应的泄露人，保障文本数据可溯源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据溯源，特别涉及一种文本数据溯源方法、系统、存储介质及设备。

技术介绍

1、文本数据是记录文字信息的一种方式，如患者在就医过程中，医疗机构将产生大量的临床数据，为此，医生人为记录了关于患者的相关陈述、生命体征等文本数据，在信息化程度逐渐成熟的现在，医院、社区公卫、研究机构、监管机构之间对患者病历数据互相调阅的需求也逐渐增加，但医院产生的病历数据属于患者的隐私数据，各家机构在调阅患者病历后可能产生的数据泄露事件，为了追溯临床数据泄露，在调阅患者信息时，将在文本数据中加入不可见的文本数据，以作为追溯的身份信息。

2、现有技术中，追溯身份信息的方式包括在图片、pdf或在阅览器软件背景中嵌入阅览者身份信息，或是在文本中插入不可见的文本数据来作为追溯的身份信息，然而以图片、pdf等方式分享数据，虽然在阅读背景中加入可视的特殊信息，但对于以纸质文本分享数据就无能为力，并且调阅者在看到带有特殊信息的水印时，可以利用截图工具中的ocr功能将病历文本提出来，使得追溯功能失效，而采用在文本中插入不可见的数据的方式，其以二进制数据对原始文本进行数据处理，其不可见的数据经过阅览器进行阅览时，大部分的数据会被阅览器过滤掉，或是在追溯时，需获取完整无差别信息的文本，将该文本与原始文本进行比较，才能实现身份追溯。

3、因此，现有对文本数据溯源的方法受到多方面条件的影响，导致在多种应用情况下均无法找到泄露人，进而对文本信息造成极大的泄露隐患。

技术实现思路

1、基于此，本专

2、本专利技术的第一方面在于提供一种文本数据溯源方法，所述溯源方法包括：

3、当请求者访问文本数据时，获取与所述请求者的身份信息对应的身份编码；

4、对所述文本数据中的内容进行语义分析，以获取所述文本数据中的多个替换实体；

5、在预设的同义实体库中根据每一替换实体的语义进行同义查询、并确认与每一所述替换实体同义的多个同义实体；

6、将每一所述替换实体对应的多个同义实体输入于预设容积计算公式进行计算，以得到与所述文本数据对应的替换总容积；

7、结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算，以确认与每一所述替换实体对应的至少一同义实体，并将所述同义实体与所述替换实体进行同义替换，使得当前文本数据替换于与所述身份编码对应的同义文本数据。

8、进一步地，在所述将每一所述替换实体对应的多个同义实体输入于预设容积计算公式进行计算，以得到与所述文本数据对应的替换总容积的步骤中，所述容积计算公式为：

9、；

10、其中，c为替换总容积，m为替换实体的数量，kn为与替换实体同义的第n个同义实体。

11、进一步地，在所述结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算的步骤中，包括：

12、判断所述身份编码的数值是否在所述替换总容积的数值范围之内；

13、若否，则所述身份编码的数值将根据所述替换总容积的数值进行取余，以构建取余编码；

14、根据所述取余编码和第n个所述替换实体对应的同义实体的数量进行计算，确认与第n个所述替换实体对应的至少一同义实体；

15、其中，所述取余编码的数值小于所述身份编码的数值，且所述取余编码的数值在所述替换总容积的数值范围之内。

16、进一步地，在所述则所述身份编码的数值将根据所述替换总容积的数值进行取余，以构建取余编码的步骤中，所述构建取余编码的公式为：

17、；

18、其中，ɡ为取余编码的数值，g为身份编码的数值，c为替换总容积的数值。

19、进一步地，在所述根据所述取余编码和所述替换实体对应的同义实体的数量进行计算，确认与所述替换实体对应的至少一同义实体的步骤中，包括：

20、当确认第n个所述替换实体对应的同义实体时，根据所述取余编码的百分比和第n个替换实体对应的同义实体的数量进行计算；

21、其中，确认第n个所述替换实体对应的同义实体的计算公式为：

22、；

23、其中，pn为第n个所述替换实体对应的同义实体，ɡ为取余编码的数值，kn为第n个替换实体对应的同义实体的数量；

24、当确认第n+1个所述替换实体对应的同义实体时，获取与第n个替换实体中对应的取余编码和对应的同义实体的数量进行计算，以得到第n个取余编码；

25、根据第n个取余编码的百分比和第n+1个替换实体对应的同义实体的数量进行计算，以确认第n+1个所述替换实体对应的同义实体；

26、其中，第n个取余编码的计算公式为：

27、；

28、其中，ɡn为第n个取余编码；

29、所述根据第n个取余编码的百分比和第n+1个替换实体对应的同义实体的数量进行计算的计算公式为：

30、；

31、其中，pn+1为第n+1个所述替换实体对应的同义实体，kn+1为第n+1个替换实体中对应的同义实体的数量。

32、进一步地，在所述使得当前文本数据替换于与所述身份编码对应的同义文本数据的步骤之后，还包括；

33、当获取所述同义文本数据中的一部分内容时，根据一部分内容中的同义实体确认对应的文本数据；

34、将一部分内容中的同义实体与文本数据中的同义实体进行对比，以获取同义文本数据中的另一部分内容，并将另一部分内容中的同义实体标记为未知的同义实体；

35、结合未知的同义实体和一部分内容中的同义实体以构成替换向量；

36、在访问数据库中查找文本数据的历史记录，并根据文本数据的历史记录和替换向量以得到多个余弦相似度；

37、将多个余弦相似度进行排序，以确定相似度最高的至少一身份编码。

38、进一步地，在所述当请求者访问文本数据时，获取与所述请求者的身份信息对应的身份编码的步骤中，还包括：

39、当请求者访问文本数据时，判断当前请求者是否访问过文本数据；

40、若是，则在访问数据库中根据请求者的历史记录获取与所述请求者的身份信息对应的身份编码；

41、若否，则访问数据库根据原有的身份编码之外生成与所述请求者的身份信息对应的身份编码。

42、本专利技术的第二方面在于提供一种文本数据溯源系统，所述系统包括：

43、获取模块，用于当请求者访问文本数据时，获取与所述请求者的身份信息对应的身份编码；

44、语义分析模块，用于对所述文本数据中的内容进行语义分析，以获取所述文本数据中的多个替换实体；

45、查询模块，用于在预设的本文档来自技高网...

【技术保护点】

1.一种文本数据溯源方法，其特征在于，所述溯源方法包括：

2.根据权利要求1所述的文本数据溯源方法，其特征在于，在所述将每一所述替换实体对应的多个同义实体输入于预设容积计算公式进行计算，以得到与所述文本数据对应的替换总容积的步骤中，所述容积计算公式为：

3.根据权利要求2所述的文本数据溯源方法，其特征在于，在所述结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算的步骤中，包括：

4.根据权利要求3所述的文本数据溯源方法，其特征在于，在所述则所述身份编码的数值将根据所述替换总容积的数值进行取余，以构建取余编码的步骤中，所述构建取余编码的公式为：

5.根据权利要求4所述的文本数据溯源方法，其特征在于，在所述根据所述取余编码和所述替换实体对应的同义实体的数量进行计算，确认与所述替换实体对应的至少一同义实体的步骤中，包括：

6.根据权利要求1所述的文本数据溯源方法，其特征在于，在所述使得当前文本数据替换于与所述身份编码对应的同义文本数据的步骤之后，还包括；

7.根据权利要求1所述的文本

8.一种文本数据溯源系统，其特征在于，所述系统包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1－7任一的文本数据溯源方法。

10.一种文本数据溯源方法设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如权利要求1－7任一的文本数据溯源方法。

...

【技术特征摘要】

1.一种文本数据溯源方法，其特征在于，所述溯源方法包括：

5.根据权利要求4所述的文本数据溯源方法，其特征在于，在所述根据所述取余编码和所述替换实体对应的同义实体的数量进行计算，...

【专利技术属性】
技术研发人员：王希光，黄永生，陆凯，张勇，丁川，叶凯，樊海东，鲁冰青，
申请(专利权)人：江西曼荼罗软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人