一种基于数字化的电子档案自动转换方法及系统技术方案

技术编号：40292770 阅读：6 留言：0更新日期：2024-02-07 20:42

本发明专利技术公开了一种基于数字化的电子档案自动转换方法及系统，涉及电子档案领域，该方法包括以下步骤：利用媒体类型识别技术判断输入档案数据的类型，将输入档案数据区分为图像档案文件和音频档案文件；利用光学字符识别技术对图像档案文件进行数字化识别和转换，得到初始文本文件；结合音频档案文件与初始文本文件，构建语音修正模型；通过语音修正模型计算匹配度，依据匹配度对初始文本文件进行修正；将修正后的文本文件与图像档案文件及音频档案文件组织存档，完成电子档案转换。本发明专利技术能够通过语音识别技术在电子档案录入信息不全时辅助完成电子档案的转换，提升了档案转换的效率和质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子档案领域，具体来说，涉及一种基于数字化的电子档案自动转换方法及系统。

技术介绍

1、随着社会的发展，电子档案的应用范围不断扩大，在接触到特殊人群与特殊场景时，传统电子档案转换方式效率低下、转换质量参差不齐的问题逐渐凸显：首先，由于近年来我国老龄人口占比持续提升，大量老年人参与提供档案信息，但是老年人对新兴技术不熟悉，利用智能设备进行电子档案采集录入信息不全，错误率较高，还需要依靠语音描述纠正，而现有电子档案转换系统不能有效利用语音进行纠正，导致老年人提供的重要档案信息无法实现有效数字化，往往需要进行人工辅助纠正，增加了电子档案数字化的成本；此外，在法庭、会议、新闻发布等重要场景中进行档案记录的同时也产生了大量音频资料，这些音频资料可以作为电子档案的重要补充信息，但是目前大部分音频内容没有被转换利用而是直接被归档，导致这些重要的语音信息无法对数字化档案进行补充，也失去了辅助提高电子档案转换质量的机会。

2、为了解决上述问题，迫切需要研究一种能够实现电子档案自动高效转换的新方法，该方法应当能够通过语音识别技术在电子档案录入信息不全时辅助完成电子档案的转换，实现对老年人语音描述的准确数字化，还需要能够辅助提取音频资料中的关键信息，进行电子档案的修正和补充，构建这样的自动化电子档案转换系统，将大大提升档案转换的效率和质量，具有重要的社会价值。

3、针对相关技术中的问题，目前尚未提出有效的解决方案。

技术实现思路

1、针对相关技术中的问题，本专利技术

2、为此，本专利技术采用的具体技术方案如下：

3、根据本专利技术的一个方面，提供了一种基于数字化的电子档案自动转换方法，该基于数字化的电子档案自动转换方法包括以下步骤：

4、s1、利用媒体类型识别技术判断输入档案数据的类型，将输入档案数据区分为图像档案文件和音频档案文件；

5、s2、利用光学字符识别技术对图像档案文件进行数字化识别和转换，得到初始文本文件；

6、s3、结合音频档案文件与初始文本文件，构建语音修正模型；

7、s4、通过语音修正模型计算匹配度，依据匹配度对初始文本文件进行修正；

8、s5、将修正后的文本文件与图像档案文件及音频档案文件组织存档，完成电子档案转换。

9、进一步的，利用媒体类型识别技术判断输入档案数据的类型，将输入档案数据区分为图像档案文件和音频档案文件包括以下步骤：

10、s11、获取输入档案数据的文件扩展名及文件头信息；

11、s12、依据文件扩展名及文件头信息，建立媒体类型识别规则库；

12、s13、定义媒体类型识别规则库中的图像档案文件类型和音频档案文件类型；

13、s14、将输入档案数据的文件扩展名及文件头信息与媒体类型识别规则库中定义的图像档案文件类型及音频档案文件类型进行比对；

14、s15、依据比对结果，判断输入数据是图像档案文件还是音频档案文件，完成对输入档案数据的文件类型识别。

15、进一步的，利用光学字符识别技术对图像档案文件进行数字化识别和转换，得到初始文本文件包括以下步骤：

16、s21、利用扫描设备对图像档案文件进行数字化扫描，得到预定格式的原始图像数据；

17、s22、利用光学字符识别技术对原始图像数据进行初步识别和转换，将图像中的文字转换为草稿文本；

18、s23、依据预定的标准格式要求，对草稿文本进行格式化处理；

19、s24、将格式化处理后的文本数据保存为标准文本文件，作为初始文本文件。

20、进一步的，利用光学字符识别技术对原始图像数据进行初步识别和转换，将图像中的文字转换为草稿文本包括以下步骤：

21、s221、对原始图像数据进行灰度化及降噪预处理；

22、s222、分析图像中的文本布局、段落及标题，获取图像结构信息；

23、s223、确定文本行和文字位置，对图像进行切分和提取；

24、s224、利用特征提取和分类器识别提取的字符图像，得到对应字符；

25、s225、将字符组合成词汇，恢复标点符号，通过文档排版得到草稿文本。

26、进一步的，结合音频档案文件与初始文本文件，构建语音修正模型包括以下步骤：

27、s31、对音频档案文件进行语音识别，得到语音识别文本；

28、s32、将语音识别文本与初始文本文件进行比对，找到两者的文本差异；

29、s33、通过分析文本差异，标注出对应音频中的语音片段，构建语音纠错数据集；

30、s34、构建语音修正模型，使用语音纠错数据集训练语音修正模型；

31、s35、将语音片段、文本差异、图像内容关联展示，通过人工校验反馈纠错结果，对语音修正模型进行优化。

32、进一步的，通过分析文本差异，标注出对应音频中的语音片段，构建语音纠错数据集包括以下步骤：

33、s331、通过字符串比较算法找出语音识别文本与初始文本文件的文本差异，定位错误词汇；

34、s332、在初始文本文件中对错误词汇进行标注；

35、s333、依据语音识别文本与标注后的初始文本文件的对齐关系，确定错误词汇在音频中的时间段；

36、s334、从音频档案文件中截取错误词汇的音频片段，构成音频纠错数据集。

37、进一步的，通过语音修正模型计算匹配度，依据匹配度对初始文本文件进行修正包括以下步骤：

38、s41、将语音识别文本与初始文本文件输入语音修正模型；

39、s42、通过语音修正模型将语音识别文本与初始文本文件进行比对，计算文本适应度；

40、s43、依据文本适应度标注出初始文本文件中的错误词汇，通过语音修正模型生成这些错误词汇的音频片段；

41、s44、语音修正模型针对错误词汇进行纠错，输出与音频片段一致的识别结果；

42、s45、将识别结果替换到初始文本文件中对应的错误位置，生成修正后的文本文件。

43、进一步的，通过语音修正模型将语音识别文本与初始文本文件进行比对，计算文本适应度包括以下步骤：

44、s421、对语音识别文本和初始文本文件进行去噪预处理；

45、s421、从预处理后的文本中提取实体类别的特征，对每个实体类别进行特征分析；

46、s423、计算每一对实体类别适应度，整合得到整体的文本适应度。；

47、s424、设定适应度阈值，对计算得到的文本适应度进行评估与调整。

48、进一步的，计算文本适应度的公式为：

49、

50、式中，syd(j1，j2)表示语音识别文本与初始文本文件的整体文本适应度；

本文档来自技高网...

【技术保护点】

1.一种基于数字化的电子档案自动转换方法，其特征在于，该基于数字化的电子档案自动转换方法包括以下步骤：

2.根据权利要求1所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述利用媒体类型识别技术判断输入档案数据的类型，将输入档案数据区分为图像档案文件和音频档案文件包括以下步骤：

3.根据权利要求1所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述利用光学字符识别技术对图像档案文件进行数字化识别和转换，得到初始文本文件包括以下步骤：

4.根据权利要求3所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述利用光学字符识别技术对原始图像数据进行初步识别和转换，将图像中的文字转换为草稿文本包括以下步骤：

5.根据权利要求1所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述结合音频档案文件与初始文本文件，构建语音修正模型包括以下步骤：

6.根据权利要求5所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述通过分析文本差异，标注出对应音频中的语音片段，构建语音纠错数据集包括以下步骤：>

7.根据权利要求5所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述通过语音修正模型计算匹配度，依据匹配度对初始文本文件进行修正包括以下步骤：

8.根据权利要求7所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述通过语音修正模型将语音识别文本与初始文本文件进行比对，计算文本适应度包括以下步骤：

9.根据权利要求8所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述计算文本适应度的公式为：

10.一种基于数字化的电子档案自动转换系统，用于实现权利要求1-9中任一项所述的基于数字化的电子档案自动转换方法，其特征在于，该基于数字化的电子档案自动转换系统包括：

...

【技术特征摘要】

1.一种基于数字化的电子档案自动转换方法，其特征在于，该基于数字化的电子档案自动转换方法包括以下步骤：

5.根据权利要求1所述的一种基于数字化的电子档案自动转换方法，其特征在于，所述结合音频档案文件与初始文本文件，构建语音修正模型包括以下...

【专利技术属性】
技术研发人员：姬辉，何鹏飞，陈欣，刘鹏，
申请(专利权)人：南京云档信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人