一种笔录电子数据处理方法技术

技术编号:39846485 阅读:5 留言:0更新日期:2023-12-29 16:43
本发明专利技术涉及数据处理领域,具体涉及一种笔录电子数据处理方法,包括:采集电子笔录文本数据;获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,并进行区间划分;根据每个区间中包含的模糊词汇的个数和相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数,根据每个模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数得到每个模糊词汇区间中电子笔录文本数据质量参数;得到电子笔录文本数据质量参数,并完成数据异常检测处理

【技术实现步骤摘要】
一种笔录电子数据处理方法


[0001]本专利技术涉及数据处理
,具体涉及一种笔录电子数据处理方法


技术介绍

[0002]现有技术中对于电子笔录进行质量评估的方式一般是通过相关的语言模型算法对于其中的特定关键词进行提取,而后通过关键词分析来进行电子笔录的质量评估;但是在实际的笔录数据中,存在了较多的模糊描述的方面,而整体的模糊描述对应的相关词汇往往不能被关键词检测算法所检测到,但是电子笔录中的模糊描述往往对于其质量有着较为严重的影响


技术实现思路

[0003]本专利技术提供一种笔录电子数据处理方法,以解决现有的问题

[0004]本专利技术的一种笔录电子数据处理方法采用如下技术方案:本专利技术一个实施例提供了一种笔录电子数据处理方法,该方法包括以下步骤:采集电子笔录文本数据;获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,根据模糊词汇对应的语义环境对象对模糊词汇进行划分,得到若干个模糊词汇区间;根据每个模糊词汇区间中包含的模糊词汇的个数和相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第一质量影响参数,根据每个模糊词汇区间中相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第二质量影响参数,根据每个模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数得到每个模糊词汇区间中电子笔录文本数据质量参数;根据模糊词汇区间中电子笔录文本数据质量参数得到电子笔录文本数据质量参数,根据电子笔录文本数据质量参数进行对电子笔录文本数据中的数据异常检测处理

[0005]进一步地,所述获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,包括的具体步骤如下:利用命名体识别算法对电子笔录文本数据中的所有的模糊词汇进行检测与识别,按照电子笔录文本数据的顺序获取所有模糊词汇,将其组成一组模糊词汇序列;根据
Word2Vec
模型获取模糊词汇序列中每个模糊词汇对应的语义环境对象,将每个模糊词汇对应的语义环境对象记为,其表示第
i
个模糊词汇对应的语义环境对象

[0006]进一步地,所述根据模糊词汇对应的语义环境对象对模糊词汇进行划分,得到若干个模糊词汇区间,包括的具体步骤如下:首先从第一个模糊词汇开始,判断第一个模糊词汇对应的语义环境对象和第二个模糊词汇对应的语义环境对象是否相同,如果相同,则比较第二个模
糊词汇对应的语义环境对象和第三个模糊词汇对应的语义环境对象是否相同,如果和不相同,则在第二个模糊词汇和第三个模糊词汇之间进行划分,将第一个模糊词汇和第二个模糊词汇划分为一个区间;如果和相同,则比较第三个模糊词汇对应的语义环境对象和第四个模糊词汇对应的语义环境对象是否相同,依次划分出所有的模糊词汇区间

[0007]进一步地,所述每个模糊词汇区间中模糊词汇的第一质量影响参数的计算公式为:;式中,表示第
m
个模糊词汇区间中包含的模糊词汇的个数,表示第
t
个模糊词汇区间中包含的模糊词汇的个数,
M
表示所有模糊词汇区间的个数,表示第
m
个模糊词汇区间中第
i
个模糊词汇与第
i+1
个模糊词汇之间的距离,表示第
m
个模糊词汇区间中模糊词汇的第一质量影响参数,表示以自然常数为底的指数函数

[0008]进一步地,所述每个模糊词汇区间中模糊词汇的第二质量影响参数的计算公式为:;式中,表示第
m
个模糊词汇区间中包含的模糊词汇的个数,表示第
m
个模糊词汇区间中第
i
个模糊词汇与第
i+1
个模糊词汇之间的距离,表示第
m
个模糊词汇区间中模糊词汇的第二质量影响参数

[0009]进一步地,所述相邻模糊词汇之间的距离的具体获取步骤如下:相邻模糊词汇之间的距离是指相邻模糊词汇在电子笔录文本数据中的位置之间包含的字的个数

[0010]进一步地,所述每个模糊词汇区间中电子笔录文本数据质量参数的计算公式为:;式中,表示第
m
个模糊词汇区间中模糊词汇的第一质量影响参数,表示第
m
个模糊词汇区间中模糊词汇的第二质量影响参数,表示第
m
个模糊词汇区间的修正系数,表示第
m
个模糊词汇区间中电子笔录文本数据质量参数

[0011]进一步地,所述模糊词汇区间的修正系数的具体获取步骤如下:当模糊词汇区间中模糊词汇的第一质量影响参数大于模糊词汇区间中模糊词汇的第二质量影响参数时,则此时模糊词汇区间的修正系数为
‑1;当模糊词汇区间中模糊词汇的第一质量影响参数小于等于模糊词汇区间中模糊词汇的第二质量影响参数时,则此时模糊词汇区间的修正系数为
1。
[0012]进一步地,所述电子笔录文本数据质量参数的计算公式为:;
式中,表示第
m
个模糊词汇区间中电子笔录文本数据质量参数,
M
表示所有模糊词汇区间的个数,表示电子笔录文本数据质量参数,表示线性归一化函数

[0013]进一步地,所述根据电子笔录文本数据质量参数进行对电子笔录文本数据中的数据异常检测处理,包括的具体步骤如下:当电子笔录文本数据质量参数大于等于预设阈值
A
时,则判定电子笔录文本数据没有异常;当电子笔录文本数据质量参数小于预设阈值
A
时,则判定电子笔录文本数据存在异常

[0014]本专利技术的技术方案的有益效果是:本专利技术通过对电子笔录文本数据进行区间划分得到若干模糊词汇区间,根据每个区间中包含的模糊词汇的个数和相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数,通过模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数进行分析,提高对电子笔录文本数据质量的评估;再通过模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数得到模糊词汇区间中电子笔录文本数据质量参数,根据模糊词汇区间中电子笔录文本数据质量参数得到电子笔录文本数据质量参数,根据电子笔录文本数据质量参数进行对电子笔录文本数据中的数据异常检测处理,提高了电子笔录文本数据的异常检测的准确性

附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0016]图1为本专利技术一种笔录电子数据处理方法的步骤流程图

具体实施方式
[0017]为了更进一步阐述本专利技术为达成预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种笔录电子数据处理方法,其特征在于,该方法包括以下步骤:采集电子笔录文本数据;获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,根据模糊词汇对应的语义环境对象对模糊词汇进行划分,得到若干个模糊词汇区间;根据每个模糊词汇区间中包含的模糊词汇的个数和相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第一质量影响参数,根据每个模糊词汇区间中相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第二质量影响参数,根据每个模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数得到每个模糊词汇区间中电子笔录文本数据质量参数;根据模糊词汇区间中电子笔录文本数据质量参数得到电子笔录文本数据质量参数,根据电子笔录文本数据质量参数进行对电子笔录文本数据中的数据异常检测处理
。2.
根据权利要求1所述一种笔录电子数据处理方法,其特征在于,所述获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,包括的具体步骤如下:利用命名体识别算法对电子笔录文本数据中的所有的模糊词汇进行检测与识别,按照电子笔录文本数据的顺序获取所有模糊词汇,将其组成一组模糊词汇序列;根据
Word2Vec
模型获取模糊词汇序列中每个模糊词汇对应的语义环境对象,将每个模糊词汇对应的语义环境对象记为,其表示第
i
个模糊词汇对应的语义环境对象
。3.
根据权利要求1所述一种笔录电子数据处理方法,其特征在于,所述根据模糊词汇对应的语义环境对象对模糊词汇进行划分,得到若干个模糊词汇区间,包括的具体步骤如下:首先从第一个模糊词汇开始,判断第一个模糊词汇对应的语义环境对象和第二个模糊词汇对应的语义环境对象是否相同,如果相同,则比较第二个模糊词汇对应的语义环境对象和第三个模糊词汇对应的语义环境对象是否相同,如果和不相同,则在第二个模糊词汇和第三个模糊词汇之间进行划分,将第一个模糊词汇和第二个模糊词汇划分为一个区间;如果和相同,则比较第三个模糊词汇对应的语义环境对象和第四个模糊词汇对应的语义环境对象是否相同,依次划分出所有的模糊词汇区间
。4.
根据权利要求1所述一种笔录电子数据处理方法,其特征在于,所述每个模糊词汇区间中模糊词汇的第一质量影响参数的计算公式为:;式中,表示第
m
个模糊词汇区间中包含的模糊词汇的个数,表示第
t
个模糊词汇区间中包含的模糊词汇的个数,
M
表示所有模糊词汇区间的个数,表示第
m
个模糊词汇区间中第
i
个模糊词汇与第
i+1
个模糊词汇之间的距离,表示...

【专利技术属性】
技术研发人员:迟慧吴思奇李长庭廖曼丞
申请(专利权)人:中国人民公安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1