【技术实现步骤摘要】
一种笔录电子数据处理方法
[0001]本专利技术涉及数据处理
,具体涉及一种笔录电子数据处理方法
。
技术介绍
[0002]现有技术中对于电子笔录进行质量评估的方式一般是通过相关的语言模型算法对于其中的特定关键词进行提取,而后通过关键词分析来进行电子笔录的质量评估;但是在实际的笔录数据中,存在了较多的模糊描述的方面,而整体的模糊描述对应的相关词汇往往不能被关键词检测算法所检测到,但是电子笔录中的模糊描述往往对于其质量有着较为严重的影响
。
技术实现思路
[0003]本专利技术提供一种笔录电子数据处理方法,以解决现有的问题
。
[0004]本专利技术的一种笔录电子数据处理方法采用如下技术方案:本专利技术一个实施例提供了一种笔录电子数据处理方法,该方法包括以下步骤:采集电子笔录文本数据;获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,根据模糊词汇对应的语义环境对象对模糊词汇进行划分,得到若干个模糊词汇区间;根据每个模糊词汇区间中包含的模糊词汇的个数和相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第一质量影响参数,根据每个模糊词汇区间中相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第二质量影响参数,根据每个模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数得到每个模糊词汇区间中电子笔录文本数据质量参数;根据模糊词汇区间中电子笔录文本数据质量参数得到电子笔录文本数据质量参数,根据电子笔录文本数据质量参数进行对电 ...
【技术保护点】
【技术特征摘要】
1.
一种笔录电子数据处理方法,其特征在于,该方法包括以下步骤:采集电子笔录文本数据;获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,根据模糊词汇对应的语义环境对象对模糊词汇进行划分,得到若干个模糊词汇区间;根据每个模糊词汇区间中包含的模糊词汇的个数和相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第一质量影响参数,根据每个模糊词汇区间中相邻模糊词汇之间的距离得到每个模糊词汇区间中模糊词汇的第二质量影响参数,根据每个模糊词汇区间中模糊词汇的第一质量影响参数和第二质量影响参数得到每个模糊词汇区间中电子笔录文本数据质量参数;根据模糊词汇区间中电子笔录文本数据质量参数得到电子笔录文本数据质量参数,根据电子笔录文本数据质量参数进行对电子笔录文本数据中的数据异常检测处理
。2.
根据权利要求1所述一种笔录电子数据处理方法,其特征在于,所述获取电子笔录文本数据中的所有模糊词汇,根据模糊词汇得到每个模糊词汇对应的语义环境对象,包括的具体步骤如下:利用命名体识别算法对电子笔录文本数据中的所有的模糊词汇进行检测与识别,按照电子笔录文本数据的顺序获取所有模糊词汇,将其组成一组模糊词汇序列;根据
Word2Vec
模型获取模糊词汇序列中每个模糊词汇对应的语义环境对象,将每个模糊词汇对应的语义环境对象记为,其表示第
i
个模糊词汇对应的语义环境对象
。3.
根据权利要求1所述一种笔录电子数据处理方法,其特征在于,所述根据模糊词汇对应的语义环境对象对模糊词汇进行划分,得到若干个模糊词汇区间,包括的具体步骤如下:首先从第一个模糊词汇开始,判断第一个模糊词汇对应的语义环境对象和第二个模糊词汇对应的语义环境对象是否相同,如果相同,则比较第二个模糊词汇对应的语义环境对象和第三个模糊词汇对应的语义环境对象是否相同,如果和不相同,则在第二个模糊词汇和第三个模糊词汇之间进行划分,将第一个模糊词汇和第二个模糊词汇划分为一个区间;如果和相同,则比较第三个模糊词汇对应的语义环境对象和第四个模糊词汇对应的语义环境对象是否相同,依次划分出所有的模糊词汇区间
。4.
根据权利要求1所述一种笔录电子数据处理方法,其特征在于,所述每个模糊词汇区间中模糊词汇的第一质量影响参数的计算公式为:;式中,表示第
m
个模糊词汇区间中包含的模糊词汇的个数,表示第
t
个模糊词汇区间中包含的模糊词汇的个数,
M
表示所有模糊词汇区间的个数,表示第
m
个模糊词汇区间中第
i
个模糊词汇与第
i+1
个模糊词汇之间的距离,表示...
【专利技术属性】
技术研发人员:迟慧,吴思奇,李长庭,廖曼丞,
申请(专利权)人:中国人民公安大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。