System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请版式文件数据处理,具体涉及一种版式文件的实时数据在线智能处理方法。
技术介绍
1、版式文件是一种格式独立,固化呈现的文件类型,能保证同一文件在不同设备上呈现相同的显示效果,广泛用于电子合同、文件通知、档案管理等领域。版式文件中最主要的数据是文本数据,如何保证版式文件在传输过程中文本数据的安全可靠一直是本
的发展方向。
2、版式文件作为常用的办公文件类型,在用户使用过程中有着对文本数据实现自动纠错的功能。传统的基于数据清洗的版式文件文本数据,多为基于规则的文本数据纠错方法,只能对文本数据中,一个句子内的词语进行语法错误检测与错别字检测,但是对于文本数据中,句子与句子之间,句子与句子之间出现的逻辑错误,没有进一步进行检测。
技术实现思路
1、为了解决上述技术问题,本专利技术提供一种版式文件的实时数据在线智能处理方法,以解决现有的问题。
2、本专利技术的一种版式文件的实时数据在线智能处理方法采用如下技术方案:
3、本专利技术一个实施例提供了一种版式文件的实时数据在线智能处理方法,该方法包括以下步骤:
4、获取版式文本数据分词处理得到分词数据集合,相同的分词为同一种类词语;提取分词数据集合中的名词、情感词语及对应情感类型和情感强烈程度、情感极性词语及对应的极性值;提取各情感词语的关联情感极性词语;
5、对于每种名词,根据第种名词所在句子中各种情感类型的情感词语的情感强烈程度、关联情感极性词语的极性值以及与第种名词之间的
6、根据各句子中各名词的各种情感类型的全文情感特征倾向、局部情感特征倾向以及各名词的信息量得到各句子的内部情感逻辑混乱度;根据第种名词所在的各句子的内部情感逻辑混乱度、每个第种名词的各种情感类型的全文情感特征倾向、局部情感特征倾向得到每个第种名词在第种情感类型上的内部情感逻辑混乱系数;
7、根据情感逻辑特征异常变化值以及内部情感逻辑混乱系数得到每个第种名词的各种情感类型混乱度,结合lof异常检测算法对文本数据集合进行智能处理。
8、进一步地,所述提取各情感词语的关联情感极性词语包括:
9、在情感词语两边各间隔预设数量个词语从中选取距离情感词语最近的一个情感极性词语作为情感词语的关联情感极性词语。
10、进一步地,所述第种名词的各种情感类型的全文情感特征倾向,包括:
11、对于第种名词的第种情感类型,计算第种名词所在句子中第种情感类型的情感词语的情感强烈程度与关联情感极性词语的极性值的乘积,统计情感词语与第种名词之间的词语间隔,获取所述乘积与词语间隔的比值,将第种名词所有所在句子的所述比值的均值作为第种名词的第种情感类型的全文情感特征倾向;
12、其中,当情感词语不存在关联情感极性词语时,则情感词语的关联情感极性词语的极性值设定为1。
13、进一步地,所述第种名词的各种情感类型的情感转化混乱度包括:
14、将所述比值的绝对值记为第一绝对值,计算第种名词所有所在句子的所述第一绝对值的均值,记为第一均值,计算所述均值与第种名词的第种情感类型的全文情感特征倾向绝对值的差值,将所述差值与第一均值比值的绝对值作为第种名词的第种情感类型的情感转化混乱度。
15、进一步地,所述构建每个第种名词的各种情感类型的局部情感特征倾向包括:
16、对于文本数据集合中的第个第种名词,计算所在句子中第种情感类型各情感词语的情感强烈程度与关联情感极性词语的极性值的乘积,记为第一乘积,获取所述第一乘积与所述词语间隔的比值,将所述所在句子中第种情感类型的所有情感词语的所述比值的均值作为第个第种名词的第种情感类型的局部情感特征倾向。
17、进一步地,所述构建每个第种名词的位置变异指数包括:
18、统计每个第种名词在分词数据集合中所处的词语序号作为词语位置,第个、第个、第个第种名词的词语位置分别记为,第个第种名词的位置变异指数的表达式为:
19、
20、式中,为第种名词的词语数量。
21、进一步地,所述构建每个第种名词在各种情感类型上的情感逻辑特征异常变化值包括:
22、获取第个第种名词在第种情感类型上的局部情感特征倾向与第种名词在第种情感类型上的全文情感特征倾向的差值绝对值,计算所述差值绝对值与第种名词的第种情感类型的情感转化混乱度的差值,获取差值与0的最小值,将所述最小值与位置变异指数的比值作为第个第种名词在第种情感类型上的情感逻辑特征异常变化值。
23、进一步地,所述各句子的内部情感逻辑混乱度包括:
24、对于各句子,统计句子中每个名词在分词数据集合中的信息量,将每个名词的第种情感类型中的局部情感特征倾向与全文情感特征倾向的差值绝对值,获取差值绝对值与所述信息量的乘积记为第一乘积,将句子中所有名词的所述第一乘积的和值作为句子的内部情感逻辑混乱度。
25、进一步地,所述每个第种名词在第种情感类型上的内部情感逻辑混乱系数表达式为:
26、
27、式中,是第个第种词语在第种情感类型上的内部情感逻辑混乱系数,为第种名词所在第个句子的内部情感逻辑混乱度,n为第种名词所在句子的数量,是第个第种名词在第种情感类型的局部情感特征倾向,是第种名词在第种情感类型上的全文情感特征倾,是第个第种名词在分词数据集合中的信息量。
28、进一步地,所述根据情感逻辑特征异常变化值以及内部情感逻辑混乱系数得到每个第种名词的各种情感类型混乱度,结合lof异常检测算法对文本数据集合进行智能处理,包括:
29、将第个第种名词在第种情感类型上的情感逻辑特征异常变化值与内部情感逻辑混乱系数的乘积作为第个第种名词的第种情感类型混乱度;
30、将文本数据集合中所有的第种名词的各种情感类型混乱度作为lof异常检测算法的输入,lof异常检测算法输出为每个第种名词的检测值,当所述检测值大于等于预设阈值时,则对应的名词出现逻辑错误,筛选出逻辑错误的名词。
31、本专利技术至少具有如下有益效果:
32、本专利技术通过对版式文件文本数据中的名词进行情感逻辑检测,将其中情感逻辑与全文有明显差异的名词标记为异常数据,完成数据的实时在线处理。对同一种词语,通过其所出现的句子当中,各个表征情感的词语的情本文档来自技高网...
【技术保护点】
1.一种版式文件的实时数据在线智能处理方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述提取各情感词语的关联情感极性词语包括:
3.如权利要求2所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述第种名词的各种情感类型的全文情感特征倾向,包括:
4.如权利要求3所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述第种名词的各种情感类型的情感转化混乱度包括:
5.如权利要求3所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述构建每个第种名词的各种情感类型的局部情感特征倾向包括:
6.如权利要求1所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述构建每个第种名词的位置变异指数包括:
7.如权利要求4所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述构建每个第种名词在各种情感类型上的情感逻辑特征异常变化值包括:
8.如权利要求3所述的一种版式文件的实时数据在线智能处理方法,其特征在
9.如权利要求8所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述每个第种名词在第种情感类型上的内部情感逻辑混乱系数表达式为:
10.如权利要求9所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述根据情感逻辑特征异常变化值以及内部情感逻辑混乱系数得到每个第种名词的各种情感类型混乱度,结合LOF异常检测算法对文本数据集合进行智能处理,包括:
...【技术特征摘要】
1.一种版式文件的实时数据在线智能处理方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述提取各情感词语的关联情感极性词语包括:
3.如权利要求2所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述第种名词的各种情感类型的全文情感特征倾向,包括:
4.如权利要求3所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述第种名词的各种情感类型的情感转化混乱度包括:
5.如权利要求3所述的一种版式文件的实时数据在线智能处理方法,其特征在于,所述构建每个第种名词的各种情感类型的局部情感特征倾向包括:
6.如权利要求1所述的一种版式文件的实时数据在线智能处理方法,其特征在...
【专利技术属性】
技术研发人员:杨瑞钦,陆猛,朱静宇,赵云,庄玉龙,张伟,
申请(专利权)人:北京点聚信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。