System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据分析,具体属于基于nlp的事件文本特征关联分析方法、系统及介质。
技术介绍
1、在各类实际的生产生活中,事件的描述信息通常以长文本的方式记录下来,这些文本保存了丰富的有关事件的重要信息。然而,由于文本的复杂性和多样性,计算机很难对这些信息进行快速且有效的批量处理。这种情况对于自动化处理、数据分析和业务决策等任务来说构成了挑战。
2、经过检索,和本专利技术最接近的现有技术为cn113722489a,一种基于nlp算法的关系分析方法,包括以下步骤:s1、建立标准库;s2、建立人员库、事件库,分配唯一标识;s3、通过nlp算法从半结构化数据中提取对应的要素;
3、s4、通过nlp算法从半结构化数据的上下文中提取要素关联关系;s5、对标准要素进行清洗转换,将清洗转换后的标准要素与标准库进行匹配;s6、对关联标准要素的人员情况及多人共事件情况进行聚类,对相似的人员要素进行合并;
4、s7、基于已分配唯一标识的人员库,对要素关联关系中的人员实体更新为唯一标识。
5、1、该专利主要识别单个事件中各个要素之间的关系,实现事件的结构化;本专利技术在实现事件结构化后,使用改进的apriori算法,分析海量事件中要素间的关联关系(即分析经常出现在同一个事件中的要素),同时对异常出现的要素进行智能预警,并展示异常要素的关联要素和关联事件。
6、2、该专利对要素以及人员标识的标准化依赖于已经构建好的标准库、人员库、事件库、关系库等,而标准化的库的构建需要大量的人工工作;本专利技
技术实现思路
1、本专利技术旨在解决以上现有技术的问题。提出了一种基于nlp的文本特征关联分析方法。
2、本专利技术的技术方案如下:
3、一种基于nlp的文本特征关联分析方法,其包括以下步骤:
4、输入事件描述文本;对事件描述文本数据进行包括数据清洗在内的预处理;
5、采用基于nlp自然语言处理的事件特征提取方法,将事件特征处理为能够批量进行挖掘分析的结构化数据;
6、采用apriori算法对事件进行分析,挖掘各事件特征间的关联关系;采用多进程的方法,对apriori算法中统计各事件特征出现次数的计算过程进行优化;
7、对发生的事件的特征及特征的关联关系进行监控,建立预警模型,从而实现事件特征异常变化的智能预警。
8、进一步的,所述对事件描述文本数据进行包括数据清洗在内的预处理,具体包括:
9、对符号进行标准化;将所有符号统一替换为全角符号,即替换为中文符号;
10、将特殊符号进行统一替换;文本中仅保留中文逗号、句号、冒号和顿号,将书名号和引号统一替换为直引号,其他符号统一替换为句号;
11、将所有英文字母替换为小写字母。
12、进一步的,所述基于nlp的事件特征提取方法,具体步骤如下:
13、将经过预处理的文本数据逐一导入到预训练好的机器学习模型中进行实体抽取,抽取事件的时间、人物、地点、事件、重要对象共5类事件特征,形成事件特征信息表:
14、基于聚类的思想,计算文本相似度作为词语之间距离的度量方式,设定可调整的阈值,实现相同实体不同名称的合并和标准化。
15、进一步的,所述基于聚类的思想,计算文本相似度作为词语之间距离的度量方式,设定可调整的阈值,实现相同实体不同名称的合并和标准化,具体包括:
16、假设共有n个待合并的实体名称namei,i∈[1,n],遍历每个实体名称namei,计算其与每个聚类中心cj之间的相似度sij:
17、
18、其中,count(namei,cj)表示namei所有字符与cj聚类中所有成员的字符中的相同字符数,count(cj)表示cj聚类中所有成员的字符数;
19、最终的输出的聚类结果为m个聚类,每个聚类包含多个实体名称,每个聚类代表一个实体;将事件的实体名称全部替换为所属聚类的编号,则得到该事件的特征。
20、进一步的,所述采用apriori算法对事件进行分析,挖掘各事件特征间的关联关系,具体包括:
21、①读取案件特征数据集,设置最小支持度α、最小提升度β、最小置信度γ;
22、②生成候选k项集,k项集指{事件特征1,事件特征2,…,事件特征k}这样的集合,有n个特征的事件有个k项集;
23、③为候选项集剪枝,生成频繁项集:
24、④计算每个k项集的支持度p1
25、1.p1=p(x),p(x)是项集x出现的概率;
26、⑤去掉p1<α或的k项集,得到保留下来的均为频繁项集;
27、⑥遍历频繁项集间的关联关系,生成关联规则:
28、⑦计算每个关联关系的置信度p2
29、1.其中x,y是频繁项集;
30、⑧去掉p1<α或p2<β的的k项集;
31、⑨重复步骤②-④,直到遍历所有的k;
32、⑩计算每个关联规则的提升度p3,将所有关联规则按照提升度由高到低排列,
33、提升度计算如下:
34、i.p3(x→y)。
35、进一步的,所述建立预警模型,从而实现事件特征异常变化的智能预警,模型预警步骤如下:
36、时间维度上的事件特征统计;统计每日/周/月内各事件的特征出现的次数;
37、潜藏的事件特征统计;基于得到的事件特征关联关系,增加潜藏的事件特征次数=频繁特征项集出现次数*(提升度-1);
38、基于历史数据,计算各个特征出现次数即统计次数和潜藏次数和的均值和方差,基于3-σ准则,
39、当μ+σ≤事件特征次数<μ+2σ时作为一级预警,
40、当μ+2σ≤事件特征次数<μ+3σ时作为二级预警,
41、当μ+3σ≤事件特征次数时作为三级预警,
42、预警的同时,将预警的特征及预警特征组成的频繁项集以及关联关系同步展示。
43、一种基于nlp的文本特征关联分析系统,其包括:
44、预处理模块:用于输入事件描述文本;对事件描述文本数据进行包括数据清洗在内的预处理;
45、特征提取模块:用于采用基于nlp的事件特征提取方法,将事件特征处理为能够批量进行挖掘分析的结构化数据;
46、关联模块:用于采用apriori算法对事件进行分析,挖掘各事件特征间的关联关系;采用多进程的方法,对apriori算法中统计各事件特征出现次数的计算过程进行优化;
47、预警模块:用于对发生的事件的特征及特征的关联关系进行监控,建立预警模型,从而实现事件特征异常变化的智能预警。本文档来自技高网...
【技术保护点】
1.一种基于NLP的文本特征关联分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于NLP的文本特征关联分析方法,其特征在于,所述对事件描述文本数据进行包括数据清洗在内的预处理,具体包括:
3.根据权利要求1所述的一种基于NLP的文本特征关联分析方法,其特征在于,所述基于NLP的事件特征提取方法,具体步骤如下:
4.根据权利要求3所述的一种基于NLP的文本特征关联分析方法,其特征在于,所述基于聚类的思想,计算文本相似度作为词语之间距离的度量方式,设定可调整的阈值,实现相同实体不同名称的合并和标准化,具体包括:
5.根据权利要求4所述的一种基于NLP的文本特征关联分析方法,其特征在于,所述采用apriori算法对事件进行分析,挖掘各事件特征间的关联关系,具体包括:
6.根据权利要求5所述的一种基于NLP的文本特征关联分析方法,其特征在于,所述建立预警模型,从而实现事件特征异常变化的智能预警,模型预警步骤如下:
7.一种基于NLP的文本特征关联分析系统,其特征在于,包括:
8.一种电
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于NLP的文本特征关联分析方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于NLP的文本特征关联分析方法。
...【技术特征摘要】
1.一种基于nlp的文本特征关联分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于nlp的文本特征关联分析方法,其特征在于,所述对事件描述文本数据进行包括数据清洗在内的预处理,具体包括:
3.根据权利要求1所述的一种基于nlp的文本特征关联分析方法,其特征在于,所述基于nlp的事件特征提取方法,具体步骤如下:
4.根据权利要求3所述的一种基于nlp的文本特征关联分析方法,其特征在于,所述基于聚类的思想,计算文本相似度作为词语之间距离的度量方式,设定可调整的阈值,实现相同实体不同名称的合并和标准化,具体包括:
5.根据权利要求4所述的一种基于nlp的文本特征关联分析方法,其特征在于,所述采用apriori算法对事件进行分析,挖掘各事件特征间的关联关系,具体包括:
6.根据权利...
【专利技术属性】
技术研发人员:陈益,廖飞,杨若浩,杨康,徐璐璐,林嘉晨,
申请(专利权)人:重庆市信息通信咨询设计院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。