一种文本关联性分析方法技术

技术编号：37509548 阅读：53 留言：0更新日期：2023-05-07 09:49

本发明专利技术提供一种文本关联性分析方法，包括：在判断接收到关联性分析数据后，初始化关联性分析插件，根据关联性分析数据对所述关联性分析插件进行配置，得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数；提取第一目标分析语句中的第一待分析词语，第一待分析词语包括第一数量词；提取第二目标分析语句中的第二待分析词语，第二待分析词语包括第二数量词；关联性分析插件根据所述关联分析函数、第一数量词生成至少一个标准关联区间，若所述第二数量词位于所述标准关联区间内，则输出正常关联提醒信息；若第二数量词不位于所述标准关联区间内，则根据所述关联分析函数的属性确定异常类型，输出异常关联提醒信息及异常类型。息及异常类型。息及异常类型。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本关联性分析方法

[0001]本专利技术涉及数据处理
，尤其涉及一种文本关联性分析方法。

技术介绍

[0002]在每个主体的生产、生活过程中，都会产生各种各样的文本，文本内会具有不同种类、不同维度的信息。现有技术中，可以根据文本内词语的词性对文本进行关联性的分析，但是并无法根据文本内相对应维度的数量词进行分析。
[0003]例如花名册、年度纳税申报表、合同书等等，都会具有多个数量词，例如100万元、100人等等。根据不同文本内的数量词可以实现对相应文本内、相应维度的信息进行分析，判断数量词之间的关联性是否符合事实、规定。现有技术中，并无法自动化、智能化的对文本内相关联的数量词进行分析，导致分析效率较低。

技术实现思路

[0004]本专利技术实施例提供的一种文本关联性分析方法，能够根据基于关联性分析插件对目标分析文本中具有关联性的词语、数量值进行分析，进而判断目标分析文本是否为准确、满足要求，实现智能化、自动化的文本关联性分析，降低人工劳动力，提高分析效率。
[0005]本专利技术实...

【技术保护点】

【技术特征摘要】
1.一种文本关联性分析方法，其特征在于，包括：在判断接收到关联性分析数据后，初始化关联性分析插件，根据关联性分析数据对所述关联性分析插件进行配置，得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数；关联性分析插件根据所述第一关联词语在目标分析文本中确定相对应的第一目标分析语句，提取所述第一目标分析语句中的第一待分析词语，所述第一待分析词语包括第一数量词，所述第一目标分析语句中具有与第一关联词语相同或相对应的待分析词语；关联性分析插件根据所述第二关联词语在目标分析文本中确定相对应的第二目标分析语句，提取所述第二目标分析语句中的第二待分析词语，所述第二待分析词语包括第二数量词，所述第二目标分析语句中具有与第二关联词语相同或相对应的待分析词语；若所述关联分析函数的函数类型为第一函数，则根据所述第一数量词确定所述第一函数的有限的标准关联区间，所述第一函数中具有标准关联区间的最大值和/或最小值；若所述关联分析函数的函数类型为第二函数，则根据所述第一数量词确定所述第二函数的比例关系的标准关联区间，所述第二函数中具有与标准关联区间对应的比例值和/或常数值；若所述第二数量词位于相对应有限的标准关联区间、比例关系的标准关联区间，则输出正常关联提醒信息；若所述第二数量词不位于所述标准关联区间内，则根据所述关联分析函数的属性确定异常类型，输出异常关联提醒信息及异常类型。2.根据权利要求1所述的一种文本关联性分析方法，其特征在于，所述在判断接收到关联性分析数据后，初始化关联性分析插件，根据关联性分析数据对所述关联性分析插件进行配置，得到关联性分析插件的第一关联词语、第二关联词语以及关联分析函数，包括：确定所述关联性分析数据中目标分析文本的分析维度，根据目标分析文本的分析维度生成与关联性分析插件对应的关联分析表；根据分析维度在关联分析表中生成相应的维度行，每个维度行对应一个分析维度，在所述维度行中创建第一词语格、第二词语格以及分析函数格；将每个分析维度所对应的预设变量词语作为第一关联词语，将所述第一关联词语填充至所述第一词语格内；将每个分析维度所对应的预设验证词语作为第二关联词语，将所述第二关联词语填充至所述第二词语格内；调取与所述分析维度所对应的关联分析函数，将所述关联分析函数填充至所述分析函数格内。3.根据权利要求2所述的一种文本关联性分析方法，其特征在于，所述关联性分析插件根据所述第一关联词语在目标分析文本中确定相对应的第一目标分析语句，提取所述第一目标分析语句中的第一待分析词语，所述第一待分析词语包括第一数量词，包括：对所述目标分析文本进行分词处理得到多个待分析词语，统计两个相邻的标点符号间的所有待分析词语得到目标分析语句；
在多个目标分析语句中确定与第一关联词语对应的第一目标分析语句；确定所述第一目标分析语句中的所有数量词，若所述数量词为1个，则将相应的数量词作为第一待分析词语；若所述数量词为多个，则在所述多个数量词中确定一个数量词作为第一待分析词语。4.根据权利要求3所述的一种文本关联性分析方法，其特征在于，所述若所述数量词为多个，则在所述多个数量词中确定一个数量词作为第一待分析词语，包括：获取每个数量词的前一个待分析词语和后一个待分析词语；若存在任意一个数量词的前一个待分析词语或后一个待分析词语与第一关联词语相同或相对应，则将相应的数量词作为第一待分析词语；若所述前一个待分析词语或后一个待分析词语句中的任意一个与预设删除词语相对应，则将相应数量词删除；在将相应数量词删除后，若数量词为1个，则将剩余的1个数量词作为第一待分析词语。5.根据权利要求4所述的一种文本关联性分析方法，其特征在于，还包括：在将相应数量词删除后，若数量词为多个，则获取与所述第一关联词语相对应的增强认证词语；若判断数量词的前一个待分析词语或后一个待分析词语与增强认证词语相同或相对应，且相应的数量词为1个，则将相应的数量词作为第一待分析词语；若数量词为多个或无法确定相应的数量词，则对所述第一目标分析语句输出显示；接收工作人员的选中信息在所述第一目标分析语句中确定相应的第一待分析词语，基于所述第一待分析词语的前一个待分析词语和/或后一...

【专利技术属性】
技术研发人员：李响，熊子奇，孙丽娟，肖书芹，曹扬，谢红韬，丁洪鑫，谢真强，
申请(专利权)人：中电科大数据研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人