一种基于模型的新词发现方法技术

技术编号:30435498 阅读:22 留言:0更新日期:2021-10-24 17:35
本发明专利技术公开了一种基于模型的新词发现方法,属于审计技术领域,包括以下步骤:S1、获取审计业务相关文档,S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。本发明专利技术中,基于审计数据,利用新词发现技术,实现审计领域词的持续发现,结合梳理的现有行业词库,初步构建审计领域专业词库,后续将通过专业人员对词库进行审核,最终形成审计领域专业词库,为后续审计数据分析提供有效支撑,对文本进行初步的“新词”发现,再由人工发现的“新词”进行审核,提取出真正的审计领域专业词汇,能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量,提高审计专业词库构建效率。提高审计专业词库构建效率。提高审计专业词库构建效率。

【技术实现步骤摘要】
一种基于模型的新词发现方法


[0001]本专利技术涉及审计
,具体为一种基于模型的新词发现方法。

技术介绍

[0002]近年来,随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展,逐渐改变着人们的生活和工作,给审计监督带了机遇和挑战,内部审计工作正面临着审计信息化的深刻变革。
[0003]在审计信息化过程中,需要对领域词进行抽取,如基于规则的抽取方法是根据词语的自身组成结构和外部上下文联系等建立相应的规则,并利用模式匹配来抽取领域词汇,这种抽取方式大多都是通过人工制定规则,很难用计算机自动发现规则,特别是如今网络流行语千奇百怪更难发现其规则性,所以十分困难,又如基于统计的属于抽取方法主要依赖于词频度、似然比、假设检验和互信息等,此种方法对单独的领域词汇和低频领域词汇的识别效果并不是很理想,因此亟需一种高质量的基于模型的新词发现方法。

技术实现思路

[0004]本专利技术提供的专利技术目的在于提供一种基于模型的新词发现方法,实现审计领域词的持续发现、能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量。提高审计专业词库构建效率的效果。
[0005]为了实现上述效果,本专利技术提供如下技术方案:一种基于模型的新词发现方法,包括以下步骤:
[0006]S1、获取审计业务相关文档。
[0007]S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据。
[0008]S3、完成对审计业务相关数据的标注,为训练模型提供数据。
[0009]S4、以标注数据作CRF算法的输入数据,完成模型训练。
[0010]S5、基于测试数据,完成模型的验证评估。
[0011]S6、构建模型运行容器及调用接口。
[0012]S7、将带检测的文本数据传入模型,收集模型输出结果。
[0013]进一步的,根据S1中的操作步骤,所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
[0014]进一步的,根据S2中的操作步骤,将审计业务相关文档均转换成txt格式。
[0015]进一步的,根据S3中的操作步骤,采用标注工具进行数据标注,所述标注工具为精灵标注。
[0016]进一步的,根据S3中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
[0017]进一步的,根据S4中的操作步骤,包括以下步骤:
[0018]S401、观察语料,编写正则表达式。
[0019]S402、执行正则表达式抽取,获得匹配的文本及其关键字段信息。
[0020]S403、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
[0021]进一步的,根据S401中的操作步骤,所述正则表达式为待抽取目标。
[0022]进一步的,根据S5中的操作步骤,包括以下步骤:
[0023]S501、准备分类语料库。
[0024]S502、将语料库分解为训练集和测试集,训练集和测试集的占比为8:2。
[0025]S503、将集合中的各文档都转换为数学向量。
[0026]S504、利用测试集对所构建出来的模型进行评估。
[0027]进一步的,根据S504中的操作步骤,效果评估包括两个指标,分别是正确率和召回率,召回率和正确率分别采用以下公式计算:
[0028]召回率r=a/(a+c)*100%
[0029]正确率p=a/(a+b)*100%,
[0030]其中a表示分类器将输入的即测试集正确分类到某个类别的个数,b表示分类器将输入测试集错误分类到某个类别的个数,c表示分类器将输入测试集错误地排除在某个类别之外的个数,d表示分类器将输入测试集正确地排除在某个类别之外的个数。
[0031]进一步的,根据S6中的操作步骤,应用各种成熟的分类算法基于训练集构建分类模型、基于测试集评估分类模型,不断迭代不同的算法并基于评价指标发现最优的分类器。
[0032]本专利技术提供了一种基于模型的新词发现方法,具备以下有益效果:
[0033](1)本专利技术中,基于审计数据,利用新词发现技术,实现审计领域词的持续发现,结合梳理的现有行业词库,初步构建审计领域专业词库,后续将通过专业人员对词库进行审核,最终形成审计领域专业词库,为后续审计数据分析提供有效支撑。
[0034](2)本专利技术中,对文本进行初步的“新词”发现,再由人工发现的“新词”进行审核,提取出真正的审计领域专业词汇,能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量,提高审计专业词库构建效率。
附图说明
[0035]图1为一种基于模型的新词发现方法的流程图。
具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0037]本专利技术提供一种技术方案:请参阅图1,一种基于模型的新词发现方法,包括以下步骤:
[0038](1)、获取审计业务相关文档。
[0039](2)、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为
后续标注工具的输入数据。
[0040](3)、完成对审计业务相关数据的标注,为训练模型提供数据。
[0041](4)、以标注数据作CRF算法的输入数据,完成模型训练。
[0042](5)、基于测试数据,完成模型的验证评估。
[0043](6)、构建模型运行容器及调用接口。
[0044](7)、将带检测的文本数据传入模型,收集模型输出结果。
[0045]进一步的,根据(1)中的操作步骤,审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。
[0046]进一步的,根据(2)中的操作步骤,将审计业务相关文档均转换成txt格式。
[0047]进一步的,根据(3)中的操作步骤,采用标注工具进行数据标注,标注工具为精灵标注。
[0048]进一步的,根据(3)中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。
[0049]进一步的,根据(4)中的操作步骤,包括以下步骤:
[0050](401)、观察语料,编写正则表达式。
[0051](402)、执行正则表达式抽取,获得匹配的文本及其关键字段信息。
[0052](403)、将抽取的到的关键字段信息,提取前后30个字,一并导入CRF算法,训练抽取模型。
[0053]进一步的,根据(401)中的操作步骤,正则表达式为待抽取目标。
[0054]进一步的,根据(5)中的操作步骤,包括以下步骤:
[0055](501)、准备分类语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模型的新词发现方法,其特征在于,包括以下步骤:S1、获取审计业务相关文档;S2、对审计业务相关文档进行格式转换,将转换后的审计业务相关文档数据作为后续标注工具的输入数据;S3、完成对审计业务相关数据的标注,为训练模型提供数据;S4、以标注数据作CRF算法的输入数据,完成模型训练;S5、基于测试数据,完成模型的验证评估;S6、构建模型运行容器及调用接口;S7、将带检测的文本数据传入模型,收集模型输出结果。2.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S1中的操作步骤,所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。3.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S2中的操作步骤,将审计业务相关文档均转换成txt格式。4.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S3中的操作步骤,采用标注工具进行数据标注,所述标注工具为精灵标注。5.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S3中的操作步骤,采用BIO标注格式,完成对审计业务相关数据的标注。6.根据权利要求1所述的一种基于模型的新词发现方法,其特征在于,根据S4中的操作步骤,包括以下步骤:S401、观察语料,编写正则表达式;S402、执行正则表达式抽取,获得匹配的文本及其关键字段信息;S403、将...

【专利技术属性】
技术研发人员:卢伟龙王小龙王燕蓉鲍琳子
申请(专利权)人:国网信息通信产业集团有限公司国网信通亿力科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1