一种基于模型的新词发现方法技术

技术编号：30435498 阅读：22 留言：0更新日期：2021-10-24 17:35

本发明专利技术公开了一种基于模型的新词发现方法，属于审计技术领域，包括以下步骤：S1、获取审计业务相关文档，S2、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据。本发明专利技术中，基于审计数据，利用新词发现技术，实现审计领域词的持续发现，结合梳理的现有行业词库，初步构建审计领域专业词库，后续将通过专业人员对词库进行审核，最终形成审计领域专业词库，为后续审计数据分析提供有效支撑，对文本进行初步的“新词”发现，再由人工发现的“新词”进行审核，提取出真正的审计领域专业词汇，能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量，提高审计专业词库构建效率。提高审计专业词库构建效率。提高审计专业词库构建效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模型的新词发现方法

[0001]本专利技术涉及审计
，具体为一种基于模型的新词发现方法。

技术介绍

[0002]近年来，随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展，逐渐改变着人们的生活和工作，给审计监督带了机遇和挑战，内部审计工作正面临着审计信息化的深刻变革。
[0003]在审计信息化过程中，需要对领域词进行抽取，如基于规则的抽取方法是根据词语的自身组成结构和外部上下文联系等建立相应的规则，并利用模式匹配来抽取领域词汇，这种抽取方式大多都是通过人工制定规则，很难用计算机自动发现规则，特别是如今网络流行语千奇百怪更难发现其规则性，所以十分困难，又如基于统计的属于抽取方法主要依赖于词频度、似然比、假设检验和互信息等，此种方法对单独的领域词汇和低频领域词汇的识别效果并不是很理想，因此亟需一种高质量的基于模型的新词发现方法。

技术实现思路

[0004]本专利技术提供的专利技术目的在于提供一种基于模型的新词发现方法，实现审计领域词的持续发现、能够在很大程度上减轻纯人工从文档内提取审计领域专业词汇的工作量。提高审计专业词库构建效率的效果。
[0005]为了实现上述效果，本专利技术提供如下技术方案：一种基于模型的新词发现方法，包括以下步骤：
[0006]S1、获取审计业务相关文档。
[0007]S2、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据。
[0008]S3、完成对审计业务相关数据的标...

【技术保护点】

【技术特征摘要】
1.一种基于模型的新词发现方法，其特征在于，包括以下步骤：S1、获取审计业务相关文档；S2、对审计业务相关文档进行格式转换，将转换后的审计业务相关文档数据作为后续标注工具的输入数据；S3、完成对审计业务相关数据的标注，为训练模型提供数据；S4、以标注数据作CRF算法的输入数据，完成模型训练；S5、基于测试数据，完成模型的验证评估；S6、构建模型运行容器及调用接口；S7、将带检测的文本数据传入模型，收集模型输出结果。2.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S1中的操作步骤，所述审计业务相关文档包括审计报告、底稿、记录、法律法规及规章制度。3.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S2中的操作步骤，将审计业务相关文档均转换成txt格式。4.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S3中的操作步骤，采用标注工具进行数据标注，所述标注工具为精灵标注。5.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S3中的操作步骤，采用BIO标注格式，完成对审计业务相关数据的标注。6.根据权利要求1所述的一种基于模型的新词发现方法，其特征在于，根据S4中的操作步骤，包括以下步骤：S401、观察语料，编写正则表达式；S402、执行正则表达式抽取，获得匹配的文本及其关键字段信息；S403、将...

【专利技术属性】
技术研发人员：卢伟龙，王小龙，王燕蓉，鲍琳子，
申请(专利权)人：国网信息通信产业集团有限公司国网信通亿力科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人