一种基于审计风险库的数据搜索方法及系统技术方案

技术编号:23672230 阅读:28 留言:0更新日期:2020-04-04 17:44
本发明专利技术公开了一种基于审计风险库的数据搜索方法及系统,通过提取检索式中关键词,据各个文本数据的近似度读取审计风险库中近似度最大的N个文本数据,将近似度最大的N个文本数据作为检索结果输出到用户;能够优化规范审计风险库的组织结构,提高审计数据搜索的效率,能够有效地提高第三方接口的读取速度,方便了用户的查找体验,并提升了检索的准确性。

A data search method and system based on audit risk database

【技术实现步骤摘要】
一种基于审计风险库的数据搜索方法及系统
本公开涉及大数据、审计数据处理
,具体涉及一种基于审计风险库的数据搜索方法及系统。
技术介绍
审计风险库是基于对公司审计与风险的深入考察和了解,建立的详细、准确和全面的公司审计与风险研究专业数据库。审计风险库涵盖了对上市公司的审计意见与收取的审计费用等信息,还包括与公司的经营风险和财务风险相关的信息等,所谓审计风险是指会计报表存在重大错误或漏报,而审计后发表不恰当审计意见的可能性。审计风险库中包括有审计数据,具体包括数据库数据和文本数据,其中的数据库数据是经过筛选处理的结构化数据。而实际上审计数据更多的是文本数据,如审计报告、审计意见、审计案例和法规制度等等都属于文本数据的范畴。两种数据的区别是,文本数据具有数量大、种类多等特点。现有的数据搜索技术对于海量的审计文本数据处理效果不能令人满意,审计风险库的文本数据中的审计经验、数据价值的获取往往是人工整理、提炼得到,或者通过开放平台由相关人员自主新增和修改相关规则。这样做容易造成审计风险库的组织结构混乱和不规范,拖慢检索分析的效率,对数本文档来自技高网...

【技术保护点】
1.一种基于审计风险库的数据搜索方法,其特征在于,所述方法包括以下步骤:/n步骤1,接收用户的检索式;/n步骤2,提取检索式中关键词;/n步骤3,计算关键词与审计风险库中的各个文本数据的近似度;/n步骤4,根据各个文本数据的近似度读取审计风险库中近似度最大的N个文本数据;/n步骤5,将近似度最大的N个文本数据作为检索结果输出到用户。/n

【技术特征摘要】
1.一种基于审计风险库的数据搜索方法,其特征在于,所述方法包括以下步骤:
步骤1,接收用户的检索式;
步骤2,提取检索式中关键词;
步骤3,计算关键词与审计风险库中的各个文本数据的近似度;
步骤4,根据各个文本数据的近似度读取审计风险库中近似度最大的N个文本数据;
步骤5,将近似度最大的N个文本数据作为检索结果输出到用户。


2.根据权利要求1所述的一种基于审计风险库的数据搜索方法,其特征在于,在步骤1中,所述检索式包括检索词、逻辑算符、通配符,检索式以句子为单位。


3.根据权利要求1所述的一种基于审计风险库的数据搜索方法,其特征在于,在步骤2中,提取关键词的方法为TF-IDF、TextRank、LSA/LSI/LDA中任意一种关键词提取方法。


4.根据权利要求1所述的一种基于审计风险库的数据搜索方法,其特征在于,在步骤3中,计算关键词与审计风险库中的各个文本数据的近似度的方法包括以下步骤:
步骤3.1,计算关键词的交叉熵值:令关键词为先验条件W,审计风险库的每个类别中的各个关键词W与类别Ci,类别为文本数据类别,关键词W的期望交叉熵为:



其中,p(Ci)表示属于类别Ci的审计风险库中的各个文本数据占所有消息数目的比重,p(W)表示包含关键词W的文本数据占所有文本数据数目的比重,p(Ci|W)表示在包含关键词W的消息中属于类别Ci的消息所占的比重,n为审计风险库中文本数据类别的总数量;
步骤3.2,计算卡方值:在检索式与审计风险库中由关键词和审计风险库中的文本数据出现关键词的频数构成卡方频数矩阵,令Or,c表示检索式在审计风险库中出现的卡方频数矩阵中第r行第c列的值,第r行的和记为nr,第c列的和记为nc,所有元素的和记为n,计算矩阵中的每一个元素的期望值Er,c,



其中,消息包括检索式与审计风险库中的文本数据;
步骤3.3,计算检索式与审计风险库中的各文本数据的近似度Si:

【专利技术属性】
技术研发人员:王桂钦彭澎陈威王伟刘伊雅
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1