【技术实现步骤摘要】
一种基于短语向量构造的年报风险挖掘系统和方法
[0001]本专利技术涉及自然语言处理和年报信息挖掘相关领域,尤其是涉及一种基于短语向量构造的年报风险挖掘系统和方法。
技术介绍
[0002]为了分析上市公司面临的风险,提出面对风险可采取的措施以降低风险的可能性和影响力,目前的许多分析方法需要对年报文本进行分析,可是传统分析方法的实施大部分需要在年报文本上进行大量人工操作,主观性强且不适合大批量的文本数据获取。
[0003]随着信息技术的不断发展,已有越来越多的研究采用相关技术对文本信息进行量化,从而将其引入到企业风险管理中来。关键词和短语提取是指通过算法自动从文本中抽取重要的、具有代表性的词或短语。目前在关键词提取任务中,词向量已经得到了应用并取得了良好的效果。选择短语粒度对年报风险文本进行分析能更好反应企业面临的风险,因此需要对短语构建向量表示。
[0004]在自然语言处理领域,结合深度学习的词向量模型已成熟,并得到了广泛的应用。选择Doc2Vector模型应用于短语向量的训练速度快且效果好,为年报风险挖掘提 ...
【技术保护点】
【技术特征摘要】
1.一种基于短语向量构造的年报风险挖掘系统,其特征在于,包括年报风险信息提取模块、风险因子挖掘模块、风险短语向量构造模块、自动化统计和可视化模块,其中:年报风险信息提取模块,系统根据输入的上市公司股票代码和年份范围可以确定风险挖掘目标,形成获取任务,自动下载年报并提取年报中风险部分文本;风险因子挖掘模块,从提取的风险部分文本中过滤出风险短语并构造风险短语知识库,根据TF
‑
IDF值从中挖掘出风险因子作为输出;风险短语向量构造模块,根据风险短语知识库训练短语向量模型,并推理出短语向量;自动化统计和可视化模块,根据短语向量统计风险因子在年报中显现信息和共线信息并对结果进行数据可视化。2.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统,其特征在于,所述年报风险信息提取模块包括上市公司年报获取单元和风险文本处理单元,其中:上市公司年报获取单元,根据输入上市公司股票代码和年份范围确定风险挖掘目标,形成获取任务,下载年报材料;风险文本处理单元,对年报材料进行风险文本提取。3.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统,其特征在于,所述风险因子挖掘模块包括短语知识库构建单元和风险因子过滤单元,其中:短语知识库构建单元,对风险文本进行短语粒度级别分解,组建风险相关的风险短语知识库;风险因子过滤单元,根据组成短语的词的词性和短语的TF
‑
IDF值自动过滤出风险短语知识库中核心短语,并规范化为风险因子。4.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统,其特征在于,所述风险短语向量构造模块包括知识库短语向量训练单元和风险短语、因子转化向量单元,其中:知识库短语向量训练单元,根据风险短语知识库训练短语向量模型;风险短语、因子转化向量单元,使用训练所得短语向量模型推理风险短语、风险因子的代表向量。5.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统,其特征在于,所述自动化统计和可视化模块包括全自动统计单元和数据可视化单元,其中:全自动统计单元,根据计算风险因子代表向量和风险短语代表向量间的余弦相似度全自动统计年报中风险因子的显现信息和共现信息;数据可视化单元,用于对统计的最终结果进行数据可视化分析。6.根据权利要求5所述的一种基于短语向量构造的年报风险挖掘系统,其特征在于,所述全自动统计单元统计的年报中风险因子的显现信息和共现信息包括在年报中风险因子出现的次数、风险因子出现的可能性、风险因子出现的影响力、不同风险因子之间的共现次数和共现互联强度。7.根据权利要求6所述的一种基于短语向量构造的年报风险挖掘系统,其特征在于,所述全自动统计单元统计中,对于任何风险因子i的风险因子出现的可能性likelihood
i
和风险因子出现的影响力impact
i
计算公式如下所示:
其中,N
i
代表风险因子i出现的年报数,likelihood
i,n
代表单份年报中风险因子的可能性,取值范围为1至10,impact
i,n
代表单份年报中风险因子的影响力,取值范围为1至10。8.根据权利要求6所述的一种基于短语向量构造的年报风险挖掘系统,其特征在于,所述全自动统计单元统计中,对于任何两个不同风险因子i和j的风险因子之间的共现互联强度inte...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。