【技术实现步骤摘要】
一种基于语义基元的年报文本词向量表示方法及系统
[0001]本专利技术涉及年报文本数据处理
,具体涉及一种基于语义基元的年报文本词向量表示方法及系统
。
技术介绍
[0002]针对年报文本信息相对自由而丰富的内容,迫切需要引进和应用计算机文本分析程序来提取海量年报文本信息,解决财务报告文本数据处理过程中的财务报告术语表示问题;
[0003]在现有的方案中,有利用语义基元表示术语的方法,这种方法从词典的可解释角度解释财务报告术语,提供了有限语义基元的提取方法和结果作为参考,但是这种方法建立在词典的基础上,通过词汇之间的解释和被解释关系建立有向图,利用语义基元的不可解释性提取能够解释其他词汇的集合,对于不在词典中的新词汇无法表示,从释义基元的角度表示财务术语,作为一种低维度解释术语的方法,提供了半自动语义基元提取方法,这种方法受限于语料库的选择,另外该技术方案没有提供可量化表示词汇的方法,没有进一步对已经提取出的语义基元如何量化表示财务报告术语展开进一步讨论;
[0004]有的利用文本向量空间表示模 ...
【技术保护点】
【技术特征摘要】
1.
一种基于语义基元的年报文本词向量表示方法,其特征在于,包括下述步骤:获取会计领域词典文本及财务报告领域停用词文本,基于年报文本构建语料库,并对语料库进行切词;基于
LDA
训练模型进行文本主题训练,获取每种主题分类中权重值最大的词汇作为主题词;基于
Word2Vec
词向量模型进行词向量训练,得到每个词汇的向量表示;基于余弦相似度算法计算主题词之间的语义相似度;选择语义相似度最低的主题词作为语义基元;计算每个词汇与语义基元的语义相似度作为在对应语义基元维度的权重;计算完一个词汇与所有语义基元的相似度之后,做归一化处理,将每个语义基元的相似度除以词汇在所有语义基元相似度的和,使词汇分摊在各个语义基元上的权重求和为1;在计算每一个词汇分摊在语义基元上的权重之后,得到由各个语义基元表示的词汇的特征向量表示
。2.
根据权利要求1所述的基于语义基元的年报文本词向量表示方法,其特征在于,采用全模式对语料库进行切词
。3.
根据权利要求1所述的基于语义基元的年报文本词向量表示方法,其特征在于,基于
LDA
训练模型进行文本主题训练,具体包括:从主题分布中随机选择一个主题,根据该主题的单词分布随机选择一个单词,计算一个主题词内部词汇之间的关联度,计算不同数量主题的文本一致性数值,选择文本一致性最高的值作为主题数量,取所有主题的一致性指标的平均值,训练文本主题之后为文本打标签并打印每个主题下权重较高的设定数量的主题
。4.
根据权利要求1所述的基于语义基元的年报文本词向量表示方法,其特征在于,基于余弦相似度算法计算主题词之间的语义相似度,具体表示为:其中,
Them
i
,Them
j
表示两个主题词的相似度,
wv
ik
和
wv
jk
表示主题词经过词向量训练之后第
k
个维度上的权重
。5.
根据权利要求1所述的基于语义基元的年报文本词向量表示方法,其特征在于,将每个语义基元的相似度除以词汇在所有语义基元相似度的和,使词汇分摊在各个语义基元上的权重求和为1,计算词汇在语义基元上的最终权重为:其中,
P
nk
表示词汇
n
在语义基元
k
上的最终权重,
X
nk
表示词汇
n
与语义基元
k
的语义相似度
。6.
一种基于语义基元的年报文本词向量表示系统,其特征在于,包括:文本获取模块
、
语料库构建模块
、
切词模块
、
文本主题训练模块
、
词向量训练模块
、
主题词语义相似度计算模块
、
语义基元构建模块
、
语义基元维度权重计算模块
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。