【技术实现步骤摘要】
一种非结构化文本数据量化方法、系统及存储介质
本专利技术属于数据处理
,尤其涉及一种非结构化文本数据量化方法、系统及存储介质。
技术介绍
金融新闻资讯数据已在量化投资和事件驱动策略领域有重要的应用,广义上说,市场上任何发生的有可能与投资标的物相关的新闻、事件、公告均有可能成为事件驱动的投资机会。目前市场经过验证有效的事件已经不少,涵盖了影响股票价格的多个方面。事件驱动策略由于其策略逻辑的独特性,因此与其他常规股票策略相关性很低,再加上事件众多,资金容量大这一特点,使得事件驱动策略成为国外对冲基金非常大类的投资策略。然而,如何从日常的新闻信息等非结构化的自然语言中抽事件并将其量化以便利用其指导投资并无很好的方法。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种非结构化文本数据量化方法、系统及存储介质,能够从非结构化的自然语言数据抽取事件并将其量化。本专利技术是通过以下技术方案实现的:第一方面,提供了一种非结构化文本数据量化方法,包括:将原始数据中的词语向量化; >将词语向量化后的数本文档来自技高网...
【技术保护点】
1.一种非结构化文本数据量化方法,其特征在于,包括:/n将原始数据中的词语向量化;/n将词语向量化后的数据中的句子矩阵化;/n将句子矩阵化后数据张量化;/n将张量化的新闻进行嵌入。/n
【技术特征摘要】
1.一种非结构化文本数据量化方法,其特征在于,包括:
将原始数据中的词语向量化;
将词语向量化后的数据中的句子矩阵化;
将句子矩阵化后数据张量化;
将张量化的新闻进行嵌入。
2.根据权利要求1所述的一种非结构化文本数据量化方法,其特征在于,所述将将原始数据中的词语向量化包括:
去除原始数据中的虚词,保留实词,并将剩余的实词向量化。
3.根据权利要求1所述的一种非结构化文本数据量化方法,其特征在于,所述将词语向量化后的数据中的句子矩阵化包括:
通过公式(1)将词语向量化后数据中的句子矩阵化;
S=(word1T,word2T,…wordmT)T(1)
其中,S表示矩阵化后的句子,wordm表示第m个词向的量。
4.根据权利要求1所述的一种非结构化文本数据量化方法,其特征在于,所述将句子矩阵化后数据张量化包括:
通过公式(2)将句子矩阵化后数据中的段落张量化;
TN=[S1,S2,…Sh](2)
其中TN表示张量化后新闻段落,Sh表示新闻段落中第h个句子的张量值。
5.根据权利要求4所述的一种非结构化文本数据量化方法,其特征在于,所述将张量化的新闻进行嵌入包括:
通过公式(3)对张量化后新闻段落TN中的句子进行奇异值分解
Si=UiΣiViT(3)
其中,Si为第i个句子的张量值,Ui和Vi都是单位正交矩阵,Σi为含有奇异值的对角矩阵;
设句子分解的奇异值为σi1,σi2,σi3,…σin,取其中前p个奇异值,若有句子矩阵分解后不...
【专利技术属性】
技术研发人员:陈志宝,朱德伟,朱峰,刘园,潘明慧,张超,
申请(专利权)人:华泰证券股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。