【技术实现步骤摘要】
一种金融文本主观句自动识别方法
本专利技术涉及金融技术、数据挖掘、信息检索等领域,尤其涉及一种金融文本主观句自动识别方法。
技术介绍
金融市场信息主要来源于非结构化的文本数据,如企业年报、公告、新闻、政策法规、市场研报等,其中蕴含了大量金融机构与分析师对市场行情的研究与预判,有效挖掘此类信息对金融业务开展与投资决策具有较大的指导意义。该问题主要通过数据挖掘领域的情感分析技术进行解决。现有的情感分析技术主要包括机器学习方法和语义方法。基于机器学习的情感分析方法需要大量标注的样本数据对分类模型进行训练,而训练数据集的建立需要人工对文本逐条阅读,与自动情感分析的目的相矛盾。因此,许多研究者将情感分析的研究重点集中在语义方法上,并已取得一定的成果。最早提出的语义情感分析方法将点互信息与信息检索方法相结合,借助搜索引擎的后台数据库获得语义倾向信息并做出情感判断,其可靠性已在英文顾客评论分析中得到了初步验证。日本NEC公司对产品声誉文本数据进行了语义抽象和分类研究,取得了初步成功。匹兹堡大学的智能系统研究了情感分析中的语义强度识别问题,对该领域做出了基础性的贡献。另外,一些研究者采用普林斯顿大学开发的英文词网开展英文语义情感分析研究,也取得了较好的结果。实现情感分析的前提是有效识别文本数据中表达主观情感、态度和观点的内容,对文本的主观性成分进行判断,情感倾向主要通过主观句进行表达。因此,主观语句自动识别技术是情感分析的基础性关键技术。现有的主观情感识别方法主要针对英文文本进行研究,例如选择某些词类(代词、形容词、情态动词、副词等)、标点和句子位置作为特征,实现对主观句 ...
【技术保护点】
1.一种金融文本主观句自动识别方法,其特征在于,包括以下步骤:(1)主观模式提取,具体包括以下子步骤:(1.1)依次读取金融文本语料库Corp的每个文本di;(1.2)读取停用词典,删除文本di中所有停用词;(1.3)读取金融词汇本体,对文本di进行分词,生成分词文件pi;(1.4)对分词文件pi标注词性,得到词性标注文件p'i;(1.5)初始化序列集合SENT,将p'i所有句子的词性标注序列存入SENT;(1.6)初始化双词性组合模式集合WP,抽取SENT中所有序列的连续双词性组合Ai,存入WP;(1.7)初始化双词主观模式集合SP,根据CHI检验计算WP中出现的全部双词性组合的χ
【技术特征摘要】
1.一种金融文本主观句自动识别方法,其特征在于,包括以下步骤:(1)主观模式提取,具体包括以下子步骤:(1.1)依次读取金融文本语料库Corp的每个文本di;(1.2)读取停用词典,删除文本di中所有停用词;(1.3)读取金融词汇本体,对文本di进行分词,生成分词文件pi;(1.4)对分词文件pi标注词性,得到词性标注文件p'i;(1.5)初始化序列集合SENT,将p'i所有句子的词性标注序列存入SENT;(1.6)初始化双词性组合模式集合WP,抽取SENT中所有序列的连续双词性组合Ai,存入WP;(1.7)初始化双词主观模式集合SP,根据CHI检验计算WP中出现的全部双词性组合的χ2统计值并进行排序,筛选大于阈值σ的双词性组合模式A'i,存入双词主观模式集合SP;(1.8)依次计算每个双词性组合模式A'i在金融文本语料库Corp中的查准率p0,作为其主观性权重;(1.9)计算主观模式集合SP中所有模式的主观性权重平均值Δ,作为语句主观度阈值;(2)文本主观度计算,具体包括以下...
【专利技术属性】
技术研发人员:蔡青林,
申请(专利权)人:国金涌富资产管理有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。