股票实体词消歧方法、计算机设备及存储介质技术

技术编号:27619517 阅读:23 留言:0更新日期:2021-03-10 10:57
本发明专利技术提供一种股票实体词消歧方法、计算机设备及存储介质。获取包含歧义股票实体词的训练数据,从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量,构成训练数据集,利用该训练数据集对词判别模型进行训练。判断对待消歧金融财经资讯文本数据是否存在存在歧义词股票实体词,如存在歧义词股票实体词,将待消歧金融财经资讯文本数据及其所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型,判别其所含的歧义股票实体词是否是股票实体词。本发明专利技术相较于构建知识库的方式,减少了人力消耗,同时在没有使用外部知识库的情况下,依然能够对歧义实体有很强的表达能力。有很强的表达能力。有很强的表达能力。

【技术实现步骤摘要】
股票实体词消歧方法、计算机设备及存储介质


[0001]本专利技术涉及人工智能
,具体地,涉及一种实体消歧方法,尤其是一 种面向金融财经资讯的股票实体词消歧方法。

技术介绍

[0002]命名实体的歧义指的是一个实体表述可对应到多个真实世界实体。命名实 体消歧是确定一个实体表述所指向的真实世界实体的过程。命名实体消歧属于 自然语言处理领域的一项基础性研究,已经成为知识库构建、信息检索、机器 翻译,以及话题发现与追踪等研究领域的重要支撑技术。
[0003]实体的歧义现象可以概括为多样性和歧义性两类,即多名现象和重名现象。 多名现象指一个实体可能会有多种命名,如全名、缩写、别名等。解决多名问 题的主要途径是建立同义词词典,使其尽可能多地收录同义词条,通过目标文 本与同义词词典匹配的方式实现多名间的映射。多名问题解决效果主要与词典 和模糊匹配算法有关。重名现象指多个实体拥有相同的命名,即一词多义现象。 也就是在不同的上下文中实体所表达的含义可能不太一样。例如“连云港”既有可 能指地名,也可能A股的一家上市公司江苏连云港港口股份有限公司(股票代 码:601008)的股票简称“连云港”,而大部分金融财经资讯都会以股票简称来表示 当前上市公司。这会导致在进行相关财经资讯的检索和统计的过程中,非上市公 司连云港相关的信息也会被统计进来,造成统计结果产生偏差。
[0004]典型实体消歧的主流方法有基于概率生成模型的方法、基于主题模型的方 法、基于图的方法、基于深度学习的方法、无监督方法等等。根据模型的差异, 大致可以划分为基于统计学习的实体消歧方法和基于深度学习的实体消歧的方 法。基于统计学习的方法侧重于计算实体之间的相似度,但需要借助有标注的 实体链接语料库来进行。为了解决标注的语料库缺乏的问题,半监督、弱监督 的方法也相继涌现。基于深度学习的方法的核心是构建多类型,多模态的上下 文和知识的统一表示,需要借助性能较好的消歧模型来进行。
[0005]公开日为2017年8月29日,公开号为CN107102989A的中国专利,公开了一 种基于词向量、卷积神经网络的实体消歧方法。该方法使用知识库中的语料来 生成歧义实体语义向量,知识库的数据量对语义向量的表示效果影响很大,而 且知识库的准备需要消耗大量的人工成本。

技术实现思路

[0006]针对现有技术存在的缺陷,本专利技术提供一种股票实体词消歧方法、计算机 设备及存储介质。
[0007]股票实体词消歧方法,包括:
[0008]从包含歧义个股实体的金融财经资讯文本数据获取训练语料,由行业专家 对各训练语料中存在的实体词及实体词对应的实体类别进行标注,实体类别包 括无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别,得到第 一训练数据集;
[0009]从第一训练数据集提取包含歧义股票实体词的训练数据,从包含歧义股票 实体词的训练数据中提取出所含歧义股票实体词的语义特征向量,构成第二训 练数据集;
[0010]利用第一训练数据集对预先构建的实体词识别模型进行训练,得到训练好 的实体词识别模型;
[0011]利用第二训练数据集对预先构建的歧义词判别模型进行训练,得到训练好 的歧义词判别模型;
[0012]构建歧义股票实体词列表,歧义词列表中列举容易出现歧义情况的歧义股 票实体词;
[0013]将待消歧金融财经资讯文本数据作为输入数据输入到训练好的实体词识别 模型,得到输入数据中存在的所有实体词,构成实体词列表,将该实体词列表 与歧义股票实体词列表求交集,如果交集为空,则该输入数据不包含歧义股票 实体词;如果交集不为空,提取输入数据中所含的歧义股票实体词的语义特征 向量,将输入数据以及输入数据中所含的歧义股票实体词的语义特征向量输入 到训练好的歧义词判别模型,通过歧义词判别模型判断所含的歧义股票实体词 和输入数据之间在语义上的关联度,以此来判别输入数据中所含的歧义股票实 体词是否是股票实体词。
[0014]作为本专利技术的优选方案,所述实体词识别模型采用BiLSTM和CRF融合的 网络模型。或者,所述实体词识别模型采用BERT和Dense融合的网络模型。 或者所述实体词识别模型采用BERT、BiLSTM以及CRF融合的网络模型。
[0015]作为本专利技术的优选技术方案,本专利技术采用Word2Vec词向量表示方法、Glove 词向量表示方法或者BERT词向量表示方法生成歧义股票实体词的语义特征向 量。
[0016]作为本专利技术的优选技术方案,所述歧义词判别模型采用BERT和Dense融 合的网络模型。或者,所述歧义词判别模型采用BERT和BiLSTM融合的网络 模型。或者,所述歧义词判别模型采用BERT和CNN融合的网络模型。
[0017]本专利技术提供一种股票实体词消歧装置,该装置包括:
[0018]数据预处理模块:用于从包含歧义个股实体的金融财经资讯文本数据获取 训练语料,由行业专家对各训练语料中存在的实体词及实体词对应的实体类别 进行标注,实体类别包括无歧义股票实体词的实体类别以及包含歧义股票实体 词的实体类别,得到第一训练数据集;从第一训练数据集提取包含歧义股票实 体词的训练数据,从包含歧义股票实体词的训练数据中提取出所含歧义股票实 体词的语义特征向量,构成第二训练数据集;
[0019]实体词识别模型训练模块,该模块利用第一训练数据集对预先构建的实体 词识别模型进行训练,得到训练好的实体词识别模型;
[0020]歧义词判别模型训练模块,该模块利用第二训练数据集对预先构建的歧义 词判别模型进行训练,得到训练好的歧义词判别模型;
[0021]歧义股票实体词列表模块,用于构建歧义股票实体词列表,歧义词列表中 列举容易出现歧义情况的歧义股票实体词;
[0022]股票实体词消歧模块,用于将待消歧金融财经资讯文本数据作为输入数据 输入到训练好的实体词识别模型,得到输入数据中存在的所有实体词,构成实 体词列表,将该实体词列表与歧义股票实体词列表求交集,如果交集为空,则 该输入数据不包含歧义股票实体词;如果交集不为空,提取输入数据中所含的 歧义股票实体词的语义特征向量,将输
入数据以及输入数据中所含的歧义股票 实体词的语义特征向量输入到训练好的歧义词判别模型,通过歧义词判别模型 判断所含的歧义股票实体词和输入数据之间在语义上的关联度,以此来判别输 入数据中所含的歧义股票实体词是否是股票实体词。
[0023]本专利技术提供一种计算机设备,包括存储器和处理器,所述存储器存储有计 算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0024]从包含歧义个股实体的金融财经资讯文本数据获取训练语料,由行业专家 对各训练语料中存在的实体词及实体词对应的实体类别进行标注,实体类别包 括无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别,得到第 一训练数据集;
[0025]从第一训练数据集提取包含歧义股票实体词的训练数据,从包含歧义股票 实体词的训练数据中提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.股票实体词消歧方法,其特征在于,包括:从包含歧义个股实体的金融财经资讯文本数据获取训练语料,由行业专家对各训练语料中存在的实体词及实体词对应的实体类别进行标注,实体类别包括无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别,得到第一训练数据集;从第一训练数据集提取包含歧义股票实体词的训练数据,从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量,构成第二训练数据集;利用第一训练数据集对预先构建的实体词识别模型进行训练,得到训练好的实体词识别模型;利用第二训练数据集对预先构建的歧义词判别模型进行训练,得到训练好的歧义词判别模型;构建歧义股票实体词列表,歧义词列表中列举容易出现歧义情况的歧义股票实体词;将待消歧金融财经资讯文本数据作为输入数据输入到训练好的实体词识别模型,得到输入数据中存在的所有实体词,构成实体词列表,将该实体词列表与歧义股票实体词列表求交集,如果交集为空,则该输入数据不包含歧义股票实体词;如果交集不为空,提取输入数据中所含的歧义股票实体词的语义特征向量,将输入数据以及输入数据中所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型,通过歧义词判别模型判断所含的歧义股票实体词和输入数据之间在语义上的关联度,以此来判别输入数据中所含的歧义股票实体词是否是股票实体词。2.根据权利要求1所述...

【专利技术属性】
技术研发人员:李煜丑晓慧
申请(专利权)人:上海深擎信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1