股票实体词消歧方法、计算机设备及存储介质技术

技术编号：27619517 阅读：23 留言：0更新日期：2021-03-10 10:57

本发明专利技术提供一种股票实体词消歧方法、计算机设备及存储介质。获取包含歧义股票实体词的训练数据，从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量，构成训练数据集，利用该训练数据集对词判别模型进行训练。判断对待消歧金融财经资讯文本数据是否存在存在歧义词股票实体词，如存在歧义词股票实体词，将待消歧金融财经资讯文本数据及其所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型，判别其所含的歧义股票实体词是否是股票实体词。本发明专利技术相较于构建知识库的方式，减少了人力消耗，同时在没有使用外部知识库的情况下，依然能够对歧义实体有很强的表达能力。有很强的表达能力。有很强的表达能力。

全部详细技术资料下载

【技术实现步骤摘要】
股票实体词消歧方法、计算机设备及存储介质

[0001]本专利技术涉及人工智能
，具体地，涉及一种实体消歧方法,尤其是一种面向金融财经资讯的股票实体词消歧方法。

技术介绍

[0002]命名实体的歧义指的是一个实体表述可对应到多个真实世界实体。命名实体消歧是确定一个实体表述所指向的真实世界实体的过程。命名实体消歧属于自然语言处理领域的一项基础性研究，已经成为知识库构建、信息检索、机器翻译，以及话题发现与追踪等研究领域的重要支撑技术。
[0003]实体的歧义现象可以概括为多样性和歧义性两类，即多名现象和重名现象。多名现象指一个实体可能会有多种命名，如全名、缩写、别名等。解决多名问题的主要途径是建立同义词词典，使其尽可能多地收录同义词条，通过目标文本与同义词词典匹配的方式实现多名间的映射。多名问题解决效果主要与词典和模糊匹配算法有关。重名现象指多个实体拥有相同的命名，即一词多义现象。也就是在不同的上下文中实体所表达的含义可能不太一样。例如“连云港”既有可能指地名，也可能A股的一家上市公司江苏连云港港口股份有限公司(股票代码:601008)的股票简称“连云港”，而大部分金融财经资讯都会以股票简称来表示当前上市公司。这会导致在进行相关财经资讯的检索和统计的过程中,非上市公司连云港相关的信息也会被统计进来,造成统计结果产生偏差。
[0004]典型实体消歧的主流方法有基于概率生成模型的方法、基于主题模型的方法、基于图的方法、基于深度学习的方法、无监督方法等等。根据模型的差异，大致可...

【技术保护点】

【技术特征摘要】
1.股票实体词消歧方法，其特征在于，包括：从包含歧义个股实体的金融财经资讯文本数据获取训练语料，由行业专家对各训练语料中存在的实体词及实体词对应的实体类别进行标注，实体类别包括无歧义股票实体词的实体类别以及包含歧义股票实体词的实体类别，得到第一训练数据集；从第一训练数据集提取包含歧义股票实体词的训练数据，从包含歧义股票实体词的训练数据中提取出所含歧义股票实体词的语义特征向量，构成第二训练数据集；利用第一训练数据集对预先构建的实体词识别模型进行训练，得到训练好的实体词识别模型；利用第二训练数据集对预先构建的歧义词判别模型进行训练，得到训练好的歧义词判别模型；构建歧义股票实体词列表，歧义词列表中列举容易出现歧义情况的歧义股票实体词；将待消歧金融财经资讯文本数据作为输入数据输入到训练好的实体词识别模型，得到输入数据中存在的所有实体词，构成实体词列表，将该实体词列表与歧义股票实体词列表求交集，如果交集为空，则该输入数据不包含歧义股票实体词；如果交集不为空，提取输入数据中所含的歧义股票实体词的语义特征向量，将输入数据以及输入数据中所含的歧义股票实体词的语义特征向量输入到训练好的歧义词判别模型，通过歧义词判别模型判断所含的歧义股票实体词和输入数据之间在语义上的关联度，以此来判别输入数据中所含的歧义股票实体词是否是股票实体词。2.根据权利要求1所述...

【专利技术属性】
技术研发人员：李煜，丑晓慧，
申请(专利权)人：上海深擎信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人