System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 融合上下文感知和多层次特征的金融实体识别方法技术_技高网

融合上下文感知和多层次特征的金融实体识别方法技术

技术编号:40199814 阅读:7 留言:0更新日期:2024-01-27 00:04
本发明专利技术涉及融合上下文感知和多层次特征的金融实体识别方法,属于自然语言处理领域;它解决了现有实体识别模型忽略全局上下文信息和未融合多层次特征的问题。其技术方案是:采用字符级嵌入和基于金融语料的预训练词向量作为文本表示,对两种文本表示进行局部和全局特征提取并融合多层次特征,采用跳跃式空洞卷积网络提取全局上下文特征,通过双仿射分类器进行实体分类。本发明专利技术具有以下有益效果:从局部和全局两个层次去捕捉字符级和单词级特征,增强文本表征的准确性;在多层次特征融合时引入分组约束,提高模型的特征选择能力;跳跃式膨胀卷积网络有助于梯度的流动和信息的保留,使模型能够更深入、灵活地学习上下文信息。

【技术实现步骤摘要】

本专利技术涉及一种融合上下文感知和多层次特征的金融实体识别方法,属于自然语言处理领域。


技术介绍

1、命名实体识别作为信息抽取的一个子任务,在自然语言处理领域发挥着十分重要的作用。一系列下游自然语言处理任务例如实体链接、关系抽取、事件抽取等都是基于命名实体识别的。准确识别出非结构化文本中与特定语义实体类型相关的文本跨度及其正确实体类别如人、地点、组织等是命名实体识别任务的最终目标。目前的实体识别方法主要分为:基于规则的方法,如lasie-ii、netowl、facile、sar;基于统计机器学习的方法,如隐马尔可夫模型(hmm)、最大熵(me)、条件随机场(crf)、支持向量机(svm)等。随着深度学习技术的快速发展,基于深度学习的命名实体识别方法逐渐占据主导地位并持续取得了性能提升。

2、基于规则的实体识别方法仅仅依赖于手工制作的规则和特定领域的字典来识别命名实体。由于字典无法做到详尽无遗和不同领域的规则不同,导致识别结果具有较高的精确率和较低的召回率,并且该方法不能转移到其他领域。基于统计的方法将实体识别任务转换为序列标记任务。给定带注释的语料库,精心设计命名实体的特征来表示每个字符,通过在这些语料库上训练基于统计的机器学习模型,文本中的每个字符都被序列化,并由训练的模型自动标记。然后可以根据标签方案对自动标记的序列进行解码,并将文本中由几个字符组成的命名实体集成在一起。基于统计的机器学习模型通过对示例输入及其预期输出进行训练而不是人工创建的规则来学习和预测。基于深度学习的实体识别方法可分为三大类,分别是通过利用单词级嵌入、字符级嵌入或融合两种嵌入来学习隐含特征的神经网络模型。基于深度学习的实体识别模型能够通过非线性激活函数从数据中学习复杂的特征并且节省设计命名实体识别特征的大量精力。然而,这些方法在很大程度上忽略或过于简化了不同层次特征(如单词级和字符级特征)之间的相关性。除此之外,也很少有方法去融合多层次特征和关注全局与局部上下文之间的联系,导致丢失大量特征信息。


技术实现思路

1、本专利技术目的是:为了解决现有的金融命名实体识别模型只关注局部上下文信息而忽略全局上下文信息和未融合多层次特征的问题,同时使得整个模型具有更好的泛化性和可迁移性。

2、为实现上述目的,本专利技术设计出一种融合上下文感知和多层次特征的金融实体识别方法。该方法包括以下步骤:

3、s100、通过爬虫获取金融新闻文本数据构建用于训练深度学习模型的数据集;将用于训练深度学习模型的数据集进行预处理和标注;

4、s101、对数据集进行清洗和去停用词处理;将数据集随机按照8:1:1的比例划分为训练集、测试集和验证集;

5、s102、对数据进行标注,每行一共两列,分别由一个字符和一个标签组成,其中标签label为采用bioes标记法对词进行标记的符号,bioes标记法中,b表示这个词处于一个实体的起始位置(begin),i表示实体内部位置(inside),o表示实体之外的位置(outside),e表示这个词处于一个实体的结尾位置(end),s表示一个单独的字词本身就是一个实体(single);

6、s200、对于给定的输入单词序列,通过同时采用单词级嵌入和字符级嵌入表示句子中的每个跨度;单词序列中第t个单词的单词级嵌入表示为:,每个字符在第i个单词中的字符级嵌入表示为:;其中,表示第t个单词,表示预训练的词嵌入查找表,表示字符嵌入查找,是一个随机初始化的值;

7、s300、为实现多层次特征提取,对字符级嵌入和单词级嵌入分别进行局部和全局特征选择,采用深度可分离卷积网络和transformer的全局自注意力机制获得字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征;

8、s301、采用深度可分离卷积提取字符级嵌入和单词级嵌入的局部特征,再采用最大池化层突出重点特征,字符级局部特征和单词级局部特征表示为:

9、;

10、;

11、其中,和分别表示字符级局部特征和单词级局部特征,表示深度可分离卷积,表示最大池化运算;

12、s302、采用transformer中的全局自注意力机制提取字符级嵌入和单词级嵌入的全局特征,字符级全局特征和单词级全局特征表示为:

13、;

14、;

15、其中,和分别表示字符级嵌入和单词级嵌入,和分别表示字符级全局特征和单词级全局特征,表示transformer编码器中的全局自注意力机制;

16、s400、对获取到的多层次特征信息通过级联和微调策略进行融合;融合时引入对模型参数的分组约束,分为局部特征和全局特征两组,每组特征内部可共享相似权重,促使模型在学习过程中对一些参数进行稀疏化,提高模型特征选择性能;多层次特征融合结果表示为:

17、;

18、;

19、其中,,,,别表示s400中提及的字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征,控制每项特征的重要性,是随机初始化的值,和是强度系数,用于控制每个组的稀疏性;

20、s500、将s400中的融合后的多层次特征通过跳跃式膨胀卷积网络(g-idcnn)进行全局上下文感知特征提取,跳跃式膨胀卷积网络通过构建残差块和跳跃连接实现,跳跃式膨胀卷积网络模型图如图3所示;膨胀率分别设置为{1,2,5},卷积核大小设置为3;一个连续的序列表示为:,其中,l表示序列长度;则第i个跨度在跳跃式膨胀卷积网络中表示为:

21、;

22、其中,表示膨胀卷积,表示膨胀率,表示激活函数,表示跳跃连接;

23、s501、构造三个残差块,每个残差块均由跳跃连接、双层膨胀卷积和残差连接组成,三个残差块中的双层膨胀卷积率大小分别设置为{1,2},{2,5}和{4,5};

24、s502、每个残差块的输出被传递给下一个残差块作为输入,形成了一个串行的层次结构;

25、s600、采用两个前馈神经网络(ffnn)对s500中通过跳跃式膨胀卷积网络获得的上下文感知特征的起始和结束创建两个不同的表示,这样有助于模型分别学习区分跨度的起始和结束;跨度起始和结束的表示的计算公式表示为:

26、;

27、;

28、其中,和分别表示第个跨度的起始位置和结束位置的上下文感知特征,和分别表示用于构建起始表示向量和结束表示向量的前馈神经网络,和分别表示第个跨度的起始表示向量和结束表示向量;

29、s700、在si≤ei(si和ei分别表示第i个token的起始位置和结束位置)的约束条件下,采用双仿射分类器对所有可能构成命名实体的token进行分数计算,其中每一个跨度都有一个对应的命名实体类别,并且会创建评分张量,其中l表示句子长度,c表示标签类别的数量;第i个跨度的分数和每个跨度对应的命名实体类别表示为:

30、;

31、);

32本文档来自技高网...

【技术保护点】

1.一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于:其中,所述S100中对数据集的预处理和标注具体包含以下步骤:

3.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于:其中,所述S300中提取字符级局部特征、字符级全局特征、单词级局部特征和单词级全局特征具体包含以下步骤:

4.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于:其中,所述S500中通过跳跃式膨胀卷积网络提取全局上下文特征信息具体包含以下步骤:

【技术特征摘要】

1.一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种融合上下文感知和多层次特征的金融实体识别方法,其特征在于:其中,所述s100中对数据集的预处理和标注具体包含以下步骤:

3.根据权利要求1所述的一种融合上下文感知和多层次特征的...

【专利技术属性】
技术研发人员:杨先凤范玥李艳蒋欣岑
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1