当前位置: 首页 > 专利查询>朱利专利>正文

一种使用重叠拆分规则的文本序列标注算法制造技术

技术编号：23605264 阅读：48 留言：0更新日期：2020-03-28 06:12

本发明专利技术提供了一种使用重叠拆分规则的文本序列标注算法，经验上，完成一个基于深度学习的序列标注任务模型，在训练阶段，其最大序列长度固定为有限值；而在预测阶段，自然文本序列长度常常超过模型最大序列长度，此时会造成模型的F1值降低。采用重叠拆分规则方式，对于待预测文本长度超过模型最大序列长度时，将超长文本拆分为若干不大于最大序列长度的子序列，各个子序列之间设置重叠区域，即重叠拆分处理。重叠拆分方式规则能够适用于不同类型的特征抽取器模型，可以在一定程度上提升模型预测效果，同时对于RNN特征抽取器，可以大幅度提升处理效率，在我们已完成的序列标注任务工程上有广泛的、非常好的应用。

A text sequence annotation algorithm using overlapping split rules

全部详细技术资料下载

【技术实现步骤摘要】
一种使用重叠拆分规则的文本序列标注算法
本专利技术属于自然语言处理领域，特别涉及自然语言的序列标注算法，如分词、词性标注、命名实体识别等，进一步地涉及一种使用重叠拆分规则的文本序列标注算法。
技术介绍
人类社会的知识和信息大多以人类创造的语言文字的形式进行记录，计算机可以方便快捷的对文本进行存储和记录。但是，计算机仅能传递、保存信息，无法直接识别、理解、运用语言文字。自然语言处理就是一种处理人类自然语言文本的算法技术。其中，分词(WordsSegmentation)、词性标注(POSTagging)和命名实体识别(NamedEntityRecognition)是自然语言处理的基础任务。1)、分词，将一句话(字的序列)分割成词的序列。如句子“张某某目前任职于水利局。”，被分解成“张某某”，“目前”，“任职”，“于”，“水利局”，“。”。2)、词性标注，为每一个词赋予一个词性。如名词、动词、形容词等。如前例中，“张某某”、“水利局”是名词，“目前”是副词，“任职”是动词，“于”是介词，“。”是标点符号。3)、命名实体识别，提取文中特定类型的词汇实体。如文中的“张某某”(类型：人名)，“水利局”(类型：机构)等，其余文字不是实体。分词、词性标注、命名实体识别都可以被转化为序列标注(SequenceLabeling)问题。序列标注通过为每一个单元(字或词，英文为token)赋予一个标签，从而达到分块和分类的目的。最常用的标签方式有(BIEOS)标签等，如：1)、分词，“张(B)

【技术保护点】
1.一种使用重叠拆分规则的文本序列标注算法，其特征在于：采用拆分方法具体为：/n(1)训练完成一个基于深度学习的序列标注任务模型后，在预测阶段，对于待预测文本长度超过模型最大序列长度时，将超长文本拆分为若干不大于最大序列长度的子序列，各个子序列之间设置重叠区域；/n(2)获得的若干子序列可以通过并行的方式使用模型做预测，将得到的序列结果按照一套通用的经验规则做拼接合并，即得到最终的超长文本的序列标注结果。/n

【技术特征摘要】
1.一种使用重叠拆分规则的文本序列标注算法，其特征在于：采用拆分方法具体为：
(1)训练完成一个基于深度学习的序列标注任务模型后，在预测阶段，对于待预测文本长度超过模型最大序列长度时，将超长文本拆分为若干不大于最大序列长度的子序列，各个子序列之间设置重叠区域；
(2)获得的若干子序列可以通过并行的方式使用模型做预测，将得到的序列结果按照一套通用的经验规则做拼接合并，即得到最终的超长文本的序列标注结果。

2.一种根据权利要求1所述的使用重叠拆分规则的文本序列标注算法，其特征在于：所述算法适用于针对分词、词性标注、命名实体识别三种任务。

3.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法，其特征在于：方法(1)的重叠区域中，存在当一个实体或词汇包含另一个实体或词汇的关系，且都有实体或词汇取到截断边界时，则直接合并，取较长的实体或词汇。

4.根据权利要求1所述...

【专利技术属性】
技术研发人员：朱利，崔诚煜，李元伟，陈杭，
申请(专利权)人：朱利，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人