【技术实现步骤摘要】
信息处理方法、自然语言处理方法以及信息处理设备
本公开总体上涉及信息处理领域,具体而言,涉及一种用于识别或标注命名实体的信息处理方法、利用命名实体识别模型处理目标文档的自然语言处理方法、以及能够实现上述信息处理方法和/或自然语言处理方法的信息处理设备。
技术介绍
命名实体识别是指在文档中识别出特定类型的事物名称或符号的过程。很多领域的文档(例如法律文书、新闻报道、文艺评论等)中频繁出现诸如人名、地名等的命名实体,并且存在从这些文档中识别或标注出命名实体以供后续处理的需求。然而,构成命名实体的词语是多样的,因此,难以通过枚举或规则总结的方式将所有命名实体都包括在某个预定集合中。另外,命名实体的组成长度也不固定,进一步为其识别带了困难。因此,希望能够提供一种可以有效识别或标注命名实体的方法。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的 ...
【技术保护点】
1.一种信息处理方法,包括:/n根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;/n利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及/n根据所述提取的结果,改进命名工具的标注结果。/n
【技术特征摘要】
1.一种信息处理方法,包括:
根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;
利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及
根据所述提取的结果,改进命名工具的标注结果。
2.如权利要求1所述的信息处理方法,其中,所述改进包括选择符合下述条件的命名实体来更新命名工具的标注结果:
命名实体出现在所述提取的结果和命名工具的标注结果两者中;和/或
命名实体在所述提取的结果中或在命名工具的标注结果中的出现频率超过预定频率。
3.如权利要求1所述的信息处理方法,其中,
命名工具由现有的自然语言处理工具包提供。
4.如权利要求1至3中任一项所述的信息处理方法,还包括:
利用改进后的标注结果作为训练数据,训练命名实体识别模型。
5.如权利要求4所述的信息处理方法,其中,
命名实体识别模型包括基于条件随机场的序列标注模型。
6.一种自然语言处理方法,包括:<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。