System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种新词获得方法技术_技高网

一种新词获得方法技术

技术编号:41280934 阅读:3 留言:0更新日期:2024-05-11 09:31
本发明专利技术公开了一种新词获得方法,包括:获取原始数据;将所述原始数据输入新词发现模型,获得所述新词;其中,所述新词发现模型通过训练样本对初始新词发现模型进行训练获得,所述训练样本包括基于无监督方法获得的第一训练样本和基于人工标注样本获取的第二训练样本。本发明专利技术通过使用较少量人工标注样本训练得到一个高性能的新词发现模型,可以获得较高准确率的新词。

【技术实现步骤摘要】

本专利技术涉及石油石化健康安全环境文本数据分析领域,尤其涉及一种新词获得方法及装置。


技术介绍

1、新词发现是nlp(natural language processing,自然语言处理)的基础任务之一。通过对已有语料进行挖掘,从中识别出新词。新词发现也可称为未登录词识别。严格来讲,新词是指随时代发展而新出现或旧词新用的词语。同时,特定领域的专有名词也可归属于新词的范畴。因此“新”并非只是时间上的概念,同样可以迁移到领域或空间上。因此,新词发现不仅可以挖掘随时间变化而产生的新词,也可以挖掘不同领域的专有名词。

2、从技术的角度来讲,在处理文本对象时,非常关键的问题在于“切词”这个环节,几乎所有的后续结果都依赖第一步的切词。因此,切词的准确性在很大程度上影响着后续的处理,切词结果的不同,也就影响了特征的提取。跟数据挖掘一样,特征提取的好坏特别重要,不论用什么算法,特征好数据好结果才会好。hse(health,safety and environment,健康安全环境)领域拥有众多的专业术语,简单的基于统计和语义的中文分词算法不能很好的识别安全管理文本特征。比如,“危害因素辨识”通常会被识别成“危害/因素/辨识”三个词,丢失了原本的信息。过去解决这个问题需要靠人工建立专业词典工作量大、效率低。利用新词发现技术能够高效的从大量hse语料中识别“新词”,实现了专业词典自动构建、扩充用户词典,在一定程度上提高切词的准确性,进而提升文本处理的效果。因此新词发现在nlp领域具有不可或缺的重要意义。

3、现有的新词发现算法包括有监督和无监督两种,无监督算法主要通过一些规则、概率统计等无监督方法来获取新词,无监督方法的准确率较低,需要对抽取结果进行人工筛选之后才能够加入hse领域词典。有监督方法准确率较高,但需要人工标注大量的训练样本用于模型训练。因此,如何能够使用少量的训练样本得到具有较高准确率的新词发现模型,同时降低人力成本成为当下亟需解决的问题。


技术实现思路

1、本专利技术目的在于提供新词获得方法,能够使用少量的训练样本得到具有较高准确率的新词发现模型,同时降低人力成本。

2、为实现上述目的,本专利技术提供一种新词获得方法,包括:

3、获取原始数据;

4、将所述原始数据输入新词发现模型,获得所述新词;

5、其中,所述新词发现模型通过训练样本对初始新词发现模型进行训练获得,所述训练样本包括基于无监督方法获得的第一训练样本和基于人工标注样本获取的第二训练样本。

6、可选的,所述基于无监督方法获得的第一训练样本,包括:根据无监督方法、词典匹配和远程监督模型,获得所述第一训练样本。

7、可选的,所述根据无监督方法、词典匹配和远程监督模型,获得所述第一训练样本,包括:

8、根据无监督方法、词典匹配和远程监督模型,获得新词预测数据;

9、对所述新词预测数据进行筛选处理,获得所述第一训练样本。

10、可选的,所述初始新词发现模型基于远程监督方法训练获得。

11、可选的,所述基于人工标注样本获取的第二训练样本,包括:

12、根据所述人工标注样本,确定与所述人工标注样本对应的新词;

13、根据所述新词,确定与所述新词对应的近义词;

14、将所述近义词作为第二训练样本。

15、可选的,所述方法还包括:判断与所述新词对应的近义词之间的相似度。

16、可选的,所述相似度通过与所述近义词对应的词向量的计算获得。

17、可选的,如上述任一项所述方法用于获得石油石化健康安全环境领域的新词。

18、本专利技术还提供一种新词发现模型获得方法,包括:

19、获得训练样本,所述训练样本包括基于无监督方法获得的第一训练样本和基于人工标注样本获取的第二训练样本;

20、将所述训练样本输入初始新词发现模型进行训练,获得所述新词发现模型。

21、本专利技术还提供一种新词获得装置,包括:

22、获取原始数据单元,用于获取原始数据;

23、获得新词单元,用于将所述原始数据输入新词发现模型,获得所述新词;

24、其中,所述新词发现模型通过训练样本对初始新词发现模型进行训练获得,所述训练样本包括基于无监督方法获得的第一训练样本和基于人工标注样本获取的第二训练样本。

25、本专利技术还提供一种新词发现模型获得装置,包括:

26、获得训练样本单元,用于获得训练样本,所述训练样本包括基于无监督方法获得的第一训练样本和基于人工标注样本获取的第二训练样本;

27、获得所述新词发现模型单元,用于将所述训练样本输入初始新词发现模型进行训练,获得所述新词发现模型。

28、本专利技术还提供一种设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述程序时实现如上述任一项所述方法。

29、本专利技术还提供一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如上述任一项所述方法。

30、本专利技术的技术效果和优点:

31、本专利技术提供一种新词获得方法,包括:获取原始数据;将所述原始数据输入新词发现模型,获得所述新词;其中,所述新词发现模型通过训练样本对初始新词发现模型进行训练获得,所述训练样本包括基于无监督方法获得的第一训练样本和基于人工标注样本获取的第二训练样本。本专利技术通过使用较少量人工标注样本训练得到一个高性能的新词发现模型,可以获得较高准确率的新词。

32、本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。

本文档来自技高网...

【技术保护点】

1.一种新词获得方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于无监督方法获得的第一训练样本,包括:根据无监督方法、词典匹配和远程监督模型,获得所述第一训练样本。

3.根据权利要求2所述的方法,其特征在于,所述根据无监督方法、词典匹配和远程监督模型,获得所述第一训练样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述初始新词发现模型基于远程监督方法训练获得。

5.根据权利要求1所述的方法,其特征在于,所述基于人工标注样本获取的第二训练样本,包括:

6.根据权利要求5所述的方法,其特征在于,还包括:判断与所述新词对应的近义词之间的相似度。

7.根据权利要求6所述的方法,其特征在于,所述相似度通过与所述近义词对应的词向量的计算获得。

8.如权利要求1-7任一项所述方法用于获得石油石化健康安全环境领域的新词。

9.一种新词发现模型获得方法,其特征在于,包括:

10.一种新词获得装置,其特征在于,包括:

11.一种新词发现模型获得装置,其特征在于,包括:

12.一种设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述程序时实现如权利要求1至9任一项所述方法。

13.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至9任一项所述方法。

...

【技术特征摘要】

1.一种新词获得方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于无监督方法获得的第一训练样本,包括:根据无监督方法、词典匹配和远程监督模型,获得所述第一训练样本。

3.根据权利要求2所述的方法,其特征在于,所述根据无监督方法、词典匹配和远程监督模型,获得所述第一训练样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述初始新词发现模型基于远程监督方法训练获得。

5.根据权利要求1所述的方法,其特征在于,所述基于人工标注样本获取的第二训练样本,包括:

6.根据权利要求5所述的方法,其特征在于,还包括:判断与所述新词对应的近义词之间的相似度。

7.根据权利...

【专利技术属性】
技术研发人员:阎红巧吴顺成樊志强郝壮远田琨王顺义谭昆栗玉华
申请(专利权)人:中国石油天然气集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1