一种针对领域的新词发现方法及计算设备技术

技术编号:33384620 阅读:16 留言:0更新日期:2022-05-11 22:59
本公开公开了一种针对领域的新词发现方法及计算设备。其中,针对领域的新词发现方法包括步骤:基于特定领域的知识图谱,对文本进行分词处理,得到分词结果;对分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频;基于所统计的词频,来确定词汇在文本中的统计特征;确定词汇的语义向量;将语义向量输入卷积网络,输出预测词汇属于特定领域且是完整词汇的第一概率;以及基于词汇的词频、统计特征和第一概率,确定出词汇为特定领域的新词的第二概率。为特定领域的新词的第二概率。为特定领域的新词的第二概率。

【技术实现步骤摘要】
一种针对领域的新词发现方法及计算设备


[0001]本公开涉及计算机网络
,尤其涉及新词发现方法。

技术介绍

[0002]新词发现是自然语言处理中非常重要的一环,通过对大量文本数据的处理,去发现大量未收录或者新出现的词汇。同时,对于特定领域的专有名词的挖掘也属于新词发现的范畴。对于特定领域分词、知识抽取、实体消歧等应用有重要的意义。例如在构建领域知识图谱时,需要整合大量的结构化数据去构建模式层(schema层)和数据层(instance层)。虽然目前各个领域都有大量开源的领域数据,但是也存在领域词汇等专有名词不健全的问题,并且随着时间的积累,会出现越来越多的领域新词汇,所以挖掘领域新词变得尤为重要。
[0003]目前,对于新词发现的方法主要存在两种方式。一种是无监督方式:该方法对大量的文本数据进行挖掘,利用点互信息、左右邻近熵、IDF等统计信息基于设定阈值挖掘出所有可能是新词的词汇;或基于特定的规则去发掘新词,例如根据词性规则模板、词汇的前后缀词等。另一种是有监督方式:选取高质量的背景词汇数据,基于机器学习将统计信息或者规则作为特征,对词汇进行分类预测,判断其是领域性新词的可能性。此外,将新词发现设为实体识别过程,将已知词汇进行序列标注训练新词发现的识别模型。
[0004]针对无监督方式,常见的方法是利用词频和上下文统计信息,通过设定阈值来筛选新词。这种方法依赖于人为设定的阈值对词汇进行筛选,不利于新词挖掘的自动化和对挖掘结果的有效评估,同时该方式也无法应用于特定领域的新词发掘。针对有监督方式,常见的方法是将词汇的统计信息作为特征,利用机器学习对词汇进行分类,来判定其是否为新词。在过程中,会结合人工来进行一些词汇的干预和选择,同时对新词的挖掘并不能限定新词的领域性。
[0005]因此,针对上述问题,需要一种新的新词发现方案。

技术实现思路

[0006]本公开提供了一种针对领域的新词发现方法及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
[0007]根据本公开的一个方面,提供了一种针对领域的新词发现方法,包括步骤:基于特定领域的知识图谱,对文本进行分词处理,得到分词结果;对分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频;基于所统计的词频,来确定词汇在文本中的统计特征;确定词汇的语义向量;将词汇的语义向量输入卷积网络,输出预测词汇属于特定领域且是完整词汇的第一概率;以及基于词汇的词频、统计特征和第一概率,确定出词汇为特定领域的新词的第二概率。
[0008]可选地,根据本公开的方法还包括步骤:解析特定领域的知识图谱中的概念和实体,作为属于特定领域的领域词汇;将领域词汇作为分词依据,对文本进行分词,得到分词
结果。
[0009]可选地,在根据本公开的方法中,词汇的语义向量包括:表示所述词汇的语义的第一向量和表示所述词汇在句子中的语义的第二向量。确定词汇的语义向量的步骤包括:利用语言表示模型,分别确定出第一向量和第二向量;基于第一向量和第二向量,得到词汇的语义向量。
[0010]可选地,根据本公开的方法还包括步骤:基于N

Gram模型,将分词结果划分成长度为N的词汇片段序列;对各词汇片段所指示的词汇进行词频统计。
[0011]可选地,根据本公开的方法还包括步骤:基于词汇的词频及词汇片段的总数,确定词汇的点互信息;分别计算词汇的左邻近熵和右邻近熵;取左邻近熵和右邻近熵中的最小值,作为词汇的左右邻近熵。
[0012]可选地,在根据本公开的方法中,基于词汇的词频及词汇片段的总数,确定词汇的点互信息的步骤包括:利用词汇的词频及词汇片段的总数,确定词汇的出现概率;利用组成词汇的各词的词频及词汇片段的总数,确定各词的出现概率;基于各词的出现概率和词汇的出现概率,确定词汇的点互信息。
[0013]可选地,在根据本公开的方法中,分别计算词汇的左邻近熵和右邻近熵的步骤包括:将与词汇两侧相邻的词,分别作为词汇的左侧前缀词和右侧后缀词;统计词汇在文本中的左侧前缀词及左侧前缀词出现的次数、以及右侧后缀词及右侧后缀词出现的次数;基于所统计的左侧前缀词的次数,分别确定出各左侧前缀词在词汇的所有左侧前缀词中的比例;基于所统计的右侧后缀词的次数,分别确定出各右侧后缀词在词汇的所有右侧后缀词中的比例;基于各左侧前缀词的比例,确定出词汇的左邻近熵;基于各右侧后缀词的比例,确定出词汇的右邻近熵。
[0014]根据本公开的再一方面,提供了一种计算设备,包括:一个或多个处理器存储器;一个或多个程序,其中所述一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上任一方法的指令。
[0015]根据本公开的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令在被计算设备执行时,使得计算设备执行如上所述的任一方法。
[0016]综上所述,根据本公开的方案,首先,引入了领域知识图谱中的高质量领域词汇作为领域词判别基准,节省了人工标注数据的成本,兼顾了词汇的领域适用性和质量,确保了高质量领域新词的发现。其次,利用深度学习模型(如,BERT+CNN)对词汇进行领域性和完整性的预测,充分考虑了词汇本身的语义信息以及其在句子中的语义信息,提高了词汇领域性判断和词汇完整性预测的准确性,保证了新词发现结果的可靠性。
附图说明
[0017]为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
[0018]图1示出了根据本公开一些实施例的计算设备100的示意图;
[0019]图2示出了根据本公开一些实施例的针对领域的新词发现方法200的流程示意图;
[0020]图3示出了根据本公开一个实施例的确定第一向量的流程示意图;
[0021]图4示出了根据本公开一个实施例的确定第二向量的流程示意图;
[0022]图5示出了根据本公开一些实施例的预测第一概率的流程示意图。
具体实施方式
[0023]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0024]根据本公开的新词发现方案,针对某个特定领域,引入该领域的知识图谱,以此为分词依据,利用深度学习算法,从文本数据中识别出属于该领域、且能够保证词汇完成性的新词。识别过程充分利用词汇本身和词汇所在上下文的语义信息,相较于通过词向量计算相似度,本方案对领域性的判别更为准确。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对领域的新词发现方法,包括步骤:基于特定领域的知识图谱,对文本进行分词处理,得到分词结果;对所述分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频;基于所统计的词频,来确定词汇在文本中的统计特征;确定所述词汇的语义向量;将所述词汇的语义向量输入卷积网络,输出预测所述词汇属于所述特定领域且是完整词汇的第一概率;以及基于所述词汇的词频、统计特征和第一概率,确定出所述词汇为所述特定领域的新词的第二概率。2.如权利要求1所述的方法,其中,基于特定领域的知识图谱,对文本进行分词处理,得到分词结果的步骤包括:解析所述特定领域的知识图谱中的概念和实体,作为属于所述特定领域的领域词汇;将所述领域词汇作为分词依据,对文本进行分词,得到分词结果。3.如权利要求1或2所述的方法,其中,所述词汇的语义向量包括:表示所述词汇的语义的第一向量和表示所述词汇在句子中的语义的第二向量。4.如权利要求3所述的方法,其中,所述确定词汇的语义向量的步骤包括:利用语言表示模型,分别确定出第一向量和第二向量;基于所述第一向量和所述第二向量,得到所述词汇的语义向量。5.如权利要求4所述的方法,其中,所述利用语言表示模型,分别确定出第一向量和第二向量的步骤包括:将所述词汇输入第一语言表示模型进行处理,并将其在第一位置的输出向量,作为第一向量;将包含所述词汇的句子,输入第二语言表示模型进行处理,并利用其在第二位置和第三位置的输出向量,生成所述第二向量;其中,所述第一位置为CLS位置,第二位置为所述词汇在所述句子中的开始位置,所述第三位置为所述词汇在所述句子中的结束位置。6.如权利要求5所述的方法,其中,所述将包含所述词汇的句子,输入第二语言表示模型进行处理,并利用其在第二位置和第...

【专利技术属性】
技术研发人员:杨雷张志申
申请(专利权)人:车智互联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1