一种针对领域的新词发现方法及计算设备技术

技术编号：33384620 阅读：30 留言：0更新日期：2022-05-11 22:59

本公开公开了一种针对领域的新词发现方法及计算设备。其中，针对领域的新词发现方法包括步骤：基于特定领域的知识图谱，对文本进行分词处理，得到分词结果；对分词结果进行处理，得到多个词汇片段，并分别统计各词汇片段所指示词汇的词频；基于所统计的词频，来确定词汇在文本中的统计特征；确定词汇的语义向量；将语义向量输入卷积网络，输出预测词汇属于特定领域且是完整词汇的第一概率；以及基于词汇的词频、统计特征和第一概率，确定出词汇为特定领域的新词的第二概率。为特定领域的新词的第二概率。为特定领域的新词的第二概率。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对领域的新词发现方法及计算设备

[0001]本公开涉及计算机网络
，尤其涉及新词发现方法。

技术介绍

[0002]新词发现是自然语言处理中非常重要的一环，通过对大量文本数据的处理，去发现大量未收录或者新出现的词汇。同时，对于特定领域的专有名词的挖掘也属于新词发现的范畴。对于特定领域分词、知识抽取、实体消歧等应用有重要的意义。例如在构建领域知识图谱时，需要整合大量的结构化数据去构建模式层(schema层)和数据层(instance层)。虽然目前各个领域都有大量开源的领域数据，但是也存在领域词汇等专有名词不健全的问题，并且随着时间的积累，会出现越来越多的领域新词汇，所以挖掘领域新词变得尤为重要。
[0003]目前，对于新词发现的方法主要存在两种方式。一种是无监督方式：该方法对大量的文本数据进行挖掘，利用点互信息、左右邻近熵、IDF等统计信息基于设定阈值挖掘出所有可能是新词的词汇；或基于特定的规则去发掘新词，例如根据词性规则模板、词汇的前后缀词等。另一种是有监督方式：选取高质量的背景词汇数据，基于机器学习将统计...

【技术保护点】

【技术特征摘要】
1.一种针对领域的新词发现方法，包括步骤：基于特定领域的知识图谱，对文本进行分词处理，得到分词结果；对所述分词结果进行处理，得到多个词汇片段，并分别统计各词汇片段所指示词汇的词频；基于所统计的词频，来确定词汇在文本中的统计特征；确定所述词汇的语义向量；将所述词汇的语义向量输入卷积网络，输出预测所述词汇属于所述特定领域且是完整词汇的第一概率；以及基于所述词汇的词频、统计特征和第一概率，确定出所述词汇为所述特定领域的新词的第二概率。2.如权利要求1所述的方法，其中，基于特定领域的知识图谱，对文本进行分词处理，得到分词结果的步骤包括：解析所述特定领域的知识图谱中的概念和实体，作为属于所述特定领域的领域词汇；将所述领域词汇作为分词依据，对文本进行分词，得到分词结果。3.如权利要求1或2所述的方法，其中，所述词汇的语义向量包括：表示所述词汇的语义的第一向量和表示所述词汇在句子中的语义的第二向量。4.如权利要求3所述的方法，其中，所述确定词汇的语义向量的步骤包括：利用语言表示模型，分别确定出第一向量和第二向量；基于所述第一向量和所述第二向量，得到所述词汇的语义向量。5.如权利要求4所述的方法，其中，所述利用语言表示模型，分别确定出第一向量和第二向量的步骤包括：将所述词汇输入第一语言表示模型进行处理，并将其在第一位置的输出向量，作为第一向量；将包含所述词汇的句子，输入第二语言表示模型进行处理，并利用其在第二位置和第三位置的输出向量，生成所述第二向量；其中，所述第一位置为CLS位置，第二位置为所述词汇在所述句子中的开始位置，所述第三位置为所述词汇在所述句子中的结束位置。6.如权利要求5所述的方法，其中，所述将包含所述词汇的句子，输入第二语言表示模型进行处理，并利用其在第二位置和第...

【专利技术属性】
技术研发人员：杨雷，张志申，
申请(专利权)人：车智互联北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人