领域新词提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40528510 阅读:23 留言:0更新日期:2024-03-01 13:48
本发明专利技术提供一种领域新词提取方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:获取待进行领域新词提取的目标文本数据;将目标文本数据输入到领域新词提取模型中,得到由领域新词提取模型输出的目标文本数据中各个目标词语作为领域新词的新词概率,其中,领域新词提取模型是由标记有领域新词标签的样本文本数据,对自然语言处理模型进行训练得到的;根据各个目标词语的新词概率,从多个目标词语中确定候选领域新词;根据各个候选领域新词在目标文本数据中的共现关系,构建领域新词图模型;根据领域新词图模型,从多个候选领域新词中确定目标领域新词。本发明专利技术更为准确地提取文本中的领域新词。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种领域新词提取方法、装置、电子设备及存储介质


技术介绍

1、领域新词是指在特定领域或专业中出现的新词汇或术语,随着科技发展,不同领域和行业都在不断涌现新的概念、技术和现象,领域新词在专业交流、学术研究、行业报道和领域内部沟通中起到重要的角色,有助于精确传达特定领域的信息,提高沟通效率,并促进该领域的进一步发展和创新。

2、在学术研究和文献分析中,领域新词的提取可以帮助研究人员追踪和理解最新的研究成果和话题;而在信息检索和文本挖掘中,也可以利用领域新词来提高搜索的效果和准确性。然而,由于领域新词的特殊性和专业性,现有针对领域新词的提取方式,如通过人工的方式来标注和识别领域中的新词,依赖于人工经验和专业知识,容易受到主观因素的影响,并且无法处理大规模的文本数据;或,通过频率统计,分析文本中词语的出现频率和特定领域的背景知识,确定频率较高但在通用语料库中较少出现的词语作为领域新词,该方法无法准确判断一个词是否是新词,而且对于多义词的判别也存在困难。

3、因此,现在亟需一种领域新词提取方法、装置、电子设备本文档来自技高网...

【技术保护点】

1.一种领域新词提取方法,其特征在于,包括:

2.根据权利要求1所述的领域新词提取方法,其特征在于,所述领域新词提取模型通过以下步骤训练得到:

3.根据权利要求1所述的领域新词提取方法,其特征在于,所述根据各个所述候选领域新词在所述目标文本数据中的共现关系,构建领域新词图模型,包括:

4.根据权利要求3所述的领域新词提取方法,其特征在于,所述根据所述领域新词图模型,从多个所述候选领域新词中确定目标领域新词,包括:

5.根据权利要求4所述的领域新词提取方法,其特征在于,所述获取待进行领域新词提取的目标文本数据,包括:>

6.根据权利...

【技术特征摘要】

1.一种领域新词提取方法,其特征在于,包括:

2.根据权利要求1所述的领域新词提取方法,其特征在于,所述领域新词提取模型通过以下步骤训练得到:

3.根据权利要求1所述的领域新词提取方法,其特征在于,所述根据各个所述候选领域新词在所述目标文本数据中的共现关系,构建领域新词图模型,包括:

4.根据权利要求3所述的领域新词提取方法,其特征在于,所述根据所述领域新词图模型,从多个所述候选领域新词中确定目标领域新词,包括:

5.根据权利要求4所述的领域新词提取方法,其特征在于,所述获取待进行领域新词提取的目标文本数据,包括:

6.根据权利要求5所述的领域新词提取方法,其特征在于,所述根据各个所述目标词语的所述新词概率,从多个所...

【专利技术属性】
技术研发人员:姚明磊李楠孙奥翟斗号刘家林
申请(专利权)人:北京麦麦趣耕科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1