用于生成词语的方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:44001945 阅读:23 留言:0更新日期:2025-01-10 20:18
本公开的实施例涉及用于生成词语的方法、装置、设备、介质和程序产品,涉及数据处理技术、文本生成技术、大模型技术、大语言模型技术领域。该方法包括基于多个文档,确定要加入词库的候选词语。该方法还包括基于候选词语,确定针对候选词语的多个候选文本。该方法还包括基于多个候选文本,确定针对候选词语的左信息熵和右信息熵。该方法还包括响应于左信息熵大于第一预定阈值和右信息熵大于第二预定阈值,将候选词语确定为要加入词库的目标词语。通过该方法,利用计算候选词语的左右信息熵来确定候选词语是新词的可能性,使得能够自动化地、高效地挖掘文档中的新词,提高了新词挖掘的速度和效率,改进了用户体验。

【技术实现步骤摘要】

本公开的实施例总体涉及文本处理领域,具体涉及用于生成词语的方法、装置、设备、介质和程序产品


技术介绍

1、目前,机器学习行业的发展变得越来越快速。越来越多的不同类型的机器学习模型也应运而生,并被广泛应用于不同的行业、不同的领域当中。例如,视觉相关的模型可以被应用于视觉检测领域、智能驾驶领域等,语言相关的模型可以被应用于文本处理领域、知识问答领域等,还有将各类不同侧重点的模型进行综合整合而形成的多模态机器学习模型,可以被用于更为复杂的、串联多个不同领域的作业当中。

2、随着机器学习产业的加速发展,与机器学习相关的新技术层出不穷,机器学习模型的应用场景也变得越来越多。尤其在文本处理领域,机器学习模型的应用也变得越来越广泛。在处理数据时,如何更加高效地应用机器学习模型也有越来越多的讨论。对于大量的数据,在处理的时候应用机器学习模型也会遇到不小的挑战。因此,在面对海量的数据时,如何灵活地、高效地使用机器学习模型来处理相关的文本处理任务成为了当下热门的研究话题。


技术实现思路

1、本公开的实施例提供了一种本文档来自技高网...

【技术保护点】

1.一种用于生成词语的方法,包括:

2.根据权利要求1所述的方法,其中确定要加入词库的候选词语包括:

3. 根据权利要求2所述的方法,其中获取针对所述实体的相关上下文包括:

4. 根据权利要求3所述的方法,其中获取针对所述实体的相关上下文还包括

5.根据权利要求2所述的方法,其中基于所述多个文档和所述相关上下文,确定要加入词库的候选词语包括:

6.根据权利要求1所述的方法,其中确定针对所述候选词语的多个候选文本包括:

7.根据权利要求1所述的方法,其中确定针对所述候选词语的左信息熵和右信息熵包括:

8.根...

【技术特征摘要】

1.一种用于生成词语的方法,包括:

2.根据权利要求1所述的方法,其中确定要加入词库的候选词语包括:

3. 根据权利要求2所述的方法,其中获取针对所述实体的相关上下文包括:

4. 根据权利要求3所述的方法,其中获取针对所述实体的相关上下文还包括

5.根据权利要求2所述的方法,其中基于所述多个文档和所述相关上下文,确定要加入词库的候选词语包括:

6.根据权利要求1所述的方法,其中确定针对所述候选词语的多个候选文本包括:

7.根据权利要求1所述的方法,其中确定针对所述候选词语的左信息熵和右信息熵包括:

8.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:王浩
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1