The embodiment of the invention discloses a method, device, device and medium for customizing a word segmentation model based on artificial intelligence. The method comprises: acquiring custom word training corpus; word segmentation according to the customized training corpus, the first amendment set segmentation model using incremental training method or weight intervention method, get a customized segmentation model and corresponding customized training corpus segmentation. The technical proposal of the invention solves the technical defects through the re training of the existing segmentation model to obtain segmentation model for the professional field or a specific scene is time-consuming in current technology, to achieve a rapid and simple segmentation based on the user's actual demand for the segmentation model is modified, satisfying the specific demands of users segmentation model participle.
【技术实现步骤摘要】
基于人工智能的分词模型的定制方法、装置、设备和介质
本专利技术实施例涉及分词模型处理
,尤其涉及一种基于人工智能的分词模型的定制方法、装置、设备和介质。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。现有的中文分词模型一般都是通用分词模型,无法针对专业领域或特定场景对文本进行准确的分词。现有技术中一般是通过使用专业领域或特定场景的分词训练语料重新训练现有的通用分词模型,得到专业领域或特定场景对应的分词模型。上述获取专业领域或特定场景对应的分词模型的方法,费时费力,且难以保证分词质量。
技术实现思路
有鉴于此 ...
【技术保护点】
一种基于人工智能的分词模型的定制方法,其特征在于,包括:获取定制分词训练语料;根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。
【技术特征摘要】
1.一种基于人工智能的分词模型的定制方法,其特征在于,包括:获取定制分词训练语料;根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型,包括:使用所述第一设定分词模型对所述定制分词训练语料进行分词处理,得到分词结果;根据设定规则比较所述分词结果和所述定制分词训练语料,获取更新参数;根据所述更新参数,更新所述第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。3.根据权利要求1所述的方法,其特征在于,所述根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型,还包括:根据所述定制分词训练语料,生成分词模型修正参数;根据所述分词模型修正参数和所述第一设定分词模型的模型参数,生成与所述定制分词训练语料对应的定制分词模型。4.根据权利要求1所述的方法,其特征在于,还包括:存储所述定制分词训练语料以及所述定制分词模型。5.根据权利要求4所述的方法,其特征在于,还包括:依据设定时间周期或获取的修正指令,获取存储的所有所述定制分词训练语料,生成标准分词训练语料;根据所述标准分词训练语料,使用所述增量训练法修正第二设定分...
【专利技术属性】
技术研发人员:郑利群,詹金波,肖求根,付志宏,何径舟,周古月,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。