一种文本处理方法、装置及计算设备制造方法及图纸

技术编号:16334136 阅读:55 留言:0更新日期:2017-10-03 10:22
本发明专利技术实施例公开了一种文本处理方法、装置及计算设备。该方法运行于文本处理系统,包括:对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词;根据至少一个关键词以及每个关键词对应的关联词,训练第一模型;对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词;将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词;根据修正后关键词和待修正关键词,训练第二模型;对待修正文本进行分词,将待修正文本的分词结果输入第二模型,修正待修正文本。

Text processing method, apparatus and computing device

The embodiment of the invention discloses a text processing method, a device and a computing device. This method runs on text processing system, including: the segmentation of the sample text, related words, to obtain the corresponding at least one keyword and each keyword in the text of the sample; according to the Related words, at least one keyword and each keyword corresponding to the training of the first model; segmentation of the test text, in the text to obtain test keywords correction and the corresponding keywords associated words need to be revised; to be modified keywords and associated words corresponding to the input of the first amendment be keyword model for correcting the corresponding keywords to be amended after keywords; according to the revised keywords and keywords to be amended, second training model; to correct text segmentation, text segmentation results will be modified second input model the text to be amended, modified.

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种文本处理方法、装置及计算设备
技术介绍
全文搜索技术已经发展了数十年,目前已经是一种较为成熟的技术。而传统的搜索系统一般都会默认导入系统内部的文件是正确无误的。因此,只要对导入系统内的文件做一些预处理后,就可以按照自己的方法对导入系统建立索引,提供给应用程序做搜索业务。然而,随着技术的进步,需要搜索的内容和来源变得更加多元化,很多内容本身在导入搜索引擎建立索引之前,都是经过多次转换的。所以,可能会存在一些转换的错误导致原有的关键信息丢失而搜索不到结果。
技术实现思路
针对上述技术问题,本专利技术提供了一种文本处理方法、装置及计算设备。在文本导入搜索引擎之前,发现并修正文本中存在的错误来提高关键词搜索结果的方法和装置。第一方面,本专利技术提供了一种文本处理方法,所述方法运行于文本处理系统,所述文本处理系统包括至少一个计算设备,所述方法包括:获取源文本,其中,源文本包括样本文本和测试文本;源文本可以为文本处理系统收集到的历史文本中的一部分,文本处理系统根据源文本来训练文本修正模型,以使文本更为精确。对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词。根据至少一个关键词以及每个关键词对应的关联词,训练第一模型;该模型也即用于修正待修正关键词的模型。对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词。将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词。根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型。对待修正文本进行分词,将待修正文本的分词结果输入第二模型,修正待修正文本。在文本导入到搜索引擎之前,利用第一模型检测出文本中可能存在待修正的错误关键词;利用待修正关键词和与之对应的修正后关键词,训练第二模型,利用第二模型,将其他待修正文本中存在错误的关键词进行修正,提升了文本内关键词的精度,也有助于提高后续根据关键词进行搜索的精确度。结合第一方面,在第一方面的第一种可能的实现方式中,对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词包括:对样本文本进行分词,获取样本文本的分词结果,样本文本的分词结果中包括至少一个样本文本词;从至少一个样本文本词中获取至少一个关键词,至少一个关键词在样本文本中的词频大于第一阈值;获取每个关键词的待选关联词,从每个关键词的待选关联词中获取每个关键词对应的关联词,每个关键词对应的关联词与每个关键词的联合概率大于第二阈值。通过对词频高于第一阈值的关键词的提取,获取了文本中价值较高,后续使用频率较高的关键词,并通过与关键词的联合概率来筛选出各个关键词的关联词,以供后续训练。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据至少一个关键词以及每个关键词对应的关联词,训练第一模型包括:根据至少一个关键词、每个关键词对应的关联词以及每个关键词对应的关联词与每个关键词的联合概率,训练第一模型。结合第一方面至第一方面的第二种可能的实现方式中的任一种,在第一方面的第三种可能的实现方式中,将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词,具体包括:利用第一模型将待修正关键词修正为至少一个待选修正关键词;将至少一个待选修正关键词构成待选修正关键词组;在待选修正关键词组中选取与待修正关键词对应的修正后关键词,其中,修正后关键词所对应的第一修正概率值,为待选修正关键词组中与待选修正关键词对应的修正概率值中的最大值,修正概率值为至少一个待选修正关键词中的每一个待选修正关键词和待选修正关键词对应的关联词之间的联合概率。由于第一模型在判断每个待修正关键词的修正后关键词的过程中,不是简单的进行匹配,而是有一定概率的影响,因此每个待修正关键词可能对应有多个待选修正关键词,通过获取修正概率值最高的待选修正关键词作为最终的修正后关键词。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型,包括:根据待修正关键词对应的修正后关键词,待修正关键词以及修正后关键词对应的第一修正概率值,训练第二模型。结合第一方面至第一方面的第二种可能的实现方式,以及第一方面的第四种可能的实现方式中的任一种,在第一方面的第五种可能的实现方式中,该方法还包括:获取查询日志中的日志关键词,日志关键词为查询日志中词频大于第三阈值的词;将日志关键词作为样本文本的关键词。从用户的日志中,获取用户感兴趣的关键词,并将其作为样本文本中提取关键词的手段之一,提升了从样本文本中提取最有价值的关键词的精度,与第一方面的前几种实现方式相比,关键词的提取不仅仅依赖于样本文本中各个词的词频。第二方面,本专利技术实施例提供了一种文本处理装置,该装置包括:分词模块,用于获取源文本,源文本包括样本文本和测试文本;对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词;处理模块,用于根据至少一个关键词以及每个关键词对应的关联词,训练第一模型;分词模块还用于,对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词;处理模块还用于,将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词;根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型;分词模块还用于,对待修正文本进行分词;处理模块还用于,将待修正文本的分词结果输入第二模型,修正待修正文本。结合第二方面,在第二方面的第一种可能的实现方式中,分词模块具体用于,对样本文本进行分词,获取样本文本的分词结果,样本文本的分词结果中包括至少一个样本文本词;从至少一个样本文本词中获取至少一个关键词,至少一个关键词在样本文本中的词频大于第一阈值;获取每个关键词的待选关联词,从每个关键词的待选关联词中获取每个关键词对应的关联词,每个关键词对应的关联词与每个关键词的联合概率大于第二阈值。结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,处理模块具体用于:根据所述至少一个关键词、所述每个关键词对应的关联词以及所述每个关键词对应的关联词与所述每个关键词的联合概率,训练所述第一模型。结合第二方面至第二方面的第二种可能的实现方式中的任一种实现方式,在第二方面的第三种可能的实现方式中,处理模块具体用于,利用第一模型将待修正关键词修正为至少一个待选修正关键词;将至少一个待选修正关键词构成待选修正关键词组;在待选修正关键词组中选取与待修正关键词对应的修正后关键词,其中,修正后关键词所对应的第一修正概率值,为待选修正关键词组中与待选修正关键词对应的修正概率值中的最大值,修正概率值为至少一个待选修正关键词中的每一个待选修正关键词和待选修正关键词对应的关联词之间的联合概率。结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,处理模块具体用于,根据待修正关键词对应的修正后关键词,待修正关键词以及修正后关键词对应的第一修正概率值,训练第二模型。结合第二方面至第二方面的本文档来自技高网...
一种文本处理方法、装置及计算设备

【技术保护点】
一种文本处理方法,其特征在于,所述方法运行于文本处理系统,所述文本处理系统包括至少一个计算设备,所述方法包括:获取源文本,所述源文本包括样本文本和测试文本;对所述样本文本进行分词,获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词;根据所述至少一个关键词以及所述每个关键词对应的关联词,训练第一模型;对所述测试文本进行分词,获取所述测试文本中的待修正关键词以及所述待修正关键词对应的关联词;将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型,获取所述待修正关键词对应的修正后关键词;根据所述待修正关键词对应的修正后关键词和所述待修正关键词,训练第二模型;对待修正文本进行分词,将所述待修正文本的分词结果输入所述第二模型,修正所述待修正文本。

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法运行于文本处理系统,所述文本处理系统包括至少一个计算设备,所述方法包括:获取源文本,所述源文本包括样本文本和测试文本;对所述样本文本进行分词,获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词;根据所述至少一个关键词以及所述每个关键词对应的关联词,训练第一模型;对所述测试文本进行分词,获取所述测试文本中的待修正关键词以及所述待修正关键词对应的关联词;将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型,获取所述待修正关键词对应的修正后关键词;根据所述待修正关键词对应的修正后关键词和所述待修正关键词,训练第二模型;对待修正文本进行分词,将所述待修正文本的分词结果输入所述第二模型,修正所述待修正文本。2.如权利要求1所述的方法,其特征在于,所述对所述样本文本进行分词,获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词包括:对所述样本文本进行分词,获取所述样本文本的分词结果,所述样本文本的分词结果中包括至少一个样本文本词;从所述至少一个样本文本词中获取所述至少一个关键词,所述至少一个关键词在所述样本文本中的词频大于第一阈值;获取所述每个所述关键词的待选关联词,从所述每个关键词的待选关联词中获取所述每个关键词对应的关联词,所述每个关键词对应的关联词与所述每个关键词的联合概率大于第二阈值。3.如权利要求2所述的方法,其特征在于,所述根据所述至少一个关键词以及所述每个关键词对应的关联词,训练第一模型包括:根据所述至少一个关键词、所述每个关键词对应的关联词以及所述每个关键词对应的关联词与所述每个关键词的联合概率,训练所述第一模型。4.如权利要求1至3任一所述方法,其特征在于,所述将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型,获取所述待修正关键词对应的修正后关键词,包括:利用所述第一模型将所述待修正关键词修正为至少一个待选修正关键词;从所述至少一个待选修正关键词中选取与所述待修正关键词对应的所述修正后关键词,其中,所述修正后关键词所对应的修正概率值,为所述至少一个待选修正关键词对应的修正概率值中的最大值,每个待选修正关键词对应的修正概率值为该待选修正关键词和所述待修正关键词对应的关联词之间的联合概率。5.如权利要求4所述方法,其特征在于,根据所述待修正关键词对应的修正后关键词和所述待修正关键词,训练第二模型,包括:根据所述待修正关键词对应的修正后关键词,所述待修正关键词以及所述修正后关键词对应的修正概率值,训练所述第二模型。6.如权利要求1-3或5任一项所述的方法,其特征在于,所述方法还包括:获取查询日志中的日志关键词,所述日志关键词为所述查询日志中词频大于第三阈值的词;将所述日志关键词作为所述样本文本的关键词。7.一种文...

【专利技术属性】
技术研发人员:贾应波周文礼刘若曦
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1