一种文本处理方法、装置及计算设备制造方法及图纸

技术编号：16334136 阅读：55 留言：0更新日期：2017-10-03 10:22

本发明专利技术实施例公开了一种文本处理方法、装置及计算设备。该方法运行于文本处理系统，包括：对样本文本进行分词，获取样本文本中的至少一个关键词以及每个关键词对应的关联词；根据至少一个关键词以及每个关键词对应的关联词，训练第一模型；对测试文本进行分词，获取测试文本中的待修正关键词以及待修正关键词对应的关联词；将待修正关键词以及待修正关键词对应的关联词输入第一模型，获取待修正关键词对应的修正后关键词；根据修正后关键词和待修正关键词，训练第二模型；对待修正文本进行分词，将待修正文本的分词结果输入第二模型，修正待修正文本。

Text processing method, apparatus and computing device

The embodiment of the invention discloses a text processing method, a device and a computing device. This method runs on text processing system, including: the segmentation of the sample text, related words, to obtain the corresponding at least one keyword and each keyword in the text of the sample; according to the Related words, at least one keyword and each keyword corresponding to the training of the first model; segmentation of the test text, in the text to obtain test keywords correction and the corresponding keywords associated words need to be revised; to be modified keywords and associated words corresponding to the input of the first amendment be keyword model for correcting the corresponding keywords to be amended after keywords; according to the revised keywords and keywords to be amended, second training model; to correct text segmentation, text segmentation results will be modified second input model the text to be amended, modified.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种文本处理方法、装置及计算设备。
技术介绍
全文搜索技术已经发展了数十年，目前已经是一种较为成熟的技术。而传统的搜索系统一般都会默认导入系统内部的文件是正确无误的。因此，只要对导入系统内的文件做一些预处理后，就可以按照自己的方法对导入系统建立索引，提供给应用程序做搜索业务。然而，随着技术的进步，需要搜索的内容和来源变得更加多元化，很多内容本身在导入搜索引擎建立索引之前，都是经过多次转换的。所以，可能会存在一些转换的错误导致原有的关键信息丢失而搜索不到结果。
技术实现思路
针对上述技术问题，本专利技术提供了一种文本处理方法、装置及计算设备。在文本导入搜索引擎之前，发现并修正文本中存在的错误来提高关键词搜索结果的方法和装置。第一方面，本专利技术提供了一种文本处理方法，所述方法运行于文本处理系统，所述文本处理系统包括至少一个计算设备，所述方法包括：获取源文本，其中，源文本包括样本文本和测试文本；源文本可以为文本处理系统收集到的历史文本中的一部分，文本处理系统根据源文本来训练文本修正模型，以使文本更为精确。对样本文本进行分词，获取样本文本中的至少一个关键词以及每个关键词对应的关联词。根据至少一个关键词以及每个关键词对应的关联词，训练第一模型；该模型也即用于修正待修正关键词的模型。对测试文本进行分词，获取测试文本中的待修正关键词以及待修正关键词对应的关联词。将待修正关键词以及待修正关键词对应的关联词输入第一模型，获取待修正关键词对应的修正后关键词。根据待修正关键词对应的修正后关键词和待修正关键词，训练第二模型。对...
一种文本处理方法、装置及计算设备

【技术保护点】
一种文本处理方法，其特征在于，所述方法运行于文本处理系统，所述文本处理系统包括至少一个计算设备，所述方法包括：获取源文本，所述源文本包括样本文本和测试文本；对所述样本文本进行分词，获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词；根据所述至少一个关键词以及所述每个关键词对应的关联词，训练第一模型；对所述测试文本进行分词，获取所述测试文本中的待修正关键词以及所述待修正关键词对应的关联词；将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型，获取所述待修正关键词对应的修正后关键词；根据所述待修正关键词对应的修正后关键词和所述待修正关键词，训练第二模型；对待修正文本进行分词，将所述待修正文本的分词结果输入所述第二模型，修正所述待修正文本。

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法运行于文本处理系统，所述文本处理系统包括至少一个计算设备，所述方法包括：获取源文本，所述源文本包括样本文本和测试文本；对所述样本文本进行分词，获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词；根据所述至少一个关键词以及所述每个关键词对应的关联词，训练第一模型；对所述测试文本进行分词，获取所述测试文本中的待修正关键词以及所述待修正关键词对应的关联词；将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型，获取所述待修正关键词对应的修正后关键词；根据所述待修正关键词对应的修正后关键词和所述待修正关键词，训练第二模型；对待修正文本进行分词，将所述待修正文本的分词结果输入所述第二模型，修正所述待修正文本。2.如权利要求1所述的方法，其特征在于，所述对所述样本文本进行分词，获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词包括：对所述样本文本进行分词，获取所述样本文本的分词结果，所述样本文本的分词结果中包括至少一个样本文本词；从所述至少一个样本文本词中获取所述至少一个关键词，所述至少一个关键词在所述样本文本中的词频大于第一阈值；获取所述每个所述关键词的待选关联词，从所述每个关键词的待选关联词中获取所述每个关键词对应的关联词，所述每个关键词对应的关联词与所述每个关键词的联合概率大于第二阈值。3.如权利要求2所述的方法，其特征在于，所述根据所述至少一个关键词以及所述每个关键词对应的关联词，训练第一模型包括：根据所述至少一个关键词、所述每个关键词对应的关联词以及所述每个关键词对应的关联词与所述每个关键词的联合概率，训练所述第一模型。4.如权利要求1至3任一所述方法，其特征在于，所述将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型，获取所述待修正关键词对应的修正后关键词，包括：利用所述第一模型将所述待修正关键词修正为至少一个待选修正关键词；从所述至少一个待选修正关键词中选取与所述待修正关键词对应的所述修正后关键词，其中，所述修正后关键词所对应的修正概率值，为所述至少一个待选修正关键词对应的修正概率值中的最大值，每个待选修正关键词对应的修正概率值为该待选修正关键词和所述待修正关键词对应的关联词之间的联合概率。5.如权利要求4所述方法，其特征在于，根据所述待修正关键词对应的修正后关键词和所述待修正关键词，训练第二模型，包括：根据所述待修正关键词对应的修正后关键词，所述待修正关键词以及所述修正后关键词对应的修正概率值，训练所述第二模型。6.如权利要求1-3或5任一项所述的方法，其特征在于，所述方法还包括：获取查询日志中的日志关键词，所述日志关键词为所述查询日志中词频大于第三阈值的词；将所述日志关键词作为所述样本文本的关键词。7.一种文...

【专利技术属性】
技术研发人员：贾应波，周文礼，刘若曦，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人