【技术实现步骤摘要】
一种文本处理方法、系统、设备及介质
[0001]本专利技术涉及人工智能
,特别是涉及一种文本处理方法、系统、设备及介质。
技术介绍
[0002]在一些咨询类的项目对话中,目前一般会通过算法模型或是正则引擎来判断客服(例如人工客服、智能客服)和客户的对话是否存在违规语句。由于客服和客户之间一般是通过语音对话或文本对话来完成对应的对话咨询,所以对于语音对话而言,常规的识别方式是将客服与客户之间对话形成的语音转换为语音文本,然后再对语音文本进行识别,确定客服和客户之间的对话是否存在违规语句。但是,在将客服与客户之间对话形成的语音转换为语音文本时,由于客户或客服说话的间断性,可能会导致对应的语音文本被不规则地分为多个原始识别文本。如果对这多个原始识别文本进行文本识别,可能并不能真实地反应出客服和客户之间的对话是否存在违规语句。因此,在实际应用中,一般会将多个原始识别文本进行合并,形成一整段话,然后再将这一整段话作为输入来实现违规文本的识别。同时,在输出违规语句文本识别结果时,再将多个原始识别文本之间的段落信息添加至识别结果中, ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括以下步骤:获取第一目标对象与第二目标对象形成的音频数据,并对所述音频数据进行识别,生成多个原始识别文本;将所述多个原始识别文本进行合并,形成合并文本,以及对所述合并文本中的每个文本字符进行序号标记,并以区间形式记录每个原始识别文本在所述合并文本中的开始序号和结束序号,得到每个原始识别文本的序号区间;关联所有原始识别文本的序号区间,形成目标字典;从所述合并文本中随机截取部分文本或全部文本进行目标文本识别,并在完成目标文本识别后,分别确定截取文本的开始序号和结束序号在所述目标字典中的区间位置,以及根据所述截取文本的区间位置确定所述截取文本横跨原始识别文本的文本段落数量;将所述文本段落数量与预设阈值进行比较,并根据比较结果对所述截取文本进行段落切分,获取对应的段落切分结果。2.根据权利要求1所述的文本处理方法,其特征在于,根据比较结果对所述截取文本进行段落切分,获取对应的段落切分结果的过程包括:若所述文本段落数量大于等于第一阈值,则根据所述截取文本中包含的完整原始识别文本来对所述截取文本进行切分,并将切分后的若干个文本段落作为对应的段落切分结果;若所述文本段落数量等于第二阈值,则对所述截取文本添加标记符,并利用所添加的标记符来对所述截取文本进行切分,并将切分后的若干个文本段落作为对应的段落切分结果;若所述文本段落数量等于第三阈值,则不对所述截取文本进行切分,并将所述截取文本直接作为段落切分结果;其中,所述第一阈值大于所述第二阈值,所述第二阈值大于所述第三阈值。3.根据权利要求1所述的文本处理方法,其特征在于,对所述截取文本进行目标文本识别的过程包括:获取与所述合并文本处于相同场景下的参考文本;对所述参考文本进行词性标注,获取所述参考文本中的名词和代词,以及对所述截取文本进行词性标注,获取所述截取文本中的名词和代词;利用依存句法分析方法从所述参考文本中的名词和代词中抽取出所述参考文本中的实体,作为参考实体;以及利用依存句法分析方法从所述截取文本中的名词和代词中抽取出所述截取文本中的实体,作为待比对实体;计算所述参考实体与所述待比对实体的相似度,并将计算出的相似度结果与预设相似度阈值进行比对;若所计算出的相似度大于等于预设相似度阈值,则认为所述截取文本中存在目标文本;若所计算出的相似度小于预设相似度阈值,则认为所述截取文本中不存在目标文本。4.根据权利要求2所述的文本处理方法,其特征在于,若所述文本段落数量等于第二阈值,则对所述截取文本进行切分的过程包括:若所述文本段落数量等于第二阈值,则利用预设的标记符连接所述截取文本横跨的每个原始识别文本,得到对应的连接文本;
在所述截取文本中的每个字符后面添加所述标记符,并将添加标记符后的文本记为标记文本;其中,每个标记文本中至少包括一个标记符;对所述截取文本中的倒数第二个字符完成所述标记符的添加后,判断是否存在某个标...
【专利技术属性】
技术研发人员:李超,朱昱锦,徐亮,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。