【技术实现步骤摘要】
一种基于神经网络模型和规则结合的冗余表达去除方法
本专利技术属于自然语言处理领域,特别涉及一种基于神经网络模型和规则结合的冗余表达去除方法。
技术介绍
目前讲话内容文本一般是语音记录发言人的讲话,再通过语音转文字得到,其中讲话内容包含很多语气词、停顿词、重复语句等无关词句,对后期的阅读和展示带来较差的体验,因此需要对中文讲话内容的口语冗余表达词汇进行去除。现阶段常常采用的方法是使用规则匹配冗余词汇,该方法是先统计冗余词汇,然后编写规则查找并替换掉这些词汇,达到去除冗余口语词汇的目的。但是该方法仍明显存在以下不足:不支持长句冗余去除,对于较长冗余的句子,规则匹配不到;不支持错别字去除,对于包含有错字和别字的冗余口语词汇,规则不能智能匹配到;规则强行匹配会造成语句不通、语法有错、句子结构不完整等问题,规则不能做到智能匹配和智能忽略,对于正常语句涉及的口语词汇,规则匹配不会智能过滤,直接去除这些词语的话,会造成语法错误、语句不通顺等问题。因此对于中文冗余口语表达去除的方法需要一种在保留语法结构、句子完整、不影响语义 ...
【技术保护点】
1.一种基于神经网络模型和规则结合的冗余表达去除方法,其特征在于:包括重复表达部分、语气词部分和模型识别部分三部分的冗余去除;其中所述重复表达部分,采用正则表达式替换方法,去除重复表达;所述语气词部分,通过词性标注识别语气词方法,去除语气词;所述模型识别部分,是基于重复表达部分、语气词部分两部分外的冗余,经过冗余词候选识别去除冗余,或者经过冗余词判别后,利用语言模型计算句子的困惑度PPL,进行去除冗余。/n
【技术特征摘要】
1.一种基于神经网络模型和规则结合的冗余表达去除方法,其特征在于:包括重复表达部分、语气词部分和模型识别部分三部分的冗余去除;其中所述重复表达部分,采用正则表达式替换方法,去除重复表达;所述语气词部分,通过词性标注识别语气词方法,去除语气词;所述模型识别部分,是基于重复表达部分、语气词部分两部分外的冗余,经过冗余词候选识别去除冗余,或者经过冗余词判别后,利用语言模型计算句子的困惑度PPL,进行去除冗余。
2.根据权利要求1所述的基于神经网络模型和规则结合的冗余表达去除方法,其特征在于:所述冗余词候选识别,包括冗余词词表识别、基于Bi-LSTM+CRF的序列标注模型识别,两种识别的冗余词不相同。
3.根据权利要求1所述的基于神经网络模型和规则结合的冗余表达去除方法,其特征在于:...
【专利技术属性】
技术研发人员:杨理想,张侨,王银瑞,陈振平,
申请(专利权)人:南京摄星智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。