一种用于智能生成类文本的业务热词识别转换的方法技术

技术编号:25690829 阅读:43 留言:0更新日期:2020-09-18 21:02
本发明专利技术公开了一种用于智能生成类文本的业务热词识别转换的方法,收集语料并构建业务热词库;将智能生成得到的文本按业务热词的长度进行划分,并分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;对保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;使用语料训练统计语言模型,将保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;根据语言模型打分结果,判定替换是否保留。可以快速和智能地为智能生成的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。

【技术实现步骤摘要】
一种用于智能生成类文本的业务热词识别转换的方法
本专利技术涉及自然语言处理领域,特别是指一种用于智能生成类文本的业务热词识别转换的方法。
技术介绍
目前机器学习与深度学习技术发展迅猛,涌现出许多的网络模型架构,可以用于智能语音识别、智能图像识别等任务,并逐渐走向落地应用。但此类机器学习与深度学习模型的学习成本较大,需要经过大量的数据经过较长时间的训练才能得到模型,模型的更新同样也需要经过重新训练或者迁移学习的方法,时间成本和劳动力成本都比较较大。而业务热词、流行热词的更新较快,仅为满足热词的准确识别而从新训练模型不切实际,直接进行相似度匹配替换又往往容易产生错误替换的情况。
技术实现思路
本专利技术提出一种用于智能生成类文本的业务热词识别转换的方法,可以较为快速和智能地为智能生成后得到的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习,其学习成本低,可以快速实现更新。本专利技术的技术方案是这样实现的:>一种用于智能生成类本文档来自技高网...

【技术保护点】
1.一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,包括以下步骤:/nS1,收集语料,并构建业务热词库;/nS2,将智能生成得到的文本,按热词库中业务热词的长度进行划分,并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;/nS3,对S2中保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;/nS4,使用S1所述的语料训练统计语言模型,将S3保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;/nS5,根据S4中所述的语言模型打分结果,判定S4中替换...

【技术特征摘要】
1.一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,包括以下步骤:
S1,收集语料,并构建业务热词库;
S2,将智能生成得到的文本,按热词库中业务热词的长度进行划分,并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;
S3,对S2中保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;
S4,使用S1所述的语料训练统计语言模型,将S3保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;
S5,根据S4中所述的语言模型打分结果,判定S4中替换是否保留。


2.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S1中收集语料具体包括以下步骤:
S111,收集通用类语料,并进行数据清洗;
S112,收集业务场景下的语料,并进行数据清洗;
S113,将通用类语料与业务场景下的语料按一定比例进行合并。


3.根据权利要求2所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S1中构建业务热词库具体包括以下步骤:
S121,利用文字统计工具对收集到的业务场景下的语料进行不同长度词的词频统计,保留词频较高的词作为候选词,去除常用的非热词词汇,并筛选出业务场景下的热词加入热词库中;
S122,结合智能生成类的文本特点,将容易生成错误的专有名词加入热词库中;
S123,将热词库中热词以词的长度进行排序,热词长度长的排在前面,短的排在后面;对于长度一致的热词,将统计词频高的热词排在前面,统计词频低的排在后面。


4.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S2和S3中相似度匹配计算指...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广州多益网络股份有限公司广东利为网络科技有限公司多益网络有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1