基于语音识别的信息重点记录方法技术

技术编号：29156660 阅读：25 留言：0更新日期：2021-07-06 22:56

本发明专利技术涉及语音识别技术领域，具体涉及一种基于语音识别的信息重点记录方法，包括：S1、收集文本数据，并将文本数据标注到分类要素文本库中；S2、采集谈话语音，将谈话语音转换为文字段落，并对文字段落进行分词得到若干个词组，记为第一词组；S3、将第一词组与分类要素文本库进行比对，使用TF‑IDF算法确定属于对应的分类要素的第一词组，记为第二词组；S4、对谈话语音进行声学分析，得到第一分类特征；并对文字段落进行内容分析，得到第二分类特征；S5、从第二词组中提取符合第一分类特征和第二分类特征的词组，记为第三词组；S6、汇集第三词组，得到谈话语音的重点内容。本发明专利技术解决了现有技术不能有效地对笔录文档的重点内容进行提取的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音识别的信息重点记录方法
本专利技术涉及语音识别
，具体涉及一种基于语音识别的信息重点记录方法。
技术介绍
随着语音识别技术的发展，在法庭庭审或会议过程中，逐步采用语音识别技术将声音转换为文字，同时将文字实时地分角色插入笔录文档，从而减轻了庭审或会议记录人员的工作量。为了便于办案人员阅读和理解，有必要对笔录文档中的重点内容进行提取、记录以及分类。比如说，中国专利CN110188199A公开了一种用于智能语音交互的文本分类方法，包括步骤：获取具有标签的训练文本集；对每个标签下的训练文本进行分词处理，得到词序列；对词序列进行词频和逆文本频率统计，得到每个词对应的TF-IDF值；将TF-IDF值大于预定阈值的词作为该标签下的特征词，以生成每个标签对应的特征词典；基于特征词典对训练文本集进行过滤，以得到训练文本集对应的特征矩阵；以及将特征矩阵输入预先训练的文本分类模型中进行训练，以便基于训练后的文本分类模型对语音文本进行分类。在上述技术方案中，能够提高文本分类的效率和准确性，以及提高智能语音交互的自动化和...

【技术保护点】
1.基于语音识别的信息重点记录方法，其特征在于，包括：/nS1、收集文本数据，并将文本数据标注到分类要素文本库中；/nS2、采集谈话语音，将谈话语音转换为文字段落，并对文字段落进行分词得到若干个词组，记为第一词组；/nS3、将第一词组与分类要素文本库进行比对，使用TF-IDF算法确定属于对应的分类要素的第一词组，记为第二词组；/nS4、对谈话语音进行声学分析，得到第一分类特征；并对文字段落进行内容分析，得到第二分类特征；/nS5、从第二词组中提取符合第一分类特征和第二分类特征的词组，记为第三词组；/nS6、汇集第三词组，得到谈话语音的重点内容。/n

【技术特征摘要】
1.基于语音识别的信息重点记录方法，其特征在于，包括：
S1、收集文本数据，并将文本数据标注到分类要素文本库中；
S2、采集谈话语音，将谈话语音转换为文字段落，并对文字段落进行分词得到若干个词组，记为第一词组；
S3、将第一词组与分类要素文本库进行比对，使用TF-IDF算法确定属于对应的分类要素的第一词组，记为第二词组；
S4、对谈话语音进行声学分析，得到第一分类特征；并对文字段落进行内容分析，得到第二分类特征；
S5、从第二词组中提取符合第一分类特征和第二分类特征的词组，记为第三词组；
S6、汇集第三词组，得到谈话语音的重点内容。

2.如权利要求1所述的基于语音识别的信息重点记录方法，其特征在于，S1中，分类要素包括人物、地点、事件、物品、组织、时间和空间。

3.如权利要求2所述的基于语音识别的信息重点记录方法，其特征在于，S3中，使用TF-IDF算法确定属于对应的分类要素的第一词组，具体如下：将第一词组通过TF-IDF算法与分类要素文本库进行对比，如果所对比的第一词组在某个分类要素文本库中的计算值高于预设阈值，判定所对比的第一词组属于该分类要...

【专利技术属性】
技术研发人员：王政，熊倩，王宇骁，王学春，苏远超，
申请(专利权)人：重庆风云际会智慧科技有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人