识别文本展示方法及装置制造方法及图纸

技术编号：18940459 阅读：30 留言：0更新日期：2018-09-15 11:03

本发明专利技术实施例提供一种识别文本展示方法及装置，属于语音识别和自然语言处理技术领域。方法包括：获取识别文本中每一分词的分类特征；将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时，还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识别文本中的异常情况，从而承载发言人发言时的情感色彩和/或发言时的语义。因此，满足了发言人个性化展示其发言的需求。

Identification text display method and device

The embodiment of the invention provides a text display method and a device for recognition, belonging to the technical field of speech recognition and natural language processing. The methods include: acquiring the classification features of each word in the recognition text; inputting the classification features of each word into the classification model, outputting the classification markers of each word, which are used to indicate the importance of the segmentation in the recognition text and/or the abnormal situation in the recognition text; and according to the classification markers of each word, Determine how each participle is displayed and display each participle in the recognized text based on the presentation of each participle. The importance of word segmentation in text recognition and/or the abnormal situation in text recognition can be reflected by the way of display while the text content in the text is displayed, so as to carry the emotional color and/or the semantic meaning when the speaker speaks. Therefore, it meets the needs of speakers to personalize their speeches.

全部详细技术资料下载

【技术实现步骤摘要】
识别文本展示方法及装置
本专利技术实施例涉及语音识别和自然语言处理
，更具体地，涉及一种识别文本展示方法及装置。
技术介绍
近年来，随着语音技术的飞速发展，语音识别技术凭借其智能、高效和人性化的优势，被广泛应用于生产、生活的各个领域，越来越受到大众的欢迎。目前的语音识别技术，其目标是将语音数据转换为文本进行展示，一般通篇采用同一种格式，形式显得单一刻板。通过现有技术获取的识别文本，仅通过固定的展现形式，无法直观地为用户展现语音数据的关键信息，缺乏针对语音数据的个性化展示形式。因此，如何对识别文本进行个性化展示，仍是目前业界亟待解决的课题。
技术实现思路
为了解决上述问题，本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的一种识别文本展示方法及装置。根据本专利技术实施例的第一方面，提供了一种识别文本展示方法，该方法包括：获取识别文本中每一分词的分类特征，识别文本是对语音数据进行语音识别后得到的；将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。本专利技术实施例提供的方法，通过获取识别文本中每一分词的分类特征，将每一分词的分类特征输入至分类模型，输出每一分词的分类标记。根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时，还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识...

【技术保护点】
1.一种识别文本展示方法，其特征在于，包括：获取识别文本中每一分词的分类特征，所述识别文本是对语音数据进行语音识别后得到的；将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，所述分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对所述识别文本中每一分词进行展示。

【技术特征摘要】
1.一种识别文本展示方法，其特征在于，包括：获取识别文本中每一分词的分类特征，所述识别文本是对语音数据进行语音识别后得到的；将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，所述分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对所述识别文本中每一分词进行展示。2.根据权利要求1所述的方法，其特征在于，所述分类特征包括声学分类特征和/或语义分类特征。3.根据权利要求2所述的方法，其特征在于，对于所述识别文本中的任一分词，所述任一分词的声学分类特征至少包括以下四种信息中的任意一种，所述四种信息分别为所述任一分词在所述语音数据中对应的语音段能量、所述任一分词在所述语音数据中对应的语音段时长、所述任一分词在语音数据中对应的语音段与所述任一分词的前一个分词在语音数据中对应的语音段之间的时间间隔，以及所述任一分词在语音数据中对应的语音段与所述任一分词的后一个分词在语音数据中对应的语音段之间的时间间隔；所述任一分词的语义分类特征至少包括以下八种信息中的任意一种，所述八种信息分别为所述任一分词的词向量、所述任一分词的情感极性、所述任一分词的词性、所述任一分词在所述识别文本中出现的频率、所述任一分词的关键词标识、所述任一分词在文档分页对应的文本中出现的频率、所述任一分词在所述文档分页中的显示字体大小，以及所述任一分词的特殊符号标识；其中，所述文档分页对应的文本包含所述识别文本对应的文本内容。4.根据权利要求1所述的方法，其特征在于，所述将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，包括：对于所述识别文本中的任一分词，将所述任一分词的分类特征输入至所述分类模型，输出所述任一分词的分类标记；或者，将所述任一分词的分类特征、所述任一分词的前一个分词对应的分类特征和所述任一分词的后一个分词对应的分类特征同时输入至所述分类模型，输出所述任一分词的分类标记。5.根据权利要求1所述的方法，其特征在于，所述基于每一分词的展示方式对所述识别文本中每一分词进行展示之前，还包括：基于预设表达规则，对所述识别文本中分词的表达形式进行规...

【专利技术属性】
技术研发人员：胡尹，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人