The invention provides a text audio automatic text summarization method based on improved PageRank algorithm including the audio transcribed into text, text similarity calculation and transcription of the original text; the importance of computing transcripts and the original text of the sentence according to the similarity by using the improved PageRank algorithm; and according to the importance of the sentence, to generate text summarization. Guide to sort through the improved PageRank algorithm, modified the similarity matrix between cross modal sentences, making two semantic from different modes between the same sentence link from the original single variable, realized the original text and transcribed text sentence semantics at the same time, the output in accordance with the original text, the get important more information at the same time, to avoid the transcription brought grammatical mistakes and unfluent problems, to improve the readability of the text audio automatic text summarization.
【技术实现步骤摘要】
基于改进的PageRank算法的文本-音频自动文摘方法
本专利技术属于自然语言处理和语音处理
,涉及一种基于改进的PageRank算法的文本-音频自动文摘方法。
技术介绍
随着网络时代到来,多媒体信息包括文本文档、音频等信息随处可见。有效地分析相关的文本与音频信息,并尽可能多的获取其中的重要信息,以文本摘要的形式呈现给用户,有助于帮助用户仅通过文本摘要便可获取关键信息,实现便捷、高效的信息获取。对于一系列和某一信息事件相关的文本与音频,目前常见做法是首先通过自动语音识别系统将音频转录为文本,然后将其与原始文本文档一起,通过传统的多文档自动摘要方法,生成文本摘要。上述方法相较单独从原始文本获取信息的方式来说,转录了语音信息中的相关信息,且这些信息不会被原始文本文档完全覆盖,有助于提高获取的信息量,然而自动语音识别存在很多错误,其生成的转录文本的通顺性较差、存在较多语法错误,因而可读性较差。因此在尽可能保证获取较多重要信息量的同时,改善现有的文本-音频自动文摘可读性差的情况,是目前需要解决的技术问题。
技术实现思路
(一)要解决的技术问题本专利技术提供了一种基于改进 ...
【技术保护点】
一种基于改进的PageRank算法的文本‑音频自动文摘方法,其特征在于,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。
【技术特征摘要】
1.一种基于改进的PageRank算法的文本-音频自动文摘方法,其特征在于,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。2.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,改进的PageRank算法的公式如下:其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;其中,改进的PageRank算法中Mij的定义如下:定义跨模态句子之间的相似度矩阵为或其中,表示cj传递给ci的得分权重矩阵,表示ci传递给cj的得分权重矩阵;矩阵中每个参数的取值Mij或Mji为计算出来的ci与cj两个句子的相似度,对于语义相同的句对,保持不变;对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变。3.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性包括:对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;定义改进的PageRank算法中两个模态的句子之间相似度矩阵或矩阵中每个值为Mij或Mji,表示ci与cj的相似度;以及利用改进的PageRank算法来计算每个句子的重要性得分,进行迭代递归,直到得分稳定为止。4.根据权利要求3所述的文本-音频自动文摘方法,其特征在于,所述设定阈值通过在MSR语料上测试获得。5.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述根据句子的重要性,生成文本摘要包括:定义...
【专利技术属性】
技术研发人员:张家俊,李浩然,周玉,宗成庆,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。