This application discloses a text summary generation method, which includes: the probability of acquiring common generated words and domain words based on the content of the input text and business information of the corresponding field of the input text; and the probability of generating the corresponding summary information of the input text based on the probability of the common generated words and domain words and the corresponding vocabulary. The application also discloses a text summary generation method, which includes: real-time acquisition of the probability of common generated words, duplicated words and domain words corresponding to the input text based on the encoded input text, and acquisition of summary information based on the probability of the three and the corresponding vocabulary. The method of this application can combine the relevant business areas, incorporate relevant business information into the field based on the corresponding domain database, extract summary words, and summarize more accurately the relevant business process summary information; at the same time, integrate multiple mechanisms to accurately identify key information, improve fluency and avoid information redundancy.
【技术实现步骤摘要】
一种文本摘要生成方法
本专利技术涉及自然语言处理和人机互助
,特别是涉及一种文本摘要生成方法。
技术介绍
随着人工智能的迅猛发展,机器辅助人去完成任务越来越显得必要。各行各业都需要记录过往信息,形成总结,文章摘要技术就显得尤为必要。其中,理解文章意图、获取关键信息最为关键。以公共服务业为代表。例如运营商,人们会咨询各种电信问题,而工作人员会对每天解答的问题形成记录,对于不能及时解决的便会填写工单提交下去。此技术将辅助工作人员完成工单的填写,减少其工作量。还例如,在基于通信网络的聊天工具或者智能语音服务中,提供基于互联网客户端的会话服务,包括语音和文字传输。目前聊天工具大多进行简单的记录管理功能,不能提供精准的闲聊和秘书服务,主要问题在于不能对于获取信息进行准确提取其摘要信息。现有的技术方案在自动文摘的技术框架内,主要分为抽取式和概括式两类。其中,抽取式的核心思想来自于一个假设,即一个文档的核心思想来自这个文档中的一句或者几句话。因此,抽取式的摘要任务就转化为对这篇文档句子重要程度的排序。另外,概括式要求系统理解文档所表达的意思,然后用可读性强的人类语言将其简练地总结出来。目前概括式常见的方法包括基于循环神经网络RNN的编码译码(encoder-decoder)模型。对于一个普通文档不可避免的存在信息交叠和信息差异。目前技术提取出来的摘要流畅度不高,缺少可读性。而且对于一个文章中存在多意图的现象,会很容易出现信息冗余和总结出非关键信息等缺点。如何准确识别关键信息、提高流畅度并且避免信息冗余是文本自动摘要技术的主要难点和问题。而对于相关领域的摘要,如何纳 ...
【技术保护点】
1.一种文本摘要生成方法,包括:基于输入文本和输入文本对应领域的业务信息,获取普通生成词和领域词的概率;基于所述普通生成词和领域词的概率以及对应词汇,生成输入文本对应的摘要信息。
【技术特征摘要】
1.一种文本摘要生成方法,包括:基于输入文本和输入文本对应领域的业务信息,获取普通生成词和领域词的概率;基于所述普通生成词和领域词的概率以及对应词汇,生成输入文本对应的摘要信息。2.根据权利要求1所述的方法,还包括:根据输入文本,识别输入文本的所属领域,获取对应领域库内的业务信息。3.根据权利要求2所述的方法,所述识别输入文本的所属领域步骤进一步包括:将输入文本向量化,通过单层多通道卷积提取文本特征,将该文本特征通过池化层进行压缩得到输入文本对应的隐层特征;将该隐层特征通过多层感知机转换为每个领域的概率值,选取所述概率值最大的领域作为该输入文本的所属领域。4.根据权利要求1所述的方法,其中,所述生成输入文本对应的摘要信息的步骤进一步包括:根据输入文本获取复制词的概率,基于普通生成词、复制词和领域词的概率以及对应词汇来获取摘要信息。5.根据权利要求1所述的方法,其中,所述生成输入文本对应的摘要信息的步骤进一步包括:将输入文本向量化为输入向量,通过多头注意力机制丰富所述输入向量的向量信息,再基于全连接层构建向量矩阵。6.根据权利要求1所述的方法,其中,所述获取领域词的概率的步骤进一步包括:将领域库的业务信息与当前输入文本对应的编解码信息联合,拼接后做两层非线性变换,以降低维度;获取联合后信息与领域库中的对应业务信息的相似度,作为该领域库中业务信息对应的所述领域词的概率。7.根据权利要求4所述的方法,其中,所述基于普通生成词、复制词和领域词的...
【专利技术属性】
技术研发人员:陈翰卿,宋时德,胡加学,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。