文本内容提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:22075774 阅读:26 留言:0更新日期:2019-09-12 14:09
一种基于智能决策的文本内容提取方法、装置、电子设备及存储介质,所述方法包括获取指令时获取语料训练集;对语料训练集进行预处理以得到词向量集和笔画向量集;问答网络模型根据词向量集和笔画向量集生成第一输出参数和第二输出参数,根据第一输出参数和第二输出参数生成第一编码参数和第二编码参数,根据第一编码参数和第二编码参数生成第一矩阵和第二矩阵,根据第一矩阵和第二矩阵生成模型编码参数,根据模型编码参数输出问题对应的答案在文本内的起始位置和结束位置。本发明专利技术文本内容提取方法利用问答网络模型获取问题对应的答案在文本内的起始位置和结束位置,实现了智能语义理解,并提高了模型的训练速度。

Text Content Extraction Method, Device, Electronic Equipment and Storage Media

【技术实现步骤摘要】
文本内容提取方法、装置、电子设备及存储介质
本专利技术主要涉及通信
,具体地说,涉及一种文本内容提取方法、装置、电子设备及存储介质。
技术介绍
随着互联网的飞速发展,人工智能广泛应用于各个领域,用于实现智能问答,例如智能客服系统以及网上教学系统等。现有智能问答中一般通过语义分析提取关键词、关键词匹配以及数据库内提取数据作为输出答案。上述智能问答系统仅为简单的搜索功能,无法实现语句理解,智能化程度较低。
技术实现思路
本专利技术的主要目的是提供一种文本内容提取方法、装置、电子设备及存储介质,旨在解决现有技术中无法实现语句理解的问题。为实现上述目的,本专利技术提供一种文本内容提取方法,所述文本内容提取方法包括以下步骤:在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题;在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;在接收到第一处理指令时,所述本文档来自技高网...

【技术保护点】
1.一种文本内容提取方法,其特征在于,所述文本内容提取方法包括:在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题;在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参...

【技术特征摘要】
1.一种文本内容提取方法,其特征在于,所述文本内容提取方法包括:在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题;在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数;在接收到第三处理指令时,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵;在接收到第四处理指令时,所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数;在接收到输出指令时,所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。2.如权利要求1所述的文本内容提取方法,其特征在于,所述预处理为将所述文本和所述问题中的异常字符、格式信息、附加元数据进行删除,对所述文本和所述问题进行编码转换,并使用Python的SimHash工具进行去重操作。3.如权利要求1至2中任意一项所述的文本内容提取方法,其特征在于,所述对所述语料训练集进行预处理以得到第一向量集和第二向量集的步骤,包括:将所述文本和所述问题进行分词得到文本数据以及问题数据;通过查找词向量表获取所述文本数据以及所述问题数据对应的文本词向量和问题词向量作为所述第一向量集;将所述文本和所述问题输入至笔画向量模型;所述笔画向量模型根据所述文本和所述问题输出文本笔画向量和问题笔画向量作为所述第二向量集。4.如权利要求3所述的文本内容提取方法,其特征在于,所述笔画向量模型从下至上依次包括卷积层以及highwaynetwork层,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数的步骤,包括:根据所述第二向量集构造笔画向量矩阵;所述卷积层将所述笔画向量矩阵进行卷积得到中间向量;将所述中间向量与所述第一向量集进行拼接得到拼接向量;所述拼接向量经两层所述highwaynetwork和最大池化后输出所述第一输出参数和所述第二输出参数。5....

【专利技术属性】
技术研发人员:何麒徐国强邱寒
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1