【技术实现步骤摘要】
文本素材的处理方法、装置、电子设备以及存储介质
[0001]本申请涉及人工智能技术,尤其涉及一种文本素材的处理方法、装置、电子设备以及存储介质。
技术介绍
[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
[0004]在文章创作中,为加强文章的说服力,用户往往会引用一些资料或者示例。为获取资料或者示例,用户需要检索文本素材,自行检索浪费人力成本、浪费写作时间。相关技术中,可以通过用户输入的关键词提供包含该关键词的素材,但素材与用户的写作意图相关性不高,仍需用户自行筛选,影响了写作效率。
[0005]相关技术中,暂无较好的方式为用户提供准确的文本素材。
技术实现思路
[0006]本申请实施例提供一 ...
【技术保护点】
【技术特征摘要】
1.一种文本素材的处理方法,其特征在于,所述方法包括:获取文本素材;对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列;基于所述语义编码序列进行词汇解码处理,得到词汇解码序列,其中,所述词汇解码序列包括至少一个词汇;将所述词汇解码序列中的每个所述词汇组合,得到所述文本素材表征的写作主题信息;获取所述写作主题信息分别与文本素材库中多个参考素材的匹配程度;基于每个所述参考素材对应的匹配程度,从所述多个参考素材中选定至少一个所述参考素材作为写作素材。2.根据权利要求1所述的方法,其特征在于,所述对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列,包括:对所述文本素材进行词汇提取处理,得到所述文本素材中的词汇;对每个所述词汇进行编码处理,得到每个所述词汇的词嵌入向量;将每个所述词嵌入向量进行组合,得到所述文本素材对应的语义编码序列。3.根据权利要求1所述的方法,其特征在于,所述对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列,包括:对所述文本素材进行文本提取处理,得到所述文本素材中的文本内容;从所述文本内容中提取关键句,其中,所述关键句是所述文本内容中与其他句子之间的相似度大于相似度阈值的句子;对每个所述关键句中的每个词汇进行编码处理,得到每个所述词汇的词嵌入向量;将每个所述词嵌入向量进行组合,得到所述文本素材对应的语义编码序列。4.根据权利要求3所述的方法,其特征在于,所述从所述文本内容中提取关键句,包括:获取所述文本内容中的每个句子之间的相似度;针对每个所述句子,获取与所述句子的相似度大于相似度阈值的其他句子的相关句子数量;基于所述相关句子数量对每个所述句子进行降序排序,得到第一降序排序列表;将所述第一降序排序列表中从首位的至少一个所述句子,作为至少一个关键句。5.根据权利要求1所述的方法,其特征在于,所述基于所述语义编码序列进行词汇解码处理,得到词汇解码序列,包括:基于所述语义编码序列与词汇表进行词汇预测处理,得到所述词汇表中每个词汇的出现概率,其中,所述词汇表包括多个词汇、以及每个所述词汇的词嵌入向量;获取出现概率最大的词汇作为所述词汇解码序列中的第一个目标词汇;对所述语义编码序列与所述第一个目标词汇的词嵌入向量进行拼接处理,得到拼接序列;基于所述拼接序列与所述词汇表进行多次词汇预测处理,得到每次词汇预测处理对应的所述词汇表中每个所述词汇的出现概率;其中,每次所述词汇预测处理输入的拼接序列包括以下信息:上一次的词汇预测处理所使用的拼接序列、上一次的词汇预测处理得到的出现概率最大的目标词汇的词嵌入向
量;获取每次所述词汇预测处理的结果中的目标词汇,将每个所述目标词汇组合为所述词汇解码序列。6.根据权利要求1所述的方法,其特征在于,所述获取文本素材,包括:通过以下至少一种方式获取文本素材:将待编辑的当前文档中的至少部分内容作为文本素材;获取所述当前文档之前编辑的历史文档,将所述历史文档中的至少部分内容作为文本素材。7.根据权利要求1所述的方法,其特征在于,所述获取文本素材,包括:获取信息浏览记录,其中,所述信息浏览记录涉及的信息类型包括:网页、社交动态、视频、音频;基于所述信息浏览记录,从浏览的至少一条信息中提取文本素材。8.根据权利要求7所述的方法,其特征在于,所述基于所述信息浏览记录,从浏览的至少一条信息中提取文本素材,包括:从所述信息浏览记录中筛选出满足相关条件的信息,并从满足所述相关条件的信息中提取文本素材;其中,所述相关条件包括:所述信息与所述信息浏览记录中其他信息包括相同的关键词;所述信息与所述信息浏览记录中其他信息的相似度大于第一相似度阈值。9.根据权利要求1所述的方法,其特征在于,所述文本素材库包括:参考素材、参考素材的文本主题信息、以及参考素材与文本主题信息的对应关系;所述获取所述写作主题信息分别与文本素材库中多个参考素材的匹配程度,包括:获取所述文本素材库中的每个所述参考素材对应的文本主题信息;对所述写作主题信息进行特征提取处理,得到第一文本特征;对每个所述文本主题信息进行特征提取处理,得到每个所述文本主题信息的第二...
【专利技术属性】
技术研发人员:姚波怀,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。