文本素材的处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:39241730 阅读:10 留言:0更新日期:2023-10-30 11:54
本申请提供了一种文本素材的处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质;涉及人工智能,方法包括:获取文本素材;对文本素材进行编码处理,得到文本素材对应的语义编码序列;基于语义编码序列进行词汇解码处理,得到词汇解码序列,其中,词汇解码序列包括至少一个词汇;将词汇解码序列中的每个词汇组合,得到文本素材表征的写作主题信息;获取写作主题信息分别与文本素材库中多个参考素材的匹配程度;基于每个参考素材对应的匹配程度,从多个参考素材中选定至少一个参考素材作为写作素材。通过本申请,能够提升获取推荐的写作素材的准确性。荐的写作素材的准确性。荐的写作素材的准确性。

【技术实现步骤摘要】
文本素材的处理方法、装置、电子设备以及存储介质


[0001]本申请涉及人工智能技术,尤其涉及一种文本素材的处理方法、装置、电子设备以及存储介质。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
[0004]在文章创作中,为加强文章的说服力,用户往往会引用一些资料或者示例。为获取资料或者示例,用户需要检索文本素材,自行检索浪费人力成本、浪费写作时间。相关技术中,可以通过用户输入的关键词提供包含该关键词的素材,但素材与用户的写作意图相关性不高,仍需用户自行筛选,影响了写作效率。
[0005]相关技术中,暂无较好的方式为用户提供准确的文本素材。

技术实现思路

[0006]本申请实施例提供一种文本素材的处理方法、装置、电子设备、计算机存储介质以及计算机程序产品,能够提升获取推荐的写作素材的准确性。
[0007]本申请实施例的技术方案是这样实现的:
[0008]本申请实施例提供一种文本素材的处理方法,所述方法包括:
[0009]获取文本素材;
[0010]对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列;
[0011]基于所述语义编码序列进行词汇解码处理,得到词汇解码序列,其中,所述词汇解码序列包括至少一个词汇;
[0012]将所述词汇解码序列中的每个所述词汇组合,得到所述文本素材表征的写作主题信息;
[0013]获取所述写作主题信息分别与文本素材库中多个参考素材的匹配程度;
[0014]基于每个所述参考素材对应的匹配程度,从所述多个参考素材中选定至少一个所述参考素材作为写作素材。
[0015]本申请实施例提供一种文本素材的处理装置,包括:
[0016]素材获取模块,配置为获取文本素材;
[0017]编码模块,配置为对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列;
[0018]解码模块,配置为基于所述语义编码序列进行词汇解码处理,得到词汇解码序列,其中,所述词汇解码序列包括至少一个词汇;
[0019]所述解码模块,还配置为将所述词汇解码序列中的每个所述词汇组合,得到所述文本素材表征的写作主题信息;
[0020]素材推荐模块,配置为获取所述写作主题信息分别与文本素材库中多个参考素材的匹配程度;
[0021]所述素材推荐模块,还配置为基于每个所述参考素材对应的匹配程度,从所述多个参考素材中选定至少一个所述参考素材作为写作素材。
[0022]本申请实施例提供一种电子设备,所述电子设备包括:
[0023]存储器,用于存储计算机可执行指令;
[0024]处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的文本素材的处理方法。
[0025]本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的文本素材的处理方法。
[0026]本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的文本素材的处理方法。
[0027]本申请实施例具有以下有益效果:
[0028]通过对文本素材进行编码处理、词汇预测处理,获取文本素材对应的写作主题信息,写作主题信息可以表征写作意图,提升了获取写作素材的准确性;将写作主题信息与写作素材库中的文本素材进行匹配,获取至少一个文本素材作为写作素材,通过匹配主题信息的方式提升了获取写作素材的准确性;通过获取写作主题信息,避免了基于整篇的文本素材进行素材检索,提升了获取写作素材的效率,节约了获取写作素材所需的计算资源。
附图说明
[0029]图1是本申请实施例提供的文本素材的处理方法的应用模式示意图;
[0030]图2A是本申请实施例提供的电子设备的结构示意图;
[0031]图2B是本申请实施例提供的主题预测模型的结构示意图;
[0032]图3A至图3G是本申请实施例提供的文本素材的处理方法的流程示意图;
[0033]图4是本申请实施例提供的终端设备的显示界面的第一示意图;
[0034]图5是本申请实施例提供的终端设备的显示界面的第二示意图;
[0035]图6是本申请实施例提供的终端设备的显示界面的第三示意图;
[0036]图7是本申请实施例提供的文本素材的处理方法的流程示意图;
[0037]图8是本申请实施例提供的文本素材的处理方法的交互流程示意图。
具体实施方式
[0038]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进
一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0039]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0040]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0041]需要指出,在本申请实施例中,涉及到用户信息、用户反馈数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0042]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0043]对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
[0044]1)写作,人运用语言文字符号以记述的方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本素材的处理方法,其特征在于,所述方法包括:获取文本素材;对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列;基于所述语义编码序列进行词汇解码处理,得到词汇解码序列,其中,所述词汇解码序列包括至少一个词汇;将所述词汇解码序列中的每个所述词汇组合,得到所述文本素材表征的写作主题信息;获取所述写作主题信息分别与文本素材库中多个参考素材的匹配程度;基于每个所述参考素材对应的匹配程度,从所述多个参考素材中选定至少一个所述参考素材作为写作素材。2.根据权利要求1所述的方法,其特征在于,所述对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列,包括:对所述文本素材进行词汇提取处理,得到所述文本素材中的词汇;对每个所述词汇进行编码处理,得到每个所述词汇的词嵌入向量;将每个所述词嵌入向量进行组合,得到所述文本素材对应的语义编码序列。3.根据权利要求1所述的方法,其特征在于,所述对所述文本素材进行编码处理,得到所述文本素材对应的语义编码序列,包括:对所述文本素材进行文本提取处理,得到所述文本素材中的文本内容;从所述文本内容中提取关键句,其中,所述关键句是所述文本内容中与其他句子之间的相似度大于相似度阈值的句子;对每个所述关键句中的每个词汇进行编码处理,得到每个所述词汇的词嵌入向量;将每个所述词嵌入向量进行组合,得到所述文本素材对应的语义编码序列。4.根据权利要求3所述的方法,其特征在于,所述从所述文本内容中提取关键句,包括:获取所述文本内容中的每个句子之间的相似度;针对每个所述句子,获取与所述句子的相似度大于相似度阈值的其他句子的相关句子数量;基于所述相关句子数量对每个所述句子进行降序排序,得到第一降序排序列表;将所述第一降序排序列表中从首位的至少一个所述句子,作为至少一个关键句。5.根据权利要求1所述的方法,其特征在于,所述基于所述语义编码序列进行词汇解码处理,得到词汇解码序列,包括:基于所述语义编码序列与词汇表进行词汇预测处理,得到所述词汇表中每个词汇的出现概率,其中,所述词汇表包括多个词汇、以及每个所述词汇的词嵌入向量;获取出现概率最大的词汇作为所述词汇解码序列中的第一个目标词汇;对所述语义编码序列与所述第一个目标词汇的词嵌入向量进行拼接处理,得到拼接序列;基于所述拼接序列与所述词汇表进行多次词汇预测处理,得到每次词汇预测处理对应的所述词汇表中每个所述词汇的出现概率;其中,每次所述词汇预测处理输入的拼接序列包括以下信息:上一次的词汇预测处理所使用的拼接序列、上一次的词汇预测处理得到的出现概率最大的目标词汇的词嵌入向
量;获取每次所述词汇预测处理的结果中的目标词汇,将每个所述目标词汇组合为所述词汇解码序列。6.根据权利要求1所述的方法,其特征在于,所述获取文本素材,包括:通过以下至少一种方式获取文本素材:将待编辑的当前文档中的至少部分内容作为文本素材;获取所述当前文档之前编辑的历史文档,将所述历史文档中的至少部分内容作为文本素材。7.根据权利要求1所述的方法,其特征在于,所述获取文本素材,包括:获取信息浏览记录,其中,所述信息浏览记录涉及的信息类型包括:网页、社交动态、视频、音频;基于所述信息浏览记录,从浏览的至少一条信息中提取文本素材。8.根据权利要求7所述的方法,其特征在于,所述基于所述信息浏览记录,从浏览的至少一条信息中提取文本素材,包括:从所述信息浏览记录中筛选出满足相关条件的信息,并从满足所述相关条件的信息中提取文本素材;其中,所述相关条件包括:所述信息与所述信息浏览记录中其他信息包括相同的关键词;所述信息与所述信息浏览记录中其他信息的相似度大于第一相似度阈值。9.根据权利要求1所述的方法,其特征在于,所述文本素材库包括:参考素材、参考素材的文本主题信息、以及参考素材与文本主题信息的对应关系;所述获取所述写作主题信息分别与文本素材库中多个参考素材的匹配程度,包括:获取所述文本素材库中的每个所述参考素材对应的文本主题信息;对所述写作主题信息进行特征提取处理,得到第一文本特征;对每个所述文本主题信息进行特征提取处理,得到每个所述文本主题信息的第二...

【专利技术属性】
技术研发人员:姚波怀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1