一种生成信创产业研究报告的方法、装置和设备及平台制造方法及图纸

技术编号：37460787 阅读：14 留言：0更新日期：2023-05-06 09:33

本发明专利技术公开了一种生成信创产业研究报告的方法、装置和设备及平台，属于数据处理领域；本申请方案将文本中的词通过词表转换得到词向量，然后根据词向量得到第一目标词；在文本中词不在预设词表时，计算该词的语义值，由于语义值表示该词在句子中的语义重要程度，因此当语义值大于或等于预设语义值时，表示该词较为重要，生成摘要时，需要保留该词。这样在出现不在词表中的词时，在生成摘要时能够保留原文本中的重要的词，避免根据摘要生成的信创产业研究报告存在缺失的问题，提高了用户体验。提高了用户体验。提高了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种生成信创产业研究报告的方法、装置和设备及平台

[0001]本专利技术涉及数据处理领域，特别地，涉及一种生成信创产业研究报告的方法、装置和设备及平台。

技术介绍

[0002]信创，即信息技术应用创新产业，它是数据安全、网络安全的基础，也是新基建的重要组成部分，在信创行业涉及领域较广，包括操作系统、数据库、中间件等基础软件以及打印机、外设等硬件；涉及知识较多，包括标准规范、迁移适配、研发测试等知识；对于信创从业者，很难快速的获取想要的信创知识，目前市面上缺少一个面向信创从业者的信创知识库公共平台，为信创从业者提供信创经验知识，进行应用研发、迁移适配，深入掌握和了解信创技术。
[0003]关于知识库的研究很多，但是目前市面上还没有一种针对信创知识推出的知识库公共平台，为信创从业者提供信创经验知识。此外，现有知识库中，中文文本摘要模型性能较差，这样在生成信创产业研究报告时容易丢失某些重要词，影响用户体验。

技术实现思路

[0004]为了克服现有技术的不足，本专利技术提供一种生成信创产业研究报告的方法、装置和设备及平台，以解决现有知识库中，中文文本摘要模型性能较差，这样在生成信创产业研究报告时容易丢失某些重要词，影响用户体验的问题。本专利技术解决其技术问题所采用的技术方案是：第一方面，提供一种生成信创产业研究报告的方法，包括以下步骤：获取待生成摘要的文本；若预设的词表中存在所述文本中的词，则将所述文本中的词根据预设词表转化得到词向量，并根据所述词向量得到第一目标词；若所述词表中不存在所述文本中的词，...

【技术保护点】

【技术特征摘要】
1.一种生成信创产业研究报告的方法，其特征在于，包括以下步骤：获取待生成摘要的文本；若预设的词表中存在所述文本中的词，则将所述文本中的词根据预设词表转化得到词向量，并根据所述词向量得到第一目标词；若所述词表中不存在所述文本中的词，则获取所述词所在句子的句向量，将所述句向量和所述词输入到预训练的语义模型中，得到用于表征所述词在所述句子中的语义重要程度的语义值，所述句向量由所述句子中的词向量按顺序组成；当所述语义值大于或等于预设语义值时，则将所述词作为第二目标词；依据所述文本中词的顺序，将所述第二目标词插入所述第一目标词中生成所述文本的摘要；对所述摘要进行语义分析和标签识别得到分类结果；根据所述分类结果和时间段生成信创产业研究报告。2.根据权利要求1所述的方法，其特征在于，所述根据所述词向量得到第一目标词包括：计算所述词向量与预设目标词库中任一目标词的第一相似度；将所述目标词库中第一相似度最大的目标词作为第一目标词；还包括：计算当前词向量与上一词向量的第二相似度，并获取所述上一词向量在目标词库中对应的上一第一目标词；计算所述当前词向量与所述上一第一目标词的初始第一相似度，将所述初始第一相似度乘以所述第二相似度作为所述当前词向量与所述上一第一目标词的第一相似度；根据所述当前词向量与所述目标词库中所有目标词的第一相似度得到所述当前词向量对应的当前第一目标词。3.根据权利要求1所述的方法，其特征在于：所述获取待生成摘要的文本，包括：使用网络爬虫技术在网络中选取信创领域的网络地址放入抓取队列；从所述抓取队列中依次取出网络地址进行解析，得到网页源码；根据所述网页源码抓取网页中的内容作为待生成摘要的文本。4.根据权利要求1所述的方法，其特征在于：在获取待生成摘要的文本后还包括：若所述文本字数小于第一预设字数，则删除小于预设字数的文本；若所述文本字数大于第二预设字数，则将所文本切割为预设数量的文本；并删除所述文本中的表情符号，所述第二预设字数大于第一预设字数。5.根据权利要求4所述的方法，其特征在于：还包括：将所述文本进行分句处理；对所述分句进行分词，以便于所述文本进行摘要生成。6.根据权利要求5所述的方法，其特征在于：所述对所述分句进行分词，包括：对于每个分句，获取所述分句中任一单字与相邻的预设数量的单字在预设数据中出现的次数；若所述次数小于或等于预设次...

【专利技术属性】
技术研发人员：杨家豪，张洪明，陈小鹏，黄平，王桂平，
申请(专利权)人：北京太极信息系统技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人