一种基于特征拆分和替代的专利内容优化方法技术

技术编号:39064899 阅读:13 留言:0更新日期:2023-10-12 19:57
一种基于特征拆分和替代的专利内容优化方法,涉及专利内容优化领域;其中,方法包括:获取待优化的第一专利文本;对第一专利文本进行分词,得到多个文本特征词,多个文本特征词包含第一特征词;在特征树词典中检索是否存在文本特征树,文本特征树为第一特征词对应的特征树;若特征树词典中存在文本特征树,则用第二特征词替换第一特征词,得到第二专利文本,第二特征词为文本特征树中的词;利用预设模型计算第一文本流畅度与第二文本流畅度;比较第一文本流畅度与第二文本流畅度的大小;若第二文本流畅度大于第一文本流畅度,则将第二专利文本作为优化文本。实施本申请提供的技术方案,能解决优化文本内容效率较低的问题。能解决优化文本内容效率较低的问题。能解决优化文本内容效率较低的问题。

【技术实现步骤摘要】
一种基于特征拆分和替代的专利内容优化方法


[0001]本申请涉及专利内容优化领域,具体涉及一种基于特征拆分和替代的专利内容优化方法。

技术介绍

[0002]如今,越来越多的企业进行专利申请,以保护企业的知识产权以及增加竞争力。
[0003]在申请文件的撰写过程中,因撰写篇幅较长,专利文本可能会出现表达内容不准确、用词不当等问题。而若要对字数较多的专利文本进行上述问题的内容优化,工作人员需要逐字浏览全文,浏览的同时需要思考用词或者表达是否存在问题,在判断出有问题后还需要思考如何进行优化修改;这个过程需要工作人员花费较多精力与时间,优化步骤较为繁琐,即人工优化文本内容效率较低。
[0004]因此,亟需一种基于特征拆分和替代的专利内容优化方法。

技术实现思路

[0005]本申请提供了一种基于特征拆分和替代的专利内容优化方法,能解决优化文本内容效率较低的问题。
[0006]本申请在第一方面提供了一种基于特征拆分和替代的专利内容优化方法,应用于服务器,方法包括:获取待优化的第一专利文本;对第一专利文本进行分词,得到多个文本特征词,多个文本特征词包含第一特征词;在特征树词典中检索是否存在文本特征树,文本特征树为第一特征词对应的特征树;若特征树词典中存在文本特征树,则用第二特征词替换第一特征词,得到第二专利文本,第二特征词为文本特征树中的词;利用预设模型计算第一文本流畅度与第二文本流畅度,第一文本流畅度为第一专利文本的流畅度,第二文本流畅度为第二专利文本的流畅度;比较第一文本流畅度与第二文本流畅度的大小;若第二文本流畅度大于第一文本流畅度,则将第二专利文本作为优化文本。
[0007]通过采用上述技术方案,服务器将待优化专利文本中的多个特征词进行随机替换,得到多个新文本,然后用预设模型筛选出流畅度比原文本更高的新文本,并将筛选出来的新文本作为优化文本,以完成对原文本的优化;在这个过程中,服务器能够自动获取特征词相关的词并进行随机替换,不需要工作人员思考选择什么样的词,为保证特征词被替换后文本顺畅度正常,用预设模型筛选出流畅度较高的新文本;本方案在进行词替换时,可以对待优化文本的多个位置的特征词进行随机替换,不需要工作人员去浏览并检索全文中有问题的表达,节省了检索过程所花费的时间;因此该方法提高了优化文本内容效率;同时,该方法可以对专利中的特征词进行替换,因此也可以用于辅助工作人员进行专利规避。
[0008]可选的,将第二专利文本作为第一优化文本之后,还包括:获取第三专利文本,第三专利文本为用第三特征词替换第一特征词后得到的文本,文本特征树包括第三特征词;利用预设模型计算第三专利文本的第三文本流畅度;比较第二文本流畅度与第三文本流畅度的大小;若第二流畅度小于第三文本流畅度,则将第三专利文本作为优化文本。
[0009]通过采用上述技术方案,服务器根据预设模型计算每个替换了特征词后的新文本的流畅度,根据流畅度的数值大小,选取流畅度最高的新文本作为优化文本;该方案能够帮助工作人员从数量较多的新文本中自动选取流畅度最优的文本,节省了工作人员的选取时间,即提高了优化文本内容的效率。
[0010]可选的,比较第一文本流畅度与第二文本流畅度的大小,具体包括:利用预设相似度模型计算语义相似度,语义相似度为第二专利文本与第一专利文本的语义相似度;判断语义相似度是否大于或等于预设相似度阈值;若语义相似度大于或等于预设相似度阈值,则比较第一文本流畅度与第二文本流畅度的大小。
[0011]通过采用上述技术方案,服务器通过预设相似度模型计算每个替换了特征词后的新文本与原文本的相似度,然后根据预设相似度阈值筛选保留语义相似度符合预设要求的新文本,以使最终选取的优化文本的语义与原文本较为相似。
[0012]可选的,在特征树词典中检索是否存在文本特征树,文本特征树为第一特征词的特征树之前,方法还包括构建特征树词典,构建特征树词典具体包括:获取多个特征词,多个特征词包括第一特征词;构建第一特征词的文本特征树;构建第一特征词与文本特征树的对应关系;将第一特征词、文本特征树以及对应关系存储于特征树词典。
[0013]通过采用上述技术方案,服务器能够获取多个特征词,并为每个特征词构建一颗文本特征树,从而构建特征树词典,以供后续步骤中直接使用特征树词典里的特征树。
[0014]可选的,构建第一特征词的文本特征树,具体包括:通过wordnet词汇网络得到第一特征词的上位词、下位词以及同位词;对第一特征词的上位词、下位词以及同位词进行去重;将上位词置于文本特征树的第一层级节点,第一层级节点与第二层级节点相连;将同位词置于文本特征树的第二层级节点;将下位词置于文本特征树的第三层级节点,第二层级节点与第三层级节点相连,以构建文本特征树。
[0015]通过采用上述技术方案,服务器通过wordnet词汇网络获得与特征词相关的词,并根据特征词的上位词、下位词以及同位词这三个类别的词汇,构建该特征词的特征树,该特征树为三层结构,第一层级用于存放该特征词的上位词,第二层级用于存放该特征词的同位词,第三层级用于存放该特征词的下位词。
[0016]可选的,通过wordnet词汇网络得到第一特征词的上位词、下位词以及同位词之后,方法还包括:通过wordnet词汇网络获取上位词的子下位词以及下位词的父上位词,将子下位词和父上位词加入同位词。
[0017]通过采用上述技术方案,利用wordnet词汇网络能获取一个词的上位词与下位词的特点,通过获取特征词上位词的下位词得到特征词的同位词,通过获取特征词下位词的上位词得到特征词的同位词,即对特征词的同位词进行了扩充,使得该特征词的特征树拥有更多的可替换词汇,以助于找到合适的替换词。
[0018]可选的,利用预设模型计算第一文本流畅度之前还包括:获取中文语句数据,进行预处理后得到预设模型的训练集;使用预设工具将训练集作为模型输入,利用预设模型对训练集进行流畅度计算,得到训练文本流畅度;对训练文本流畅度进行误差检测;根据误差检测调整模型参数,模型参数包括n

gram数值以及平滑度,以完成对预设模型的训练。
[0019]通过采用上述技术方案,使预设模型能够有较好的训练效果,以使预设模型能够较为准确地计算文本流畅度。
[0020]本申请在第二方面提供了一种基于特征拆分和替代的专利内容优化装置,装置为服务器,服务器包括获取单元和处理单元;获取单元,用于获取待优化的第一专利文本。
[0021]处理单元,对第一专利文本进行分词,得到多个文本特征词,多个文本特征词包含第一特征词;在特征树词典中检索是否存在文本特征树,文本特征树为第一特征词对应的特征树;若特征树词典中存在文本特征树,则用第二特征词替换第一特征词,得到第二专利文本,第二特征词为文本特征树中的词;利用预设模型计算第一文本流畅度与第二文本流畅度,第一文本流畅度为第一专利文本的流畅度,第二文本流畅度为第二专利文本的流畅度;比较第一文本流畅度与第二文本流畅度的大小;若第二文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征拆分和替代的专利内容优化方法,其特征在于,应用于服务器,所述方法包括:获取待优化的第一专利文本;对所述第一专利文本进行分词,得到多个文本特征词,所述多个文本特征词包含第一特征词;在特征树词典中检索是否存在文本特征树,所述文本特征树为所述第一特征词对应的特征树;若所述特征树词典中存在所述文本特征树,则用第二特征词替换所述第一特征词,得到第二专利文本,所述第二特征词为所述文本特征树中的词;利用预设模型计算第一文本流畅度与第二文本流畅度,所述第一文本流畅度为所述第一专利文本的流畅度,所述第二文本流畅度为所述第二专利文本的流畅度;比较所述第一文本流畅度与所述第二文本流畅度的大小;若所述第二文本流畅度大于所述第一文本流畅度,则将所述第二专利文本作为优化文本。2.根据权利要求1所述的方法,其特征在于,所述若所述第二文本流畅度大于所述第一文本流畅度,则将所述第二专利文本作为第一优化文本之后,所述方法还包括:获取第三专利文本,所述第三专利文本为用第三特征词替换所述第一特征词后得到的文本,所述文本特征树包括所述第三特征词;利用所述预设模型计算所述第三专利文本的第三文本流畅度;比较所述第二文本流畅度与所述第三文本流畅度的大小;若所述第二流畅度小于所述第三文本流畅度,则将所述第三专利文本作为所述优化文本。3.根据权利要求1所述的方法,其特征在于,所述比较所述第一文本流畅度与所述第二文本流畅度的大小,具体包括:利用预设相似度模型计算语义相似度,所述语义相似度为所述第二专利文本与所述第一专利文本的语义相似度;判断所述语义相似度是否大于或等于预设相似度阈值;若所述语义相似度大于或等于预设相似度阈值,则比较所述第一文本流畅度与所述第二文本流畅度的大小。4.根据权利要求1所述的方法,其特征在于,所述在特征树词典中检索是否存在文本特征树,所述文本特征树为所述第一特征词的特征树之前,所述方法还包括构建特征树词典,所述构建特征树词典具体包括:获取多个特征词,所述多个特征词包括所述第一特征词;构建所述第一特征词的文本特征树;构建所述第一特征词与所述文本特征树的对应关系;将所述第一特征词、所述文本特征树以及所述对应关系存储于特征树词典。5.根据权利要求4所述的方法,其特征在于,所述构建所述第一特征词的文本特征树,具体包括:通过wordnet词汇网络得到所述第一特征词的上位词、下位词以及同位词;
对所述第一特征词的上位词、下位词以及同位词进行去重;将所述上位词置于文本特征树的第一层级节点,所述第一层级节点与...

【专利技术属性】
技术研发人员:李建雨臧智涛张天铸包智
申请(专利权)人:企知道科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1