【技术实现步骤摘要】
本专利技术涉及自然语言处理的,更具体地,涉及一种使用句向量的语义匹配检索知识产权文档的对话模型。
技术介绍
1、科技管理人员在收到技术文档之后,需要查询该文档与其他知识产权的关系,在查询过程中如果直接在广域互联网搜索,则会有泄密风险,在涉密企业,不能访问外网的搜索引擎,因此需要一种低成本的能够本地部署的高效率的搜索模型,同时其应该具备传统搜索引擎相同的语义匹配和逻辑判断能力。
2、现有技术公开了一种基于大语言模型的数据检索方法及系统,分别对收集的大量的语料知识文本进行分块并获取每一个语料知识文本块的高维特征向量,以及获得自然语言查询语句对应的高维特征向量;基于高维特征向量的相似度,找到与自然语言查询语句对应的语料知识文本块作为检索结果;根据话术模板、用户的自然语言查询语句和检索结果构造提示语,将提示语输入大语言模型进行自然语言文本生成,将自然语言文本生成结果返回给用户。该方案无需针对具体场景进行微调训练,使用人类友好的自然语言进行提问并得到回答,且能够一定程度避免大语言模型在数学计算和逻辑推理方面的缺陷。
3、然
...【技术保护点】
1.一种使用句向量的语义匹配检索知识产权文档的对话模型,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型,其特征在于,步骤S1中文件类型的判断依据为:如发现其标题或者文件名中包含“专利”关键字,则判定此文件的类型为专利;如发现其标题或者文件名中包含“软件”关键字,则判定此文件的类型为软件著作;如发现其标题或者文件名中包含“文章”关键字,则判定此文件的类型为文章;如发现其标题或者文件名中包含“技术文档”关键字,则判定此文件的类型为技术文档。
3.根据权利要求2所述的一种使用句向量的语义匹配检索
...【技术特征摘要】
1.一种使用句向量的语义匹配检索知识产权文档的对话模型,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型,其特征在于,步骤s1中文件类型的判断依据为:如发现其标题或者文件名中包含“专利”关键字,则判定此文件的类型为专利;如发现其标题或者文件名中包含“软件”关键字,则判定此文件的类型为软件著作;如发现其标题或者文件名中包含“文章”关键字,则判定此文件的类型为文章;如发现其标题或者文件名中包含“技术文档”关键字,则判定此文件的类型为技术文档。
3.根据权利要求2所述的一种使用句向量的语义匹配检索知识产权文档的对话模型,其特征在于,步骤s2中专利或技术文档文件的分段依据为:当被识别为专利或技术文档类型的文件中包含发明或技术的名称、对现有技术的说明、发明或技术的目的、发明或技术的效果、与现有技术的对比以及申报的相关信息时,对每个部分进行单独分段,其余使用句号分段。
4.根据权利要求2所述的一种使用句向量的语义匹配检索知识产权文档的对话模型,其特征在于,步骤s2中软件著作文件的分段依据为:当被识别为软件著作类型的文件中包含申请者信息、软件名称与版本、软件功能描述、源代码与编程语言、软件开发方式与工具、保密条款与授权协议以及申请相关信息时,对每个部分进行单独分段,其余使用句号分段。
5.根据权利要求1所述的一种使用句向量的语义匹配检索知识产权文档的对话模型,其特征在于,步骤s2中的所述记录包括以下字段:来源文件路径、来源文件类型、来源文件领域、来源文件依赖项、来源文件相关文档项、来源文件的父文档、来源文件的子文档、来源文件的上一个段落、来源文件的下一个段落、以及来源文档的当前段落的分句结果。
6.根据权利要求1所述的一种使用...
【专利技术属性】
技术研发人员:廖晋,郭龙,韩光明,李涛,邵远,宋光泽,
申请(专利权)人:中海石油中国有限公司海南分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。