【技术实现步骤摘要】
本专利技术属于电力技术及自然语言处理,具体为基于大语言模型的电力专业知识智能问答系统构建方法。
技术介绍
1、随着电力行业数字化、信息化和智能化的不断深入,电力应用领域在不断拓宽,由此产生的电力数据格式复杂多样。除了常规的结构化数据外,还伴随着大量的半结构化和非结构化数据;这些数据作为电力专业知识,以多模态的形式共同构成了庞大、零散、多源、异构、多维和多形式的电力数据资源,对这些资源中蕴含的姿势,均可采用智能问答系统加以利用。
2、目前,在面对这些具有较高的专业门槛、种类繁多、形式复杂的电力专业知识时,传统的智能问答系统采用基于知识图谱技术的管理方式。这一方式难以准确表达知识间的关联和协同关系,对异构知识的抽取、管理和应用也不够充分,因此极大地影响了电力专业知识的管理利用效率。
3、随着自然语言处理技术的发展,如何构建针对电力专业知识的新型智能问答系统,使电力数据资源得到更有价值的应用,就成为了本领域技术人员的研究热点。
技术实现思路
1、本专利技术的目的是构建出一
...【技术保护点】
1.一种基于大语言模型的电力专业知识智能问答系统构建方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于大语言模型的电力专业知识智能问答系统构建方法,其特征在于:步骤S1中,对原始对话语料进行预处理后,先采用正则化约束分段方式,将原始对话语料中的文档集和数据集切分为粗粒度文段;采用基于BERT的自适应滑动窗口序列模型,对粗粒度文段中具有强依赖长文本篇章信息的电力专业知识,应用上下文信息进行分割,完整保留具有强语意关联的电力专业描述、名词、术语概念,从而完成电力专业语料库的构建。
3.根据权利要求2所述的基于大语言模型的电力专业
...【技术特征摘要】
1.一种基于大语言模型的电力专业知识智能问答系统构建方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于大语言模型的电力专业知识智能问答系统构建方法,其特征在于:步骤s1中,对原始对话语料进行预处理后,先采用正则化约束分段方式,将原始对话语料中的文档集和数据集切分为粗粒度文段;采用基于bert的自适应滑动窗口序列模型,对粗粒度文段中具有强依赖长文本篇章信息的电力专业知识,应用上下文信息进行分割,完整保留具有强语意关联的电力专业描述、名词、术语概念,从而完成电力专业语料库的构建。
3.根据权利要求2所述的基于大语言模型的电力专业知识智能问答系统构建方法,其特征在于:电力专业语料库构建完成后,将其中的每个文段作为一个整体,拆分为句子片段和细粒度字词片段;基于词频与词性,初始化细粒度字词片段的大词表,再通过unigram模型评估大词表,优化减少词数,直至减少为预设目标词数,得到电力tokenizer模型;将电力tokenizer模型与原生的通用tokenizer模型合并,扩展电力专业语料库的词汇表数据。
4.根据权利要求3所述的基于大语言模型的电力专业知识智能问答系统构建方法,其特征在于:电力专业语料库扩展完成后,智能问答过程中的对话场景对齐方式包括隐式对齐和显式对齐;隐式对齐方式中,以电力专业语料库中的电力规范、标准、法规和制度作为对话场景的约束调节;显式对齐方式中,由电力行业专家针对电力专业语料库中的问答内容进行逐个校准,并针对同一问题涉及的不同参数与变量,完成不同的理解与解答过程。
5.根据权利要求1所述的基于大语言模型的电力专业知识智能问答系统构建方法,其特征在于:步骤s2中,大语言模型的基座...
【专利技术属性】
技术研发人员:乔俏,舒虎,段升位,鄢秀庆,李会超,冯勇,李治,车达,陈浩,蒋艾町,田涛,骆俊林,姚枫,晁沁杭,蒋贵丰,杨妍,李安琪,
申请(专利权)人:中国电力工程顾问集团西南电力设计院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。