小家电众包设计文本的实体关系提取方法及知识共享平台技术

技术编号:37676090 阅读:14 留言:0更新日期:2023-05-26 04:40
本发明专利技术公开了一种小家电众包设计文本的实体关系提取方法及知识共享平台,其中,实体关系提取方法包括如下步骤:S1、收集与小家电众包设计相关的文本数据,制作语料库;S2、基于BiLSTM

【技术实现步骤摘要】
小家电众包设计文本的实体关系提取方法及知识共享平台


[0001]本专利技术涉及众包设计平台
,特别的涉及一种小家电众包设计文本的实体关系提取方法及知识共享平台。

技术介绍

[0002]随着互联网技术的飞速发展,以及知识经济时代的到来,传统封闭的创新模式难以满足企业激烈竞争的需求,企业正着力寻求新的创新模式。众包设计模式已被实践证明是获取外部群体知识资源达到创新目标的有效模式。企业采用众包设计模式能够有效补充内部创新资源,降低创新成本,增加创新成果。作为无形资源的知识正逐渐成为推动社会发展的着力点,知识的开放与共享已经成为人们的迫切需求。
[0003]小家电一般是指机身体积比较小或是输出功率较小的家用电器,小家电产品具有结构简单、技术壁垒不高、设计以用户需求为导向、个性化和智能化等特点。目前,大多数小家电企业依然采用传统制造业仅依赖内部创新资源的开发模式。这种模式难以满足消费者大规模日益增长的个性化需求,导致这些小家电企业设计出的产品销量并不好,同时也使得企业创新能力逐步减弱,研发设计效率降低但成本增加,投资回报率降低。产品创新需要设计知识积累来保持生命力,众包平台上进行知识共享能够帮助企业积累更多来自外部的设计知识,实现能够复制重用且有效益的创新。众包设计模式能有效解决制造型企业创新不足的问题,但目前众包设计平台在众包设计过程中,设计知识未能有效保存并复用,且平台中的用户需要有效的结构化且可读性良好的设计文档来提升自己的设计能力,以提高平台整体设计水平。

技术实现思路

[0004]针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种能够对文本数据进行结构化处理,有利于提升可读性的小家电众包设计文本的实体关系提取方法及知识共享平台。
[0005]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0006]一种小家电众包设计文本的实体关系提取方法,其特征在于,包括如下步骤:
[0007]S1、收集与小家电众包设计相关的文本数据,制作语料库;
[0008]S2、基于BiLSTM

CRF算法模型,在语料库的基础上实现小家电众包设计相关的实体识别;
[0009]S3、将步骤S2中识别出来的实体构建成自定义实体词典,利用HanLP工具包结合自定义实体词典构建依存句法分析模型;
[0010]S4、将依存句法分析模型与元知识提取规则相结合,提取实体之间的关系。
[0011]进一步的,所述步骤S1中,所述语料库的制作步骤为:先对文本数据进行分句处理,再对分句后的文本进行文本修正和字符规范后统一单句格式,并对处理后的单句进行抽检,抽检合格后确定为语料库。
[0012]进一步的,将数据分为6个标注实体类别,分别为产品类(p)、研发技术类(t)、品牌类(b)、型号类(m)、配件材料类(c)和特征类(f);采用上述标注实体类别对分句后的文本数据进行文本实体标注,采用BiLSTM

CRF算法模型将文本实体标注转化为BIOES标注体系。
[0013]进一步的,所述BiLSTM

CRF算法模型包括输入层、BiLSTM层和CRF层;
[0014]所述输入层用于将输入语句的字、词转换为数值形式,以w
i
表示输入句子第i个字在字典的ID,以维数表示字典的大小,构建第i个字的one

hot向量,利用嵌入矩阵将每个字的one

hot向量w
i
映射为低维稠密的字向量x
i
,选择字向量x
i
作为BiLSTM层的输入;
[0015]所述BiLSTM层用于将输入的字向量数据同时进入前向LSTM网络和后向LSTM网络,分别得到输入数据的前向隐藏层序列和输入数据的后向隐藏层序列将各位置前向LSTM网络和后向LSTM网络得到的隐藏层数据合并得到并得到完整的隐状态序列在设置dropout后,将隐状态序列进行映射,使数据从m维变为与标注集的标签数相同的k维,映射后的数据即为语句特征,记作矩阵再由损失函数y
i
=softmax(p
i
)过滤出符合要求的数据,接入CRF层;其中,Dropout是模型中的神经元停止工作的比例;
[0016]所述CRF层用于接收所述BiLSTM层输出的数据,并通过转移矩阵计算转移分数,得到BIOES标注体系下的命名实体标注。
[0017]进一步的,根据6个标注实体类别分别建立品牌、型号、配件、产品、技术和特征的实体词典,将上述6个实体词典加入步骤S3中的自定义词典,并根据实体类别标注仅用于小家电领域的词性符号,构建依存句法分析模型。
[0018]进一步的,所述步骤S4中,采用如下步骤:
[0019]S41、将语料库中的分句作为输入数据,在依存句法分析模型中分析词与词之间的依存关系,并输出句子的主语、谓语和宾语数据,作为候选三元组存储至候选三元组数据库,其中,主语和宾语中仅有一个为小家电众包设计实体;将实体与实体之间的完整路径作为实体链存储至实体链数据库;
[0020]S42、模板泛化与匹配:选取部分的标注数据作为种子集,将语料库中所有匹配种子集的关系实例作为正例,从正例样本中提取模板进行模板泛化,在模板泛化过程中,关系通过字符串数量相等规则进行匹配,头部实体和尾部实体采用正则表达式的形式匹配;利用泛化的种子模板匹配候选三元组,将这些三元组作为新的种子模板,并将匹配的候选三元组输出至下一步骤;
[0021]S43、实体链补全:补全前,先基于众包设计元级知识,对小家电众包设计实体之间关系进行分析,根据各类实体两两之间的关系构建的元知识模板,并存储至元知识模板数据库;补全时,接收实体链为实体

实体的二元组输入数据,并与元知识模板数据库进行实体类别匹配,补全为实体

关系

实体三元组数据输出至下一步骤;
[0022]S44、接收步骤S42和步骤S43输入的实体

关系

实体三元组并存储至实体

关系

实体三元组数据库。
[0023]进一步的,使用所述BiLSTM

CRF算法模型进行命名实体标注前,对BiLSTM

CRF算法模型进行训练,训练步骤如下:
[0024]先对数据集进行处理得到标注语料数据集,将其中80%作为训练集,10%作为验证集,剩下的10%作为测试集;
[0025]模型训练过程中,训练参数包括一次训练所选取的样本数batch_size,一个可设置的梯度阈值Clip,模型中的神经元停止工作的比例Dropout,字向量的维度embedding_dim,迭代次数Epoch,隐藏层维度hidden_dim和学习率lr;
[0026]在默认训练参数的基础上,分别单独调整训练参数Epoch、batc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小家电众包设计文本的实体关系提取方法,其特征在于,包括如下步骤:S1、收集与小家电众包设计相关的文本数据,制作语料库;S2、基于BiLSTM

CRF算法模型,在语料库的基础上实现小家电众包设计相关的实体识别;S3、将步骤S2中识别出来的实体构建成自定义实体词典,利用HanLP工具包结合自定义实体词典构建依存句法分析模型;S4、将依存句法分析模型与元知识提取规则相结合,提取实体之间的关系。2.如权利要求1所述的小家电众包设计文本的实体关系提取方法,其特征在于,所述步骤S1中,所述语料库的制作步骤为:先对文本数据进行分句处理,再对分句后的文本进行文本修正和字符规范后统一单句格式,并对处理后的单句进行抽检,抽检合格后确定为语料库。3.如权利要求2所述的小家电众包设计文本的实体关系提取方法,其特征在于,将数据分为6个标注实体类别,分别为产品类(p)、研发技术类(t)、品牌类(b)、型号类(m)、配件材料类(c)和特征类(f);采用上述标注实体类别对分句后的文本数据进行文本实体标注,采用BiLSTM

CRF算法模型将文本实体标注转化为BIOES标注体系。4.如权利要求3所述的小家电众包设计文本的实体关系提取方法,其特征在于,所述BiLSTM

CRF算法模型包括输入层、BiLSTM层和CRF层;所述输入层用于将输入语句的字、词转换为数值形式,以w
i
表示输入句子第i个字在字典的ID,以维数表示字典的大小,构建第i个字的one

hot向量,利用嵌入矩阵将每个字的one

hot向量w
i
映射为低维稠密的字向量x
i
,选择字向量x
i
作为BiLSTM层的输入;所述BiLSTM层用于将输入的字向量数据同时进入前向LSTM网络和后向LSTM网络,分别得到输入数据的前向隐藏层序列和输入数据的后向隐藏层序列将各位置前向LSTM网络和后向LSTM网络得到的隐藏层数据合并得到并得到完整的隐状态序列在设置dropout后,将隐状态序列进行映射,使数据从m维变为与标注集的标签数相同的k维,映射后的数据即为语句特征,记作矩阵再由损失函数y
i
=sofmtax(p
i
)过滤出符合要求的数据,接入CRF层;其中,Dropout是模型中的神经元停止工作的比例;所述CRF层用于接收所述BiLSTM层输出的数据,并通过转移矩阵计算转移分数,得到BIOES标注体系下的命名实体标注。5.如权利要求4所述的小家电众包设计文本的实体关系提取方法,其特征在于,根据6个标注实体类别分别建立品牌、型号、配件、产品、技术和特征的实体词典,将上述6个实体词典加入步骤S3中的自定义词典,并根据实体类别标注仅用于小家电领域的词性符号,构建依存句法分析模型。6.如权利要求5所述的小家电众包设计文本的实体关系提取方法,其特征在于,所述步骤S4中,采用如下步骤:S41、将语料库中的分句作为输入数据,在依存句法分析模型中分析词与词之间的依存
关系,并输出句子的主语、谓语和宾语数据,作为候选三元组存储至候选三元组数据库,其中,主语和宾语中仅有一个为小家电众包设计实体;将实体与实体之间的完整路径作为实...

【专利技术属性】
技术研发人员:何苗侯云浩周康渠张家铭
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1