【技术实现步骤摘要】
面向海量会议文本的知识图谱构建方法
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种面向海量会议文本的知识图谱构建方法。
技术介绍
[0002]近年来,社会日益认识到传统的搜索引擎检索模型已不能满足复杂信息的需求,建议根据复杂信息的特点,为复杂的搜索任务提供额外的增强服务。这是主流搜索引擎公司谷歌,Bing,百度的共识。自动问答系统是一个更先进的下一代搜索引擎,它返回简单、直接和实时的答案,而不是带有超链接的排序列表。知识图谱是包含大量概念和关系的语义网络,具有可解释性。近年来,因其出色的知识表示能力被广泛应用于问答系统、推荐系统和搜索引擎中,提高了许多智能系统的性能。目前会议检索领域对知识图谱有巨大的需求,首先需要从海量半结构化的会议数据中构建会议知识图谱,再通过对知识图谱的检索,能够回答具有可解释性的复杂查询。
[0003]实体关系描述了存在事物之间的关联关系,定义为两个或多个实体之间的某种联系,是知识图自动构建和自然语言理解的基础。关系抽取是指从文本中自动检测和识别实体之间的某种语义关系。近二十年来,关 ...
【技术保护点】
【技术特征摘要】
1.一种面向海量会议文本的知识图谱自动构建方法,其特征在于,所述面向海量会议结构化文本的知识图谱构建方法包含以下步骤:步骤S1:基于半结构化的会议纪要提取知识图实体和关系,包括以下步骤:步骤S1.1:采用纪要模板提取会议纪要各部分内容,例如会议时间,会议地点,会议纪要条目;步骤S1.2:使用会议纪要文本语料库对BERT模型预训练,会议纪要语料库是会议纪要的集合,获取方式为整合企业用户开会时上传的会议纪要,系统采用统一的会议纪要记录模板,根据模板完成会议纪要条目与属性的知识实体提取,具体地,会议纪要模板为表格形式,表头为会议时间、会议地点、会议主持人、待办事项这四项内容,使用openpyxl库提取指定行和列的数据;步骤S1.3:预设网络中LSTM层数、LSTM单元大小;步骤S1.4:使用BERT预训练模型代替训练集和测试集;步骤S1.5:训练联合学习模型,联合学习模型包含BERT层、编码层、解码层、softmax层;步骤S1.6:用联合学习模型提取会议纪要中的实体与联系;步骤S2:基于非结构化的会议内容提取知识图实体,将会议内容的实体提取视为一个基于监督学习任务的文本分割任务,将输入的会议内容文档划分为不同句子集合,其中输入x是一个文档,表示为n个句子序列s1,
…
,sn和标签y=(y1,
…
yn
‑
1)是文档的分割,由n
‑
1二进制值表示,其中yi表示si是否结束一个段,每一个句子几何作为一个会议内容实体,以便将其与会议纪要建立联系;包括以下步骤:步骤S2.1:收集由会议语音转录的会议内容文本数据集,并划分训练集、测试集和验证集;会议内容文本语料库是会议内容文档的合集,具体的获取方式是整合企业用户每次线上会议的语音记录,将其转换为会议文本的形式,获取会议内容数据集后,需要对其进行预处理以减少噪声;步骤S2.2:训练模型阶段,使用模型预测每个句子作为段落结束的概率,最终将所有段的交叉熵之和降到最小,以端到端的方式,通过随机梯度下降来完成训练,所述模型由两个子网络组成,都基于LSTM体系结构,低层子网是两层双向LSTM,用于生成句子表示;高层子网是一个两层双向LSTM,用作分段预测,将低层子网的输出作为输入,其中,在每个LSTM的输出上都应用一个全连接层获得n个向量序列,再应用softmax获得分n
‑
1段的概率;步骤S2.3:使用模型完成会议内容的文本分割,每一段分割文本作为一个会议内容的实体,完成会议内容的实体提取;步骤S3:提取会议纪要和会议内容的关系,包括以下步骤:步骤S3.1:使用单词嵌入层将会议纪要和会议内容转化为嵌入表示Q和C;步骤S3.2:层次表示学习,该步骤设计一个混合编码器,由三种类型的编码器混合而成,分别是深度编码器、广度编码器和上下文编码器;混合编码器的输入是句子对,句子对中的q对应于会议纪要,c对应于会议内容,每一个会议纪要以及每一个会议内容会被表示为单词的集合,即表示会议纪要,即表示会议内容,n和m分别表示会议纪要和会议内容中的单词数;步骤S3.3:将混合编码器的输出分别作为语义匹配和相关性匹配的输入,计算相关性分数,将会议纪要表示为矩阵U
q
,会议内容表示为矩阵U
c
,每个编码层上的会议纪要和会议
内容的相关性分数计算如下:S=U
...
【专利技术属性】
技术研发人员:孙建伟,许佑骏,俞俊峰,张华桁,李俊学,
申请(专利权)人:上海云思智慧信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。