北京庖丁科技有限公司专利技术

北京庖丁科技有限公司共有19项专利

  • 本公开的实施例公开了表格对齐方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:根据第一表格和第二表格,生成第一表格与第二表格的行总相似度和列总相似度;根据行总相似度和列总相似度,确定表格聚合对集合;对表格聚合对集合中的每...
  • 本公开的实施例公开了目标业务量信息对齐方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:将第一目标业务量信息的数量确定为第一数量;将第二目标业务量信息的数量确定为第二数量;生成回溯标识对矩阵;对于每个第一目标业务量信息的第一...
  • 本公开的实施例公开了文本序列对齐方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:生成比对标识对矩阵变量;对于每个待比对文本信息的第一标识号,以及每个初始文本信息的第二标识号:确定对应待比对文本信息和初始文本信息的待比对...
  • 本公开的实施例公开了推荐用户信息生成方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:获取每个待发行价值流转标识对应的价值流转属性信息,得到价值流转属性信息集合;获取每个目标价值流转用户的用户信息,得到用户信息集合;对于每个...
  • 本公开的实施例公开了文档内容点选方法、装置、电子设备、介质和程序产品。该方法的一具体实施方式包括:响应于检测到作用于无标签文档的点击操作,确定点击操作的文档位置信息;确定无标签文档中文档位置信息表征的文档位置处的文档内容的文档结构识别结...
  • 本公开的实施例公开了跨区域文档内容识别方法、装置、设备、介质和程序产品。该方法的一具体实施方式包括:对无标签文档进行文档结构识别处理;对于文档页码序列中的每两个相邻的文档页码:选择与第一文档页码对应、且满足预设末尾区域条件的文档结构识别...
  • 本发明公开了基于关键语句的内容块检索方法、装置、设备和介质。该方法包括:基于关键语句的相关度评分模型,得到待检索文档的内容块与关键语句的相关度评分,其中,内容块包括文字段落、标题、表格、图表、图片中的至少一个;基于内容块与关键语句的相关...
  • 本发明公开了基于检索语句的信息检索方法、装置、设备和介质。该方法包括:获取待检索语句;从目标文档的内容块中确定与待检索语句相关的目标内容块,内容块包括文本内容段落、标题、表格、图表、图片中的至少一个;将具备逻辑层级关系的目标内容块聚合为...
  • 本发明公开了一种文档目录结构的提取方法、装置、设备和介质。该方法包括:获取待处理文档的标题组件有序序列;基于标题组件有序序列中标题组件之间的层级关系,建立标题逻辑树;根据标题逻辑树,生成待处理文档的目录结构。根据本发明实施例提供的文档目...
  • 本公开的实施例公开了从表格中提取公式的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取表格,抽取该表格中每个单元格的单元格内容,得到单元格内容集合,基于单元格内容集合,生成表格中的初始关系信息,基于单元格内容集合和初始关...
  • 本公开的实施例公开了交叉检查表格中单元格数字内容的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取第一表格、第二表格和预先确定的第一单元格的位置、第二单元格的位置,基于第一表格和所述第一单元格的位置,生成第一嵌入特征,基...
  • 本公开的实施例公开了抽取表格中的元组数据的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取表格和预先确定的属性列表,基于该表格和属性列表,确定属性列表对应的第一条元组数据,确定表格的扩展机制的类型,根据该表格、扩展机制的...
  • 本公开的实施例公开了一种用于同步更新数据的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:确定表单的单元格的原始位置,其中,上述原始位置的数据被文档引用;监控上述表单的变动,确定上述变动是否改变上述单元格的原始位置;响...
  • 本公开的实施例公开了抽取表单文档中信息的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取表单文档和预先确定的键值;基于预先确定的键值,生成键值语义序列;将表单文档和键值语义序列输入预先确定的信息生成模型,以得到目标信息序...
  • 本发明公开了基于富文本格式文档的表格提取方法、装置、设备和介质。所述方法包括:获取页面内容;通过预设表格检测模型,对页面内容进行表格检测处理,得到表格标签列表,以及得到第一表格内容;依据预设画贯穿线模型,对第一表格内容进行画贯穿线处理,...
  • 本发明公开了一种电子文档的拆分方法、装置、设备及介质,用以提高将多份纸质文档转换为多份电子文档的效率。所述电子文档的拆分方法,包括:获取所述电子文档中每个页面的页面属性信息;根据所述页面属性信息,在所述电子文档中添加拆分标记;基于所述拆...
  • 本发明提供了一种文字中获取表达式的方法和装置,涉及人工智能领域。该文字中获取表达式的方法包括:在待测文本中提取得到N个待测词语,将待测词语的词向量作为一层运算的节点;将一层运算中第i个节点、一层运算中第1个节点至第i‑1个节点以及运算符...
  • 本发明提供了一种根据文本语义补充内容的方法和装置,涉及人工智能领域。该根据文本语义补充内容的方法包括:将已输入的文字转化为表达式;提取与已输入的文字对应的存储数据集合中的待测数据,并将待测数据代入表达式,运算得到表达式的表达结果;生成提...
  • 本发明提供了一种文字中提取多元组的方法和装置,涉及文本处理领域。该文字中提取多元组的方法,包括:将带有合法标识和非法标识的训练数据输入循环神经网络,得到网络参数;识别待测文本中的多元实体,并对待测文本中除多元实体外的其他部分进行分词;按...
1