实体与属性关系的动态抽取方法、服务器及可读存储介质技术

技术编号:18668161 阅读:29 留言:0更新日期:2018-08-14 20:36
本发明专利技术公开了一种实体与属性关系的动态抽取方法,该方法包括:获取文本数据;基于动态实体属性关系库和训练模型,从文本数据中动态抽取实体与属性的各项特征。此外,本发明专利技术还提供了一种服务器及可读存储介质,采用本发明专利技术构建了动态的实体属性关系库和训练模型,并能够从文本数据中自动地抽取实体与属性的各项特征。

Dynamic extraction method of entity and attribute relationship, server and readable storage medium

The invention discloses a dynamic extraction method of entity and attribute relationship, which includes: acquiring text data; dynamically extracting various features of entity and attribute from text data based on dynamic entity attribute relation library and training model. In addition, the invention also provides a server and a readable storage medium, which constructs a dynamic entity attribute relational database and a training model, and can automatically extract various features of entities and attributes from text data.

【技术实现步骤摘要】
实体与属性关系的动态抽取方法、服务器及可读存储介质
本专利技术互联网
,尤其涉及实体与属性关系的动态抽取方法、服务器及可读存储介质。
技术介绍
伴随着互联网的迅猛发展及大数据信息时代的来临,在一些特定领域中,例如:电信领域中的技术和业务面临技术升级、业务更新的机遇与挑战,产生了大量的知识和专用术语,成为名副其实的知识高度密信的行业。电信领域中信息量增长,并已形成一个非常庞大而无序的信息资源库,其中非结构化或半结构化的文本数据中携带着丰富的有价值的电信信息。命名实体是文本中承载信息的重要语言单位,是获取有价值信息的必不可少的环节,不同的实体具有不同的属性,同一类实体具有大致相同的属性,只是属性值有所不同。命名实体识别包括对实体的识别及属性的抽取。通用领域中实体识别是把文本中的实体划为某一语义类型。现有的方法主要有三种方法,即:基于字典、基于统计与基于规则的方法。其中,基于字典的方法主要是通过字符串匹配找寻词库中命名实体,但是通常没有一个全面的实体库,而且比对费时。基于规则算法主要在实体识别过程中加入词法规则、语法规则、语义规则,通过规则匹配的方法识别各种类型的命名实体。然而,基于规则方法受限于人工添加规则。基于统计的方法利用人工标注或原始语料进行训练。而基于统计的方法需要先建立语言模型,然后在训练数据上估算模型参数,这有利于移植到不同的语言及新领域。基于统计的方法主要利用一些统计模型如隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等。属性抽取的任务是为每个实体语义类构造属性表并抽取出属性值。属性抽取的方法主要由模式匹配及基于统计的方法,但是,当前这方面的研究远远少于实体识别。所以,在现有技术中,抽取实体与属性关系的技术仍存在不足和缺陷。
技术实现思路
本专利技术的主要目的在于提出一种实体与属性关系的动态抽取方法、服务器与可读存储介质,旨在解决特定
的知识库和语料不健全的问题。为实现上述目的,本专利技术提供的一种实体与属性关系的动态抽取方法,所述方法包括步骤:获取文本数据;基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征。此外,为实现上述目的,本专利技术还提出一种服务器,所述服务器包括处理器以及存储器;所述处理器用于执行存储器中存储的实体与属性关系的动态抽取程序,以实现上述的方法。此外,为实现上述目的,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的方法。本专利技术提出的实体与属性关系的动态抽取方法、服务器与可读存储介质,通过获取文本数据,基于动态实体属性关系库和训练模型,从文本数据中动态抽取实体与属性的各项特征,从而构建了动态的实体属性关系库和训练模型,并能够从文本数据中自动地抽取实体与属性的各项特征。附图说明图1为本申请第一实施例提供的实体与属性关系的动态抽取方法的流程示意图;图2为本申请第一实施例提供的实体与属性关系的动态抽取方法的另一流程示意图一;图3为本申请第一实施例提供的实体与属性关系的动态抽取方法的子流程示意图一;图4为本申请第一实施例提供的实体与属性关系的动态抽取方法的示例图;图5为本申请第一实施例提供的实体与属性关系的动态抽取方法的另一流程示意图二;图6为本申请第一实施例提供的实体与属性关系的动态抽取方法的子流程示意图二;图7为本申请第二实施例提供的服务器硬件架构的示意图;图8为图7中实体与属性关系的动态抽取程序的模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。第一实施例如图1所示,为本申请第一实施例提供的实体与属性关系的动态抽取方法的流程示意图。在图1中,所述实体与属性关系的动态抽取方法,包括以下步骤:步骤110,获取文本数据;步骤120,基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征。具体的,当获取到文本数据时,则基于预先建立的实体属性关系库和实体属性关系训练模型,从该文本数据中动态抽取实体与属性的各项特征,并将其结构化为实体与属性对,得到动态抽取的结果。在建立了实体属性关系库和训练模型之后,能够识别出文本数据中的实体与属性的关系,动态抽取各项特征,并不断动态扩充训练模型的实体属性关系语料。从而得到更加完善规模的语料作为训练语料,将使通过基于统计机器学习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面实行自动抽取大量文本中的实体与属性。可选的,如图2所示,在步骤110之前,所述方法还包括:步骤210,抓取多个样本数据;步骤220,根据所述多个样本数据,构建实体属性关系库;步骤230,按照预设的特征规则,对所述实体属性关系库进行扩充。具体的,获取大量的样本数据,采用爬虫技术并使用相关领域(例如:电信领域)典型的关键字抓取互联网上与该领域的相关文本数据。研究抓取的样本数据,使用实体属性值模型(Entity-attribute-valuemodel,EAV)自动构建实体属性种子表,作为实体属性关系的种子库。利用预设的特征规则,对文本进行分割,使得文本经过分句、分词等预处理后,预留预设的关键字或者关键词,并将预留的关键字或者关键词扩充到实体属性关系库中。以电信领域为例,这些关键字或者关键词可以是“套餐”、“通”、“电话”、“显示”等,当检测到这些关键字或者关键词则扩充至实体属性关系库。可选的,如图3所示,步骤230具体包括:步骤310,接收字符串语句;步骤320,判断所述字符串语句中是否包括实体属性关系库中预设的关键字;若是,则进入步骤330,若否,则不作处理;步骤330,将所述字符串语句分割成一个或者多个子字符串语句;步骤340,判断每个子字符串语句与所述实体属性关系库中预设的关键字的匹配度是否达到预设的阈值;若是,则表示原实体属性关系库中存在子字符串语句中的实体,不作处理,若否,则进入步骤350;步骤350,将所述子字符串语句扩充至所述实体属性关系库。具体的,检测用户输入字符串语句,并接收该字符串语句,判断字符串语句中包括了预设的关键字或者关键词,则通过正则表达式将字符串语句优化精简为一个或者多个子字符串语句。将子字符串语句与实体属性关系库中的实体进行相似度匹配。相似度匹配的过程为:设置相似度阈值(例如1),若子字符串语句与实体属性关系库中的实体匹配度为1,则说明原实体属性关系库中存在子字符串语句中的实体,不需要进行扩充,相反地,若子字符串语句与实体属性关系库中的实体匹配度没有达到1,则说明原实体属性关系库中没有子字符串语句中的实体,则需要扩充原实体属性关系库。优选的,若存在多个未达到相似度阈值的实体,则取相似度高的实体扩充至实体属性关系库。示例性地,如图4所示,为扩充实体属性关系库的显示图。在图4中,当接收输入查询内容为“我想了解无线宽带和专线上网的相关消息”时,得到实体1为“无线宽带”,且实体1的相似度结果为0.80000001192本文档来自技高网
...

【技术保护点】
1.一种实体与属性关系的动态抽取方法,其特征在于,所述方法包括步骤:获取文本数据;基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征。

【技术特征摘要】
1.一种实体与属性关系的动态抽取方法,其特征在于,所述方法包括步骤:获取文本数据;基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征。2.根据权利要求1所述的实体与属性关系的动态抽取方法,其特征在于,在获取文本数据之前,所述方法还包括:抓取多个样本数据;根据所述多个样本数据,构建实体属性关系库。3.根据权利要求2所述的实体与属性关系的动态抽取方法,其特征在于,所述方法还包括:按照预设的特征规则,对所述实体属性关系库进行扩充。4.根据权利要求3所述的实体与属性关系的动态抽取方法,其特征在于,按照预设的特征规则,对所述实体属性关系库进行扩充,包括:接收字符串语句;判断所述字符串语句中是否包括实体属性关系库中预设的关键字;若是,则将所述字符串语句分割成一个或者多个子字符串语句;判断每个子字符串语句与所述实体属性关系库中预设的关键字的匹配度是否达到预设的阈值;若否,则将所述子字符串语句扩充至所述实体属性关系库。5.根据权利要求1所述的实体与属性关系的动态抽取方法,其特征在于,在获取文本数据之后,所述方法还包括:根据所述实体属...

【专利技术属性】
技术研发人员:陈虹董振江王宇龚乐君李涛
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1