18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 信息时代 > 数据流管理(数据库)

数据流管理(数据库)

时间:2022-11-21 02:30:01 | 来源:信息时代

时间:2022-11-21 02:30:01 来源:信息时代

    数据流管理 : 对以流的形式到达的数据进行管理。传统的数据库存储的是静态的数据记录的集合,它们具有限定的大小、可控制的操作、详细定义的结构,同时这些数据具有持久性。传统数据库中的计算是多次的或无限次的,具有时间复杂度和空间复杂度,其查询处理为单次查询,它们的查询计划为静态的,只运行一次,最终的查询结果也是确定的。另外,除非明确地加入了时间戳的属性,否则传统数据库中的数据没有事先定义时间的概念。虽然这种数据库模型能较好地满足某些企业或组织的信息存储要求,但当前的以及未来的一些新型应用要求支持对不断快速变化的数据流的在线分析。在现实世界的一些新型应用中,数据基本上是连续的数据流,而不是有限存储的数据集合,并且与过去的那种单次查询相反,在此用户需要长期连续的查询。例如,网络控制器、电信数据管理、Web日志分析、金融证券管理、传感器网络等。这些应用一方面需要维护大量共享数据和控制信息; 另一方面其应用活动有很强的时间性,要求连续不断地自外部环境采集数据,并根据要求进行相应的处理及存储,再在规定的时间内做出及时响应。同时,它们所处理的数据往往是“短暂”的,即只在一定的时间范围内有效,过时则无意义(对当前的决策或推导)。因此,传统的商务型和管理事务型DBMS不能满足这种数据流应用的需求,只有将数据库与数据流系统两者的概念、技术、方法与机制“完善”地集成在一起的数据流数据库系统才能充分满足这种数据流应用的需求。
数据流数据库系统就是管理其数据可以是连续的无界的加入时间概念的数据流,并对数据的处理具有时间限制的数据库系统。系统的正确性不仅依赖于逻辑结果,还依赖于逻辑结果产生的时间。近年来,随着数据流应用的大量涌现,数据流数据库系统的研究已经引起了越来越多的数据库工作者的关注。然而,数据流数据库系统并非是数据库与数据流系统两者的概念、体系结构、工具等的简单集成,需要对一系列问题进行研究与探讨: 数据和数据库的结构与组织; 查询语言: 事务的优先级分配、调度和并发控制的协议与算法; 内存的分配; 查询处理算法; 数据以及事务特性的语义以及这种语义与一致性、正确性的关系等。这些问题互相关联且与应用的性质紧密相连。
目前对数据流管理的研究已有不少成果,如:斯坦福大学已经全面展开了数据流管理系统(data stream management system,DSMS)的设计与原型实现,该系统名为STREAM。STREAM是一个以关系为基础的数据流管理系统,它重点在于内存管理和近似查询。它可以用于处理快速的、易变的、大量涌入的数据流信息,其连续查询能力非常好。STREAM的主要处理技术包括: 连续的自我监控和再优化; 适应于不同需要的良好近似; 合理的资源分配和使用。如今STREAM 1.0版本已经设计完成并正在运行期间,它可以支持多种查询语言。
布朗大学、布兰代斯大学和麻省理工大学联合开发的Aurora系统正在构建一个新型的数据处理系统,它的目标是专门处理数据流监控。Aurora简单独特的框架结构可以处理三种不同的应用: 实时监控应用、处理以时间序列存储的大量历史数据的档案管理型应用以及包含对历史以及当前数据进行处理的跨度应用。Aurora系统的核心是一个巨大的触发器网络。每个触发器是一个数据流向图,图中的每一个结点则是七种built-in操作(或boxes-Aurora系统术语)中的一个。对每一个使用Aurora系统的数据流监控应用,应用管理器创建一个或多个触发器加入到Aurora的触发器网络中。Aurora系统实现了触发器网络的编译时优化和运行时优化。在进行运行时优化时,Aurora可以检测到资源超载并根据实际应用情况进行负荷减压。另外,他们还正在设计一种可升级的分布式Aurora,叫做Aurora*。Aurora*的主要目标在于使系统对分布式数据流处理应用达到一种比较高的可测量性和实用性。
美国加州大学伯克莱分校正在构建一个Telegraph CQ系统,该系统用于连续的数据流的处理。Telegraph CQ的目的在于处理对大量高速变化的数据流而进行的大量连续查询。在该项目的早期工作中已经建立了一个Java版本的适应性数据流处理系统。如今他们决定利用Postgre SQL(一个源码公开的RDBMS)作为进一步研究的起点。Open CQ系统与Niagara CQ系统都支持对分布于网络上的持久性数据进行连续的查询监控,如: Internet上的Web站点。Open CQ采用一种基于增量视图维护的查询处理方法,而Niagara CQ则在许多查询中使用了分组连续查询技术,该技术的使用提高了查询求值的效率。
另外,连续查询还被用于Tapestry系统,该系统对只增型电子邮件信息和电子公告信息数据库进行以内容为基础的过滤。SQL的一个有限的子集作为该系统的查询语言,以确保查询求值的有效执行以及生成只增型查询结果。Alert系统通过使用定义在特殊的只增型的活跃库表上的连续查询,提供一种传统SQL数据库中的事件-条件-动作触发器机制。基于内容的XFilter过滤系统从用户的角度利用XPath语言进行连续查询,从而实现了对XML文档的有效过滤。COUGAR是一个传感器数据库,它将传感器建模为抽象数据类型(abstract data type),同时它的输入为一个时间序列。Gigascope是一个分布式网络监控结构,它提议将一些查询操作加到数据源(如路由)中。StatStream是一个数据流监控系统,它用于同时在线统计几个数据流。

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭