时间:2022-12-21 14:30:01 | 来源:信息时代
时间:2022-12-21 14:30:01 来源:信息时代
分布式数据流 : 数据流研究的一个分支,数据来源于地理上分布的各个节点。由于现实世界里很多的数据流应用环境,如传感器网络、Internet流量分析和Web日志使用等,数据流都是从分布在各处的远程数据源节点发送而来的,具有显著的分布式特性,因此,分布式数据流研究正越来越成为数据流研究中的热点。
根据具体的应用不同,分布式数据流的查询策略主要分为两类,即通用的和专为传感器设计的分布式数据流查询处理策略。
通用的分布式数据流查询策略目的在于,通过执行数据源节点间的计算来减少通信的代价,包括站点间的查询操作项的重排序和在本地的传感器或网络路由执行简单的查询功能(如过滤、聚合和信号压缩)。例如,如果每一个远程节点预聚集它的值,并将求和的值和元组数发送给一个公共操作器。公共操作器可以累积这些值并计算一个总平均值。此外,还有其他技术如挑选超节点来预处理值、缓存,并且仅当新达到的数据与原先数据有很大差别时才发送更新值给公共操作器。
针对传感器网络的分布式数据流查询处理,由于传感器网络应用环境中,无线传感器网络传输数据的不稳定性,以及传感器节点发送数据时消耗的电能是主要的瓶颈资源,因此,分布式数据流查询的目标主要是解决差的无线连接性和延长电池的寿命。减少传感器电能消耗主要是通过减少传输数据流的数据量来实现,例如,如果一个传感器在响应一个Max查询时报告一个本地的最大值,一个相邻传感器监听该传输值时,若它的本地值比该值小则不必响应。解决差的连接性的方法主要是发送数据包的备份,如传感器可以将它的最大值广播给其他节点,而不仅仅是根路径的节点。但是,这个方法不适用于诸如Sum和Count这样的聚集操作。在这种情况下,传感器可以拆分本地的求和值,把部分求和值发给它相邻的每一个节点,这样即使一个包丢失,剩余的求和值仍可以到达根节点。
另外,分布式数据流的研究还包括分布式数据流管理系统的研究,目前成熟的分布式数据流管理系统是由布朗大学、布兰代斯大学和麻省理工大学合作开发的Borealis原型系统。Borealis系统解决了分布式数据流处理时的查询的可扩展性及高可行性的算法,并且提出了要对变化的负载状况提供弹性机制的思想,在此基础上分析了过载状况的处理,提出了对聚集查询可以进行共享窗口来降载的策略。针对Borealis系统查询处理,建立了动态负载分布、允许容错性的处理机制。