18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > LSF横空出世并一往直前

LSF横空出世并一往直前

时间:2022-03-05 12:50:01 | 来源:行业动态

时间:2022-03-05 12:50:01 来源:行业动态

站在今天看过去,分布式高性能计算一直是IT行业的热门话题。就是算力强悍的今天,大型机(比如IBM Z系列)已经承载了一些核心的业务,但一些其他的应用和作业,无福享受到强悍的大型机的伺候,更何况把目光往前推20多年,单个主机很难满足应用作业的需求,那怎么办呢?最直接的方式就是把一群机器组织起来,并行干活。如果有一把绝世宝剑,来统一号令集群协同工作,只要调度得当,完全有可能实现机心齐,泰山移。

在这种背景下,LSF于1992年横空出世。到今天,LSF已经走过了29个年头。在这29年的发展中,新的技术层出不穷,用户的需求也在不断变化,经过LSF研发团队的精益求精和不懈努力,LSF已经发展成为HPC分布式集群的瑞士军刀,拥有高性能的大规模分布式集群管理和调度能力。近日在中国,LSF被IBM中国团队创业成长计划12星座冠以白羊座黑科技产品,算是名至所归。29岁,LSF正当壮年!





那么LSF到底是什么呢? LSF是一个强大的分布式工作负载管理平台,基于智能的、策略驱动的调度特性,充分利用计算基础设施资源,实现最佳的应用程序性能。一言以蔽之,LSF在正确的时间内,将正确的资源分配给正确的用户作业。LSF旨在降低企业运营成本的同时,提高生产效率。LSF构架图如下。





经过二十多年的发展,相对于最初的LSF 1.0版本,最新的LSF 10.1,不管是功能上,还是性能上,都得到了质的飞跃。LSF从最初简单的调度器,发展到今天丰富多彩的调度航母,不仅后向兼容,而且不断创新,支持层出不群的新技术和新平台,比如支持GPU和Kubernetes等,也支持机器学习的平台和作业,AI赋能,发展出了很多周边产品,一往无前的创新和完善的功能,让29岁的LSF成为了妥妥的黑科技。

在分布式管理和调度方面,LSF的功能可谓应有尽有,仅仅调度策略,就有数十种,比如先来先服务 (FCFS)、抢占 (Preemption)、资源需求 (Resource Requirement)、公开共享 (Fair share Scheduling)、服务水平的资源保障(Guarantee SLA)、资源预订 (Resource Reservations)、回填调度 (Backfill Scheduling)、亲和调度 (Affinity Scheduling)等。

LSF不光支持CPU等常见算力,而且也支持GPU调度。同时支持多集群调度,块调度、作业动态调度、许可证(License)调度,基于事件的调度、计算单元和作业包装、作业开始时间预测等功能。

LSF也支持容器化的应用的调度,LSF可作为Kubernetes集群的热插拔调度器,根据策略将Pod绑定到特定节点,由Kubelet在目标节点上执行和管理Pod生命周期,HPC作业可以在不影响Kubernetes Pods的情况下提交和执行。





同时,LSF支持混合云策略,LSF有一个非常受欢迎的功能:Resource Connector。如果在作业激增的情况下,等待作业较多,本地资源不足的情况下,Resource Connector可以迅速的向公有云或者私有云申请资源,然后基于智能化的策略,把作业调度到云端资源上执行。如果业务量下降了,根据预设的门限,即刻释放云端资源。这种可伸缩性,有效的提高计算效率的同时,为客户节省了费用,真是鱼和熊掌二者兼得也!

在HPC集群中,性能非常重要,在LSF 10版本中,实现了无与伦比的大规模高性能,并且包含了很多创新性功能,提高了易用性和可访问性。LSF 10支持数以千计的并发用户数,同时管理数以万计的节点资源,同时调度数以百万计的作业。通过IO模式优化、将数据移到更靠近作业的地方、处理器间通信的优化等方法,来提高作业的吞吐量性能。在LSF 10的Benchmark测试中,LSF可以在每小时调度分发9百万的作业(超短作业)。在另外一组测试环境中,在100,000个Slots的LSF集群,纵向对比了LSF的性能提升,从图中我们可以看是LSF 10的性能得到了大幅提升。



关键词:横空

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭