英伟达企业战略
时间:2023-02-12 08:42:01 | 来源:营销百科
时间:2023-02-12 08:42:01 来源:营销百科
英伟达企业战略:
规格构架NVIDIA Geforce GTX650Ti矛头指向的是AMD Radeon HD7770,他们拥有相同的市场定位,在性能对比测试之前我们先简单的了解一下这款开普勒新品的具体规格。通过这张NVIDIA官方GTX650Ti规格列表我们可以看出,这款代号GK-106显示核心拥有768个CUDA,核心频率达到925MHz。显存方面,搭载了容量为1GB,规格为GDDR5的显存颗粒。供电方面配备有单6PIN辅助供电接口,可以看成虽然全新GTX600大部分显卡颠覆了传统长PCB多项供电的设计理念,但是对在对核心供电这一块还是非常慎重的。再看官方给出的TDP为110W,接口方面则配备了2个DVI接口以及一个HDMI接口,并且支持PCI-E 3。0接口格式。
NVIDIA GeForce GTX650Ti这颗代号GK-106显示核心是由GTX660精简而来,核心内5组SMX精简到了4组,原有的960个CUDA也随之精简到了768个,同时原有的80个纹理单元在精简掉一组SMX后也变成了64个,而光栅ROP单元缩减到16个。显存控制器也被精简掉一组由GTX660的192bit变成了GTX650Ti的128bit。
Kepler架构与GTX400向GTX500过度相比,此次采用全新工艺、全新构架的GTX600显得更具有意义,不仅在性能方面得到了倍数的提升,功耗、发热量方面也都得到了很好的控制。
我们先从开普勒构架中的SMX单元说起,与费米构架中SM单元不同,SMX单元当中包含了巨大数量的CUDA Core核心,达到了夸张的192个,是原有费米的SM单元CUDA Core数量的6倍!完整的GK104核心共拥有1536个CUDA Core,是GF110的3倍!而这之前,NVIDIA对于SM当中的CUDA Core数量提升只能用保守来形容了,在G80时代为16个,GT200之后增加到了24个,到了GF100时代才增加到32个,即便是算上中端产品GF114的SM单元架构,也最多不过达到了48个而已。NVIDIA的此次举动绝对是非常大胆的一个突破。
除了CUDA Core数量的激增外,对于SMX内部结构NVIDIA必然也要进行适当的调整,否则以原有的线程调度机制必然无法满足如此多CUDA Core的调度需求。因此,NVIDIA为每个SMX当中配备了四组Warp Scheduler(Warp调度器)以及八个Dispatch Unit(分派单元),大大加强了CUDA Core的任务派发能力。
除此以外,Instrucition Cache(指令高速缓存)、Register File(寄存器文件)、64KB Shared Memory/L1 Cache(64KB高速缓存)、Uniform Cache(统一高速缓存)等并没有太大变化。
自适应垂直同步为了解决画面流畅度问题,NVIDIA推出全新Adaptive Vsync(自适应垂直同步)技术,我们在一些大型3D动作游戏中经常会看到Vsync(垂直同步)这个选项,它会起到什么作用呢?
V-sync(垂直同步)其作用主要是让显卡的运算和显示器刷新率一致以稳定输出的画面质量。但启用V-Sync会大幅影响显卡性能(显示器刷新频率是多少显卡最多也只能有同等的帧数输出,而即使是Quad SLI显卡启用V-Sync后,如其显示器刷新频率只有65Hz,那么它在任何游戏中的速度最多也只有65 FPS),所以启用V-Sync由于很难体现出不同显卡的性能差异所以已基本没有多少显卡测试会开启这个功能。但在实际游戏中开启V-Sync实际也有助提升游戏运行的稳定性。
而我们实际看到的画面并不可能与显卡渲染的游戏帧速率相同,而是仅能够达到显示器的刷新速率。但是显卡多渲染的那些游戏帧画面就有可能会出现撕裂、跳帧等问题。而垂直同步则正是为了解决这一问题而出现。Adaptive Vsync(自适应垂直同步)技术能够让显卡自动根据游戏的帧速率来启用或禁用垂直同步功能。当游戏帧速率达到60FPS以上时,显卡将会自动开启垂直同步,保证游戏画面不会出现撕裂等问题,而当游戏帧数低于60FPS后,垂直同步功能自动关闭,让游戏避免出现切换垂直同步速度时的卡顿问题。
全新抗锯齿技术NVIDIA为了更好的抵制'狗牙',又推出了全新的抗锯齿技术即TXAA,TXAA分为TXAA1、TXAA2两个级别。全新的TXAA抗锯齿技术是通过硬件来实现的,在NVIDIA全新的304。79驱动中首次得到真正应用,当然由于这项抗锯齿技术还未度过婴儿期,所以支持TXAA的游戏只有《The Secret World》。NVIDIA 全新的TXAA抗锯齿技是一款类等同于在动画、电影、游戏CG中所采用复杂的高画质过滤器,从而减少因为锯齿导致画面出现的撕裂和闪动等非常态显示。 通过对比完美的诠释了全新TXAA的强悍,相比8XMSAA其展现了更为圆滑、饱满的画质体验,TXAA1级别画质效果等同与MS8XAA抗锯齿效果,而TXAA2级别可带来桌面级娱乐显卡顶级的画质效果,图上第三张展示的就是TXAA2级别。
价格市场定位,GTX650Ti官方建议价格1099元,而AMD HD7770则为999元-1099之间。但我们都知道官方建议价格基本可以忽视,非公版肯定要比这个价格高出100-200元,强化供电以及散热。就价格而言短期内GTX650Ti销量不会太高,主要是在价格上被HD7770所压制,同时还有受到自家GTX560-560Ti显卡在价格上的制约,如果价格在999一线性价比就更为耀眼了。但话虽如此但凭借性能,仍推荐玩家朋友更新升级购买。
命名规则NVIDIA各代显卡都遵循了由高至低命名规则
GTX GTS GT GS从GTX500系开始,为避免命名复杂带来的产品线识别困扰,NVIDIA显卡将取消GTS级别的显卡,中高端全部使用GTX命名,而低端使用GT命名,同时在甜品级显卡市场增设产品细分,带Ti后缀为更高一级显卡,如GTX560TiGTX560。
主要企业级解决方案NVIDIA数据中心GPU:可更快速地处理要求最严格的高性能计算(HPC)和超大规模数据中心工作负载。产品包括:
Tesla V100 GPU:基于Volta架构,突破了深度学习每秒 100 万亿次浮点运算的大关。V100 配备 640 个 Tensor 内核,可提供 120 万亿次浮点运算的深度学习性能,带有 16 GB 和 32GB 两种配置,在单个 GPU 中即可提供高达 100 个 CPU 的性能。
T4 GPU:基于Turing架构,具备人工智能推理的多精度计算性能。从 FP32 到 FP16 再到 INT8和 INT4 精度,T4 的性能比 CPU 高出 40 倍,实现性能的重大突破。T4 封装在节能的小型 70 瓦PCIe中,可针对横向扩展服务器进行优化。
A100 GPU:采用NVIDIA Ampere架构的设计,该设计为NVIDIA第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。已登陆Google Compute Engine(云计算引擎),推出alpha测试版本。PCIe版本A100使服务器制造商能够为客户提供的产品组合——从内置单个A100 GPU的系统到内置10个或10个以上GPU的服务器等。
NVIDIA HGX:NVIDIA HGX-1 和 HGX-2 是参考架构,用于标准化加速 AI 和高性能计算的数据中心的设计,采用NVIDIA SXM2 V100 板、NVIDIA NVLink 和 NVSwitch 互联技术构建,并采用在超大规模混合数据中心无缝运行的模块化设计,可提供高达 2 petaFLOPS 的计算能力。HGX-3 采用单一基板,配备 4 枚或 8 枚 A100 GPU。4-GPU 配置通过 NVLink 完全互联,8-GPU 配置通过 NVSwitch 互联。两个 8-GPU HGX-3 基板还可通过 NVSwitch 互联技术进行组合,以创建功能强大的 16-GPU 单节点。
NVIDIA DGX:针对企业 AI 开发和规模提供出色的解决方案。包括:
NVIDIA DGX Station:面向数据科学团队的 AI 工作站,专为办公室及安静场所设计。它在适用于所有 NVIDIA DGX系统的 NVIDIA GPU Cloud 深度学习堆栈基础上构建,配备四块 NVIDIA Tesla V100 Tensor Core GPU,集成全连接的四路 NVLink™ 架构,可提供 500 teraFLOPS 的 AI 性能(与数百台服务器的性能相当),能够提高团队的实验速度、迭代次数,轻松获得工作成果。
NVIDIA DGX-1:DGX-1 通过采用配备当今超热门优化版框架的 NVIDIA GPU Cloud 深度学习堆栈,提供比其他基于 GPU 的系统快 4 倍的训练速度。它充分发挥了NVIDIA Tesla V100 的潜力,包括下一代 NVIDIA NVLink和新型 Tensor Core 架构。借助 NVIDIA DGX-1,可以快速在大数据集中找出规律,从而在几小时或几分钟内获得新的知识和见解。
NVIDIA DGX-2:NVIDIA DGX-2是集成了 16 个 NVIDIA V100 Tensor Core GPU 的 2 petaFLOPS 系统,适用于大规模 AI 项目,其性能是 8-GPU 系统的 10 倍。DGX-2 由 NVIDIA DGX 软件和 NVIDIA NVSwitch 的可扩展架构提供支持,是应对复杂 AI 挑战的上佳平台。
NVIDIA DGX A100:以及基于 NVIDIA A100 构建的 AI 系统。DGX A100系统集成了8个NVIDIA A100 Tensor Core GPU,具有320GB内存用以训练的AI数据集,以及高速NVIDIA Mellanox® HDR 200Gbps互连,具有高达5Petaflops 的AI性能。一个由5台DGX A100系统组成的机架可代替一个包括了AI训练和推理基础设施的数据中心,而且功耗仅是其1/20,所占用的空间是其1/25,成本是其1/10。
NVIDIA EGX:NVIDIA EGX 是一款云原生、边缘优先且可扩展的平台,可让 IT 快速轻松地调配 GPU 服务器。EGX 的一个主要组件是 NVIDIA GPU Operator,它能够对所有必要组件的部署进行标准化和自动化,以调配支持 GPU 的 Kubernetes 集群。NVIDIA EGX 平台可将加速人工智能 (AI) 的强大功能引入边缘服务器,用于智能零售、智能医疗保健、智能制造、智能运输和智慧城市等领域。
NGC:NGC 是 GPU 优化的深度学习、机器学习和高性能计算 (HPC) 软件中心,可以处理所有例行任务,以便数据科学家、开发者和研究人员可以专注于构建解决方案,收集各种见解,并提供业务价值。NGC提供了优化的、易于部署的AI框架和HPC应用容器,加速生产效率,因此用户可以专注于构建他们的解决方案。NGC 通过预先训练好的模型和具有同级最佳准确度和性能的工作流程来处理繁重的任务(专业知识、时间、计算资源),降低了人工智能采用的障碍。在本地、云端或混合部署中运行 NGC 软件,可最大限度地提高 GPU 的利用率、可移植性和可扩展性。借助 NGC-Ready 系统的企业级支持,可直接联系 NVIDIA 专家,最大限度地减少系统停机时间,并且最大限度地提高系统利用率和生产力。
NVIDIA Jetson:适用于新一代自主机器的嵌入式系统,产品组合包括:Jetson Nano、Jetson TX2、Jetson Xavier NX、Jetson AGX Xavier、以及适用于所有 Jetson 产品的统一软件版本NVIDIA JetPack SDK。
NVIDIA DRIVE:自动驾驶行业的端到端平台,包括车载计算机(DRIVE AGX)和完整参考架构(DRIVE Hyperion),以及数据中心托管模拟(DRIVE Constellation™)和深度神经网络(DNN)训练平台(DGX™) 。这些平台还包括丰富的软件开发工具包(SDK),以加速自动驾驶汽车(AV)的开发。
NVIDIA Quadro:面向台式机、移动工作站、服务器、特定解决方案及虚拟工作空间的视觉计算平台。
NVIDIA Titan:NVIDIA TITAN RTX™ 是运行速度超快的 PC 显卡,借助Turing架构,可为 PC 配备 130 Tensor TFLOPs 的性能、576 个 Tensor Core,以及 24 GB 的高速 GDDR6,可渲染超大型模型,支持实时8K视频编辑,并运行复杂的多应用工作流程。 TITAN RTX 配备多精度 Turing Tensor 核心,可在 FP32、FP16、INT8 和 INT4 精度模式下实现突破性的性能,进而加快神经网络的训练和推理速度。借助比上一代 TITAN GPU 多两倍的显存容量和 NVIDIA NVLink™,TITAN RTX 使研究人员和数据科学家能够使用更大的神经网络和数据集进行实验,所有操作均可在 GPU 显存中完成。
Mellanox Networking:2020年4月,NVIDIA已完成对Mellanox Technologies, Ltd.(迈络思科技有限公司)的收购。为服务器和存储提供端到端InfiniBand和以太网智能互联解决方案及服务。其端到端高速互连产品包括: 网卡、交换机、线缆、光模块、软件和芯片等,可用于云服务、超大规模数据中心、高性能计算、人工智能、企业级数据中心、网络安全、存储以及金融服务等各个行业。
CUDA渲染时代10系桌面产品名称
| 架构
| CUDA核心
| 显存
| 频率
|
---|
GT 1030
| Pascal
| 384
| 2G GDDR5
| 1228MHz
|
GTX 1050
| Pascal
| 640
| 2G GDDR5
| 1455MHz
|
GTX 1050Ti
| 768
| 4G GDDR5
| 1392MHz
|
GTX 1060
| 1152
| 3GGDDR5
| 1708MHz
|
1280
| 5GGDDR5
|
1280
| 6GGDDR5X
|
GTX 1070
| 1920
| 8G GDDR5
| 1683MHz
|
GTX 1070Ti
| 2432
| 8G GDDR5
|
GTX 1080
| 2560
| 8G GDDR5X
| 1733MHz
|
GTX 1080Ti
| 3584
| 11G GDDR5X
| 1582MHz
|
TITAN Xp
| 3840
| 12G GDDR5X
|
移动产品GTX 1050
| Pascal
| 640
| 最高 4 GB GDDR5
| 1354MHz
|
GTX 1050Ti
| 768
| 1493MHz
|
GTX 1060
| 1280
| 最高 6 GB GDDR5
| 1404MHz
|
GTX 1070
| 2048
| 8 GB GDDR5
| 1442MHz
|
GTX 1080
| 2560
| 8 GB GDDR5X
| 1556MHz
|
16系桌面产品名称
| 架构
| CUDA核心
| 显存
| 频率
|
---|
GTX 1650
| Turing
| 896
| 4GB GDDR5
| 1665 MHz
|
GTX 1660
| 1408
| 6 GB GDDR5
| 1775MHz
|
GTX 1660Ti
| 1536
| 6 GB GDDR6
| 1770 MHz
|
移动产品GTX 1650
| turing
| 1024
| 4GB GDDR5
| 1020 - 1395MHz
|
GTX 1660Ti
| 1536
| 6GB GDDR6
| 1140-1455MHz
|
30系列移动电脑端显卡产品 | | GEFORCE RTX
3080 笔记本电脑 GPU
| GEFORCE RTX
3070 笔记本电脑 GPU
| GEFORCE RTX
3060 笔记本电脑 GPU
|
GPU 引擎规格:
| NVIDIA CUDA®核心数量
| 6144
| 5120
| 3840
|
| 加速频率 (MHz)
| 1245-1710 MHz
| 1290-1620 MHz
| 1283-1703 MHz
|
| GPU 子系统功耗 (W)
| 80-150 W
| 80-125 W
| 60-115 W
|
显存规格:
| 标准显存配置
| 16 GB GDDR6
8 GB GDDR6
| 8 GB GDDR6
| 6 GB GDDR6
|
| 显存位宽
| 256 位
| 256 位
| 192 位
|
| | | | |
技术支持:
| RT Core
| 第 2 代
| 第 2 代
| 第 2 代
|
| Tensor Core
| 第 3 代
| 第 3 代
| 第 3 代
|
| NVIDIA 架构
| Ampere
| Ampere
| Ampere
|
| Microsoft DirectX®12 Ultimate
| 是
| 是
| 是
|
| NVIDIA DLSS
| 是
| 是
| 是
|
| PCI Express 第 4 代
| 支持
| 是
| 是
|
| NVIDIA GeForce Experience™
| 是
| 是
| 是
|
| NVIDIA Ansel
| 是
| 是
| 支持
|
| NVIDIA Freestyle
| 是
| 是
| 是
|
| NVIDIA ShadowPlay®
| 是
| 是
| 是
|
| NVIDIA Highlights
| 是
| 是
| 是
|
| NVIDIA G-SYNC®
| 是
| 是
| 是
|
| 支持 Game Ready 驱动程序
| 是
| 是
| 是
|
| NVIDIA Studio 驱动
| 是
| 是
| 是
|
| NVIDIA GPU Boost™
| 是
| 是
| 支持
|
| Vulkan RT API、OpenGL 4.6
| 是
| 是
| 是
|
| HDMI 2.1
| 是
| 是
| 是
|
| DisplayPort 1.4a
| 是
| 是
| 是
|
| NVIDIA 编码器
| 第 7 代
| 第 7 代
| 第 7 代
|
| NVIDIA 解码器
| 第 5 代
| 第 5 代
| 第 5 代
|
| VR Ready
| 是
| 是
| 是
|