Nvidia Air 为基础设施即代码赋予了新的意义

Nvidia Air 为基础设施即代码赋予了新的意义

企业越来越多地利用 基础架构即代码 (IaC) 来系统地配置云资源和容器化工作负载。 IaC 是现代软件开发管道的关键元素,可确保一致性并帮助企业应对问题或尝试新的商业理念。

在 Nvidia GTC 会议上,Nvidia 工程师描述了他们构建 数字孪生 数据中心基础设施 这项工作有望将 IaC 和持续集成/持续部署实践一直扩展到物理数据中心设计。

Nvidia 一直在内部使用这些新工具来改进自己的数据中心设计,现在开始将它们集成到 Nvidia Air 中。 这补充了其他数字孪生产品,例如用于自动驾驶汽车的 Nvidia Drive、用于机器人的 Isaac 和用于医疗保健的 Clara。

Nvidia Air 将允许企业在数据中心安装第一台交换机之前,构建数据中心物理和逻辑布局的完整数字双胞胎。 一旦数据中心投入生产,他们就可以继续使用相同的模拟、可视化和人工智能工具。 今天,一旦数据中心上线,大部分设计资产基本上都被归档并被遗忘,这在许多方面反映了敏捷出现之前测试和开发的旧瀑布式风格。

资产损失

随着对扩展计算、网络、存储、电源和热管理限制的新人工智能基础设施的需求,这些挑战的复杂性只会越来越高。 Nvidia 解决方案架构和工程副总裁 Marc Hamilton “许多经典的超级计算机花费数百万美元,并且需要数月甚至数年才能部署,”Nvidia 解决方案架构和工程副总裁 Marc Hamilton 说。

设计数据中心是一项极其复杂的团队运动,需要多种技能。 数据中心建筑本身以及机架和其他组件的布局可能在 Autodesk 中完成。 电缆、服务器、交换机和存储设备采用各种 3D CAD 工具设计。

团队经常求助于其他工具,使用 Ansys 的计算流体动力学模拟来模拟气流和热量。 这些模拟通常是在设计中完成的,但是一旦计算机投入生产,运营团队就再也看不到它们了。 如果出现问题,运营团队需要重新开始,以找出如何改善气流或解决过热问题。

Nvidia 过去曾与许多供应商的设计工具合作,结果文件在工程团队之间不兼容。 跨工具传输文件通常是一个耗时的过程,而且在某些情况下,格式不兼容。 如果工程师更改布局以改善热性能,则并不总是将其传播回设计散热器或电缆布线的团队。

重用设计

因此,Nvidia 转向 Omniverse,看看是否有更好的方法来连接这些工作流程。 Omniverse 建立在一个名为 Nucleus 的通用数据库之上,它允许所有工程工具以跨工具和团队的共享格式暂存其数据。 Omniverse 帮助团队在数据中心建成后的真实感渲染之间来回切换,并覆盖实时热数据,以分析各种变化的预测影响,例如将两台繁忙的服务器移得更远。

大多数工程仿真都是使用高性能工作站完成的。 Omniverse 允许团队将更多复杂的工程和仿真工作负载转移到云中的数万个 GPU,然后在企业和合作伙伴之间共享结果。

连接回 Omniverse 的另一个优势是新的模拟可以利用核心算法的改进。 数据中心设计的最大方面之一是计算流体动力学,以了解系统的气流、加热和冷却。 汉密尔顿的团队与 Nvidia Modulus 合作,这是一个使用 AI 构建物理代理模型的软件开发工具包。 这使他们能够模拟更多的场景,例如在相同的时间内温度设置或物理位置的微小差异。

现在,Nvidia 正在将这些建模功能扩展到其名为 Base Command 的数据中心管理工具中。 这提供了一组工具来监视和管理服务。 今天,如果数据中心的条件发生变化,例如温度飙升,团队只能粗略了解可能导致它的原因。

现在,Nvidia 正在探索扩展 Omniverse 模拟功能以支持逻辑基础设施的方法。 这将使开发和测试设置网络、运行电力线和其他事情的为佳实践变得更加容易。 这也是英伟达收购 Mellanox 的原因之一。 汉密尔顿说:“我们开始考虑如何在对网络进行更改之前应用诸如omniverse 之类的工具来模拟、预测和监控。”

硬件开发运维

Nvidia Spectrum Platform 副总裁 Amit Katz 表示,在数据中心设计中使用数字双胞胎类似于世纪之交在数据中心采用自动化。 在 1990 年代,工程师通常会在实时数据中心环境中键入 CLI 命令。 有时,他们会输入错误的命令。

然后在世纪之交,开发人员开始配置 IaC 并针对模仿真实事物的测试环境进行开发。 Service Virtualization 和测试工具等工具允许团队在将事物投入生产之前模拟对企业和第三方服务的 API 调用。 现在到了 2022 年,他认为世界也正在经历类似的过渡,以模拟物理基础设施。

Katz 说:“我们正在看到用于端到端数据中心验证的数字双胞胎,不仅适用于交换机,还适用于整个数据中心。” 未来,Nvidia Air 可以作为推荐引擎,为数据中心设计和布局的修复和更改提供建议和优先级。

这还可以简化跨团队的资产和配置交换。 就像 IaC 确保开发人员、测试和运营团队使用相同的代码一样。 这将在使用此基础架构的开发人员、网络运营商和数据科学家之间扩展这些相同的好处。

愿景是数字双胞胎帮助团队将数据中心布置到每条电缆。 然后,随着团队开始安装系统,数字双胞胎可以更轻松地确保每条电缆都正确运行,如果没有,需要改变什么。 然后,如果出现问题,例如停电或电源中断,数字双胞胎可以帮助测试不同的补救措施。 团队可以事先测试各种修复程序,以便以更高的成功信心进行更改。

这将有助于完成云中可用的更大灵活性与内部部署可用的更好经济性之间的循环。

“您可以将其视为具有本地经济性的云敏捷性,”Katz 说。

声明:所有白马号原创内容,未经允许禁止任何网站及个人转载、采集等一切非法引用。本站已启用原创保护,有法律保护作用,否则白马号保留一切追究的权利。发布者:白马号,转转请注明出处:https://www.bmhysw.com/article/9495.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
白马号白马号

相关推荐

  • win10如何进入安全模式(win10进入安全模式的简单方法和快捷键)

    大纲 什么是安全模式 为什么要进入安全模式 进入安全模式的方法 常见问题及解决 什么是安全模式 安全模式是Windows操作系统的一种启动模式,它在启动过程中只加载最基本的驱动程序和系统服务,以便用户可以更容易地排除问题和进行修复。在安全模式下,操作系统只会加载最基本的驱动程序和系统服务,因此可以避免某些软件或驱动程序的干扰,更容易排除问题。 为什么要进入安…

    2023-05-12
    00
  • U盘无法识别怎么办?解决U盘无法识别的方法

    U盘无法识别怎么办?解决U盘无法识别的方法 U盘无法识别的原因 解决U盘无法识别的方法 预防U盘无法识别的措施 U盘无法识别的原因 U盘无法识别的原因可能有多种: U盘本身的质量问题 U盘与电脑连接不良 U盘受到病毒或恶意软件的感染 U盘文件系统损坏 U盘被错误地拔出或电脑关机时未及时卸载 解决U盘无法识别的方法 以下是解决U盘无法识别的方法: 检查U盘连接…

    2023-07-15
    00
  • 2021年6月显卡价格趋势怎么样了?2021年6月显卡价格详解

    2021年6月显卡价格趋势怎么样了? 市场背景 显卡价格变化 影响因素分析 未来趋势预测 市场背景 随着游戏、人工智能、加密货币等应用场景的不断扩大,显卡需求量也越来越大。而在疫情影响下,全球半导体产业链也面临着供应链短缺、物流困难、运输成本上涨等问题,导致显卡市场供需矛盾加剧,价格波动明显。 显卡价格变化 根据市场调研,2021年6月显卡价格总体呈现小幅上…

    2023-06-19
    00
  • 电脑开不起来怎么回事?笔记本电脑开不了机的原因

    笔记本电脑开不了机是一个很常见的问题,那么笔记本电脑开不了机是什么原因呢,应该怎么办呢,我们一起来看看! 笔记本电脑开不了机的原因 笔记本电脑开不了机的原因很多,可能是最简单的没插好电源的问题,也可能是硬件损坏的问题,要根据自己的情况具体问题具体分析,耐心找到问题所在,才能解决问题。我们可以根据笔记本现象做出简单判断。 1、电源问题 如果是外接电源首先要看是…

    2022-07-26 投稿
    00
  • ai渐变色怎么调自己想要的颜色(AI创建渐变教程)

    AI创建渐变教程: 1、创建一个新文档。转到文件>新建(或Ctrl + N),然后将文档的大小设置为垂直字母大小的画布。通过使用矩形工具(W:8.5in,H:11in)创建一个矩形来添加参考线。然后将参考线拖到边界框的每个中心上。通过右键单击标尺以将文档尺寸更改为像素来完成。     2、使用矩形,圆角矩形,椭圆形,多边形和星形工具…

    2022-04-30 投稿
    00

联系我们

QQ:183718318

在线咨询: QQ交谈

邮件:183718318@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信