Press "Enter" to skip to content

康奈利斯网络软件工程副总裁道格·富勒 – 采访系列

作为软件工程副总裁,道格负责Cornelis Networks的软件栈的所有方面,包括Omni-Path架构驱动程序、消息软件和嵌入式设备控制系统。在加入Cornelis Networks之前,道格在Red Hat领导云存储和数据服务的软件工程团队。道格在高性能计算和云计算领域的职业生涯始于Ames国家实验室的可扩展计算实验室。在大学研究计算的几个角色之后,道格于2009年加入美国能源部的奥克里奇国家实验室,在该实验室开发和整合了世界一流的奥克里奇领导计算设施的新技术。

Cornelis Networks是一家技术领先的公司,为领先的商业、科学、学术和政府组织提供专为高性能计算(HPC)、高性能数据分析(HPDA)和人工智能(AI)而构建的高性能网络。

最初是什么吸引您从事计算机科学?

我似乎就喜欢与技术一起工作。我在成长过程中喜欢与计算机一起工作;我们学校有一个让我尝试互联网的调制解调器,我觉得很有趣。大学一年级的时候,我在全国科学碗志愿者工作时遇到了一位美国能源部计算科学家。他邀请我参观他的高性能计算实验室,从那时起,我就迷上了。从那以后,我一直是一个超级计算机迷。

您在2015年至2019年在Red Hat工作,您参与的一些项目和这段经历的主要收获是什么?

我在Red Hat的主要项目是Ceph分布式存储。之前我完全专注于高性能计算,这为我提供了一个机会,让我能够从事对云基础架构至关重要的技术工作。这两者有很多相似之处,尽管它们旨在解决略有不同的问题,但可扩展性、可管理性和可靠性的原则非常相似。在技术方面,我最重要的收获是云和高性能计算可以互相借鉴很多东西。我们越来越多地使用相同的积木集构建不同的项目。这真的帮助我理解了包括网络在内的支持技术如何对高性能计算、云计算和人工智能应用产生影响。这也是我真正理解开源价值以及如何执行开源、优先上游软件开发理念的地方,这些理念我带到了Cornelis Networks。就个人而言,Red Hat是我真正成长和成熟为领导者的地方。

您目前是Cornelis Networks的软件工程副总裁,您的一些职责是什么,您的平均工作日是什么样的?

作为软件工程副总裁,我负责Cornelis Networks的软件栈的所有方面,包括Omni-Path架构驱动程序、消息软件、网络管理和嵌入式设备控制系统。在这个时刻和市场上,Cornelis Networks是一个令人兴奋的地方。正因为如此,我不确定我是否有一个”普通”的工作日。有些日子,我与我的团队一起解决最新的技术挑战。有些日子,我与我们的硬件架构师互动,确保我们的下一代产品能够满足我们的客户需求。我经常在外地与我们令人惊叹的客户和合作伙伴会面,确保我们了解和预测他们的需求。

Cornelis Networks为高性能计算和人工智能应用提供下一代网络技术,您可以分享一些硬件细节吗?

我们的硬件包括高性能交换网络解决方案。为此,我们提供了所有必要的设备,以完全集成HPC、云和AI网络。Omni-Path主机-网络接口(HFI)是面向端点设备的低配置PCIe卡。我们还生产一种48端口的1U机架交换机。对于更大规模的部署,我们提供两种完全集成的”主任级”交换机;一个是7U、拥有288个端口的设备,另一个是20U、拥有1152个端口的设备。

您能讨论一下管理该基础设施的软件以及它是如何设计来减少延迟的吗?

首先,我们的嵌入式管理平台提供简单的安装和配置,以及对我们交换机ASIC产生的各种性能和配置指标的访问。

我们的驱动程序软件是作为Linux内核的一部分开发的。事实上,我们将所有软件补丁直接提交给Linux内核社区。这确保我们的所有客户在Linux发行版上享有最大的兼容性,并且可以轻松集成其他软件,如Lustre。虽然不在延迟路径上,但内核驱动程序的使用大大降低了安装复杂性。

Omni-Path网络管理器(FM)配置和路由Omni-Path网络。通过优化流量路由和快速从故障中恢复,FM在从几十个节点到数千个节点的网络上提供行业领先的性能和可靠性。

Omni-Path Express(OPX)是我们的高性能消息传递软件,于2022年11月发布。它专门设计用于降低与我们早期消息传递软件相比的延迟。为了最小化指令数量和缓存利用率,我们对发送和接收代码路径进行了周期准确的模拟。这产生了显著的结果:当您处于微秒级范围时,每个周期都很重要!

我们还与OpenFabrics Interfaces(OFI)集成,这是由OpenFabrics Alliance制定的开放标准。OFI的模块化架构有助于通过允许更高级别的软件(如MPI)利用传输特性而无需额外的函数调用来降低延迟。

整个网络还设计用于增加可扩展性,您能分享一些关于它如何实现良好扩展性的细节吗?

可扩展性是Omni-Path设计原则的核心。在最低层次上,我们使用Cray链路层技术来纠正链路错误,而无需影响延迟。这影响了所有规模的传输介质,但对于大规模传输介质尤为重要,因为它们自然会遇到更多的链路错误。我们的传输介质管理器专注于编程最佳路由表,并以快速的方式完成此操作。这确保即使在最大规模的传输介质中,路由也能在最短时间内完成。

可扩展性还是OPX的关键组成部分。通过最小化缓存利用率,可以改善具有大核心数量的单个节点的可扩展性。通过最小化延迟,可以通过改善集体算法的完成时间来提高可扩展性。更有效地利用主机-传输介质接口资源使每个核心能够与更多远程对等节点进行通信。选择libfabric的战略选择使我们能够利用标准接口使用可扩展端点等软件功能。

您能分享一些关于AI如何融入Cornelis Networks工作流程的细节吗?

我们还没有准备好对外公开我们对AI的内部使用和计划。尽管如此,我们确实在自家使用我们为支持AI工作负载而进行的延迟和可扩展性增强。这让我们更加兴奋地与客户和合作伙伴分享这些好处。我们确实观察到,与传统HPC一样,在基础设施方面扩展是唯一的前进道路,但挑战在于以太网和其他传统网络很容易限制网络性能。

随着生成式AI的出现,您预见行业会发生哪些变化?

首先,生成式AI的使用将使人们更加高效 – 历史上没有任何一项技术使人类变得不再必要。从棉花机到自动织布机,再到电话、互联网等等,每一项技术的演进和革命都使某些工作更加高效,但我们并没有消灭人类存在的可能。

通过应用生成式AI,我相信公司将以更快的速度在技术上取得进步,因为公司管理者将有更多的空闲时间专注于这些进步。例如,如果生成式AI提供更准确的预测、报告、计划等 – 公司可以专注于在其专业领域进行创新。

我特别认为AI将使我们每个人都成为多学科专家。例如,作为一个可扩展软件专家,我了解高性能计算、大数据、云计算和AI应用之间的联系,推动它们向诸如Omni-Path的解决方案。配备生成式AI助手,我可以更深入地了解我们客户使用的应用的含义。我毫不怀疑这将帮助我们为市场和客户设计更加有效的硬件和软件。

我还预见软件质量的整体提高。AI可以有效地充当“另一双眼睛”,对代码进行静态分析,并对错误和性能问题进行洞察。这在性能问题在大规模上很难发现且昂贵重新复制的情况下尤其有趣。

最后,我希望并相信生成式AI将帮助我们的行业培训和引入更多没有AI和HPC先前经验的软件专业人员。我们的领域对许多人来说似乎令人生畏,需要时间学习“并行思考”。从根本上说,就像机器使制造变得更容易一样,生成式AI将使人们更容易考虑和思考概念。

您还想分享关于您的工作或Cornelis Networks的其他内容吗?

我想鼓励任何有兴趣从事计算机领域,特别是在HPC和AI方面的人们追求职业。在这个领域,我们拥有有史以来最强大的计算资源,并将其用于解决人类面临的最大挑战。这是一个令人兴奋的领域,我一直在享受其中的每一步。生成式AI将使我们的领域达到新的高度,因为对增加能力的需求急剧增加。我迫不及待地想看到我们接下来会走向何方。

非常感谢这次精彩的采访,希望想了解更多的读者可以访问Cornelis Networks。

Leave a Reply

Your email address will not be published. Required fields are marked *