- 机器学习›
- AWS Trainium›
- AWS Trainium 研究
什么是 “Build on Trainium”?
AWS Trainium 研究集群
Amazon 研究奖
Neuron Kernel 接口
优势
参与的大学
以下是顶尖大学如何从 “Build on Trainium” 计划中受益。
麻省理工学院
在麻省理工学院的设备实现实验室,我们正在使用 AWS Trainium 来突破医疗人工智能研究的极限。我们的三维超声分割和声速估算模型比以往任何时候都更快、更高效地训练,将实验时间缩短了一半以上,同时实现了最先进的精度。AWS Trainium 使我们能够以传统 GPU 系统无法实现的方式扩大研究规模。通过在 AWS Trainium (trn.32xlarge) 上训练我们的三维全卷积神经网络,与 NVIDIA A100 实例相比,我们实现了最先进的性能,吞吐量提高了 50%,成本更低。使用 32 节点的 Trainium 集群,我们高效地进行了 180 多项消融实验,将总训练时间从几个月缩短到几周,并加速了麻省理工学院的医疗人工智能创新。将来,我们计划使用 Trainium 来训练人工智能代理模型,这些模型可以操作和自动化数字超声工作流程,从而为临床医生节省大量时间并为患者提供更好的护理。”
卡内基梅隆大学
“CMU Catalyst 研究小组致力于优化机器学习系统。我们的项目旨在简化不同机器学习系统的优化。Trainium 的独特之处在于通过神经元内核接口 (NKI) 提供低级控制和可访问的编程接口。
在 AWS 通过 Build on Trainium 计划的支持下,我们的研究人员得以在关键内核——FlashAttention 上探索高级优化。最令我们惊讶的是迭代的速度:使用公开的 NKI、Neuron profiler 和架构文档,我们在短短一周内在先前技术的基础上取得了有意义的改进。强大的工具和清晰的硬件洞察相结合,使我们的团队可以进行复杂的低级优化。
AWS Trainium 和 Neuron Kernel 接口 (NKI) 使像我们这样的研究人员能够更快地创新,消除了通常会减慢特定硬件优化工作的障碍。”
加州大学柏克莱分校
“通过 Build on Trainium 计划,他的团队获得了对 AWS Neuron 新的 NKI 开源编译器堆栈的完全访问权限,包括直接查看 Trainium ISA 和 API,以进行精确的调度和内存分配。这种可见性和控制水平使他的学生能够更轻松地分析优化机会,更有效地发现性能实现。”
Christopher Fletcher,加州大学伯克利分校计算机科学副教授
伊利诺伊大学厄巴纳/香槟分校
“访问 AWS Trainium 和 Inferentia 在推进我们对大规模、高效人工智能系统的研究和教育方面发挥了重要作用。我们使用这些平台进行专家混合训练和推理优化,对新的运行时和调度技术进行原型设计,以提高新兴加速器架构的可扩展性、效率和可移植性。通过利用 Neuron Developer 堆栈,UIUC 研究人员正在开发新的运行时和调度技术,以提高人工智能工作负载的效率和可移植性。Neuron Developer 堆栈的开放性给团队留下了特别深刻的印象,这使得这些平台对运行时研究具有价值,并实现了超越传统 GPU 架构的稀疏性、内存层次结构和通信效率创新。”
加州大学洛杉矶分校
“通过利用 AWS Trainium 和 Build on Trainium 计划,我和我的学生得以显著加快我们的量子电路模拟速度。该项目汇集了一群强大的学生,他们共同构建了高性能模拟器,从而能够以前所未有的规模进行更深入的实验和动手学习。”
悉尼科技大学
“我们在悉尼科技大学的研究团队正在通过开发自定义的 Neuron NKI 内核来探索树环水印算法的集成。通过 Build on Trainium 计划访问开源 Neuron 堆栈具有变革性。它使我们能够前所未有地了解 Trainium 架构,并能够直接在硬件层面工作。访问 Trainium 使我们的团队能够显著加快我们的水印工作负载,缩短了迭代周期,使我们能够探索更复杂的模型和技术。这种访问深度使我们的研究人员能够对新想法进行原型设计,尝试低级优化,并突破水印系统在现代 AI 加速器上可以实现的极限。”