亚马逊云服务推出机器学习定制训练芯片Trainium

在 2020 年度的 re:Invent 大会上,亚马逊云服务(AWS)推出了全新的机器学习定制训练芯片 Trainium 。通过对 TensorFlow、PyTorch 和 MXNet 提供支持,该公司希望带来比任何竞争对手都更高的性能表现。此外 Trainium 还可作为一个 EC2 实例,在 AWS 的 SageMaker 机器学习平台上使用,基于这些定制芯片的新实例将于 2021 上半年推出。

访问:

(来自:)

Trainium 具有相当显著的速度和成本优势,与标准的 AWS GPU 实例相比,AWS 承诺可带来 30% 的吞吐量提升、以及降低 45% 的单次引用成本。

此外 AWS 正与英特尔合作启动基于 Habana Gaudi 的 EC2 机器学习训练实例。与定于 2021 年推出的版本相比,未来版本有望带来高达 40% 的性价比提升。

需要指出的是,两款新产品都是去年 re:Invent 大会上推出的 AWS Inferentia 定制芯片方案的补充,且 Trainium 使用了与 Inferentia 相同的软件开发套件(SDK)。

据悉,在机器学习基础架构中,90% 的开销都用于解决推理成本。尽管 Inferentia 有着成本方面的优势,但开发团队也受到了固定 ML 训练的预算限制。

为了突破训练范围和频度的限制,AWS Trainium 通过以云为中心的 ML 训练,带来了最高性能和最低成本。结合两者,客户能够切实扩展 ML 训练的工作量、同时加速端到端的部署。