深圳电子展
2024年11月6-8日
深圳国际会展中心(宝安新馆)

电子展|OpenAI自研芯片,有何独特之处

 

目前,自研芯片的科技公司已经有不少,那么OpenAI自研芯片会和谷歌、亚马逊等科技公司的自研芯片有什么不同呢?今天就由电子展小编为你解读更多行业新趋势。

 

OpenAI的自研芯片纯粹是为了自己的模型训练使用,这一点和谷歌、亚马逊等自研芯片并且目标放在云端服务器上供客户使用的商业模型不一样。对于谷歌、亚马逊等自研芯片供云服务客户使用的场合来说,由于用户使用模型的场景并不明确,使用的软件栈不确定、具体训练的模型也不确定,因此需要在芯片设计上满足兼容性的需求,而这样兼容性的考虑往往会以牺牲每个训练任务的效率和性能为代价。相反,OpenAI自研芯片只是为了自己使用,而且训练的模型非常明确:就是以Transformer为基本组件的大语言模型,而且使用的软件栈也完全控制在自己手里,因此可以确保设计有非常高的针对性。

 

第二点不同在于OpenAI对于模型有非常深入的理解。OpenAI在生成模型领域是领军企业,目前GPT系列模型仍然是大语言生成式模型中性能好的模型,而且OpenAI在生成式模型领域有着多年积累,因此OpenAI对于目前生成式模型的各种设计方案有着深入的理解,这意味着OpenAI有足够的能力和积累做芯片-模型协同设计,能够根据芯片的特性去设计相应的模型,同时也可以根据模型的需求去明确芯片的设计指标,包括如何在计算单元、存储和芯片间互联之中做优化的折中等。关键的是,OpenAI对于未来几年的生成式大模型的路线图有着行业中明确的规划,这意味着即使自研芯片需要数年的时间,也不用过于担心芯片真正量产后已经无法赶上模型更新的局面。从这个角度来说,OpenAI的自研芯片和谷歌以及亚马逊都有很不一样的地方,但是和特斯拉的Dojo系列自研模型训练芯片却有相似之处;而和特斯拉又不一样的是,OpenAI对于模型训练的需求显然会远高于特斯拉,而这样的自研芯片的重要程度对于OpenAI来说也会更高。这些OpenAI的独特之处,让它有机会实现使用非常规专用设计完成的高性能芯片。

 

Nvidia在官方博客中对于其GPU的性能提升规律做了分析:Nvidia的GPU算力在不到十年提升了1000倍,根据分析在1000倍算力提升中,计算精度的优化(即使用16位甚至8位浮点数来取代原本的32位浮点数计算)并且搭配专用的计算模块实现了16倍的性能提升,而芯片架构领域和编译器的协同优化又提供了12.5倍的性能提升,而另一方面半导体工艺带来的性能提升只有两倍。

 

由此可见,在高性能计算芯片领域,算法和芯片架构协同设计(包括模型算法和编译器算法)才是主要的性能提升动力(也即Huang‘sLaw),而从这一角度来说,OpenAI确实处于一个非常有利的地位,凭借着其对于算法的深刻理解,OpenAI可望可以充分利用Huang’sLaw,从而在未来几年内实现高性能计算芯片的设计。

 

OpenAI自研芯片的挑战OpenAI自研芯片除了有自己的优势之外,当然也有挑战。

 

OpenAI自研芯片的目标很明确,就是用于大模型的高算力芯片。高算力芯片的要挑战就是其复杂度,从芯片设计角度,高性能计算芯片中的计算单元、存储访问以及芯片间的互联都是需要仔细考虑。例如,为了能满足大模型的需求,芯片大概率会使用HBM内存;为了实现芯片的高能效比和规模化,预计会在先进工艺上搭配芯片粒等技术实现高良率;大模型通常会使用分布式计算,因此芯片间的互联就显得至关重要(Nvidia的NVLINK和InfiniBand技术对于GPU来说非常重要,OpenAI也需要类似的技术)。

 

这些芯片设计组件每一个都需要有相当经验的团队来实现,而把这些组件集成在一起也需要非常优秀的架构设计来确保整体性能。OpenAI如何在短时间内组建一个有经验的团队来做这些具有挑战性的设计将是一个重要的挑战。除了芯片设计之外,如何确保软件和硬件协同工作,或者换句话说如何设计一个高性能的编译器以及相关软件生态是OpenAI的另一大挑战。

 

目前,NvidiaGPU的一个重要优势就是因为其CUDA软件系统,经过十多年的积累后已经有很高的性能以及兼容性。OpenAI的自研芯片中,编译器系统也需要实现CUDA这样的高性能才能完全利用芯片的算力。与其他针对云服务的科技公司自研芯片不同,OpenAI的芯片主要是供自己使用,因此无需太担心生态和对于用户模型支持度的问题,但是在编译性能上也需要达到和Nvidia的CUDA接近才行。

 

事实上,OpenAI在这个领域从早些时候已经开始投入。今年七月OpenAI公布了自己的基于开源Triton语言的人工智能模型编译方案,可以把Python代码通过编译为使用开源Triton语言的中间代码(intermediaterepresentation,IR),然后再使用Triton编译器和LLVM编译器编译到PTX代码,从而可以直接在支持PTX的GPU以及人工智能加速器上运行。从这个角度看,OpenAI对于编译器的投入或许就是其自研芯片的先声。

 

以上便是电子展小编为大家整理的相关内容,如果大家对这方面比较感兴趣,可以到电子展参观交流。2023年10月11日-13日,电子展将于深圳国际会展中心(宝安新馆)隆重开幕,将以“跨界+芯+智造”为创新理念,展会将汇聚1,200个企业及品牌参展,展示电子元器件、PCBA制程、智能制造、 EMS服务、半导体封测等相关的国内外设备新品及先进技术解决方案。与同期多展联动,带来消费电子、家电、工控、通信通讯、汽车、触控显示、新能源、医疗器械、光电等领域跨界商机,绽放亚洲电子工业新活力。此外,同期将举办超30场跨国、跨界活动,覆盖PCBA制程、半导体封装、工业机器人、智能仓储与物流、机器视觉、智慧工厂、工业互联网、激光、3C、家用电器、通信、汽车、5G、物联网、人工智能、AR/VR、新能源、医疗器械、照明等热门话题,创新打造多元化国内、外商务配对社交机会,一站式捕捉亚洲跨界商贸网络,诚邀您莅临参观,为您解读更多行业发展新趋势。

 

文章来源:半导体行业观察