b体育新闻

b体育官网

当前位置: 首页 > b体育新闻

b体育新闻

首页 > b体育新闻

苹芯科技杨越:拆解存算一体技术进阶,解读大模型芯片的优化方向

作者:b体育发布时间:2025-01-18

  杨越认为,存算一体技术在大模型时代的新风口。

  2024全球AI芯片峰会(GACS 2024)于9月6日~7日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办,在主会场开幕式上,苹芯科技联合创始人兼CEO杨越以《存算的进阶——从神经网络到大模型》为题发表了演讲。

  苹芯科技联合创始人兼CEO杨越拆解了存算一体技术的进阶过程。产业界主流芯片的出现和成长与当下计算需求的特点紧密相关,2015年前后,计算体系结构中的计算瓶颈从处理器端向存储端迁移,尤其是神经网络的出现,加快了人工智能(AI)芯片计算效率的提升节奏,存算技术因此受到关注。b体育官网

  杨越认为,存算一体技术在大模型时代的新风口,是尽量在有数据存储的地方,都加入计算。随着软件不断发展,基于存算的端侧芯片今年已经逐步成熟b体育官网入口。未来,在云端解决数据带宽瓶颈,或将成为存算芯片下一个杀手级应用。

  ▲苹芯科技联合创始人兼CEO杨越

  以下为杨越演讲内容的完整整理:

  存算一体技术是解决当下算力焦虑和效率焦虑的有效途径之一。苹芯科技是以存算一体技术为抓手的一家芯片设计初创公司。今天,我们的话题围绕着AI芯片展开,演讲的主题是从AI 1.0时代的神经网络,走向AI 2.0时代的大模型,存算一体技术如何持续赋能。

  01.

  存算一体的诞生:b体育

  数据处理瓶颈从计算端,转移到存储端

苹芯科技杨越:拆解存算一体技术进阶,解读大模型芯片的优化方向

  我们不难发现,产业界所有主流芯片的出现与成长,都与当下计算需求的特点紧密相关。

  最初,斯坦福实验室于1969年首先提出了存算技术这个概念。后来,1992年在多伦多大学,1997年在伯克利实验室,相继尝试以逻辑电路的形式拉近存储与计算的距离。

  但在上个世纪的计算机体系的整个架构中,计算的瓶颈位于处理器端,因此大家主要提高了CPU的效率。同时,外加摩尔定律当时仍然有效,从存算的角度来说它的杀手级应用还没有出现。

  2000年前后,大数据对于并行计算的需求逐步加大,以英伟达为代表的GPU芯片逐渐成为主流。英伟达的市值现在已接近3万亿美元了。GPU这种架构对于高级制程升级,以及对于通用性计算支持都是非常好的。

  大概到了2015年,随着神经网络架构的出现,存算技术受到更多关注。背后的原因主要有两方面。

  一方面,计算体系结构的计算瓶颈开始向存储端迁移,存储墙、能效墙的问题逐步浮现。

  另一方面,AI本地化要求芯片具有更高的计算效率要求。过往冯·诺伊曼架构的数据搬运模式并不能满足AI芯片的计算效率,但神经网络架构突破了这一点,并且用存算技术可以有效支撑AI推理中大部分的阵列式运算,这也给存算技术带来了宽广的商业化空间。

  我们可以了解下冯·诺伊曼架构与存算一体架构间的区别。将一个计算结构分为计算单元和存储单元两部分。绝大多数芯片能耗都浪费在数据搬运上,占比超85%。如果我们把这部分节省掉,一定程度上,计算效率能大幅提升。

苹芯科技杨越:拆解存算一体技术进阶,解读大模型芯片的优化方向

  在冯·诺伊曼架构中,需要计算时,数据先从存储单元里面读取出来,通过数据种线传到计算单元,运算完成后,结果会返回到存储单元。我们发现,计算总线上数据搬运得非常频繁。

苹芯科技杨越:拆解存算一体技术进阶,解读大模型芯片的优化方向

  相比于冯·诺伊曼架构,计算体系内还有存内计算架构、近存计算架构等。近存计算的方式是不断缩短存储和计算单元间的距离,而存内计算就是把这个距离缩短到极致。

  在存算技术架构中,计算单元和存储单元放在了一起,计算总线上数据搬运频次降低了,总量也减少了。

  不过,当计算单元所需要做的事情,简化为只是给存储单元发出开始计算的指令,这个架构也相应会有一些劣势。原因是并非所有的计算种类都依靠一些简单的指令,便能够在存储单元中完成。这种架构需要牺牲一部分通用性。

  我们评价一个架构的时候,主要考虑其通用性、专用性、成本这3个指标。相比冯·诺伊曼架构来说,近存和存内计算架构不仅专用性更强,而且成本更低。

13244774814

168169@bsport.com