郑纬民院士:国产AI芯片只要达到国外芯片60%性能,如果生态做好了客户也就满意了


来源:纵横网 浏览量(2.8w) 2023-12-22 17:44:02

12月21日,由新浪财经客户端、新浪科技联合主办的“2023科技风云榜”年度盛典今日开幕,今年活动主题为“智涌·进跃”。中国工程院院士、清华大学教授郑纬民发表题为《支持大模型训练的三种算力系统》的演讲。

他指出,第一个系统是基于英伟达公司的GPU系统,这个硬件性能好,编程生态好,大家喜欢用,很多人都用这个系统。但是问题是人家不卖给中国了,价钱从去年12月份以来涨了一倍、两倍,一卡难求,买不到了。

第二个是国产AI芯片的系统,现在我们国内有超过30家公司做AI芯片,芯片取得了很大的成果,硬件做出来了,但是状况是用户不喜欢用,原因在哪?国产卡的生态系统不好。什么叫生态系统好还是不好?如果原来一个软件基于英伟达编的,现在很容易移植到国产系统上来,这就是生态好。如果新写一个软件,在我们国产系统下写的比较顺当,这个系统生态就好。问题现在状况是,生态系统不好,要改变国产大模型系统相对不好的局面。就是做好十个软件:编程框架、程加速、通信库、算子库,AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统,这十个系统做好了编程比较容易,大家就喜欢用。

“国产AI芯片只要达到国外芯片60%的性能,如果生态做好了客户也就满意了。这十个软件做好了生态好了,客户会满意,如果你的硬件性能是人家的120%,这十个软件没做好,照样没人用,别人也不喜欢用。我们大家要一块努力把这十个软件做好,把生态做好,这是我们非常重要的一件事情。”

第三个基于超级计算机的系统。我们国内有14个超级计算机系统国家挂牌的,不是国家挂牌的更多,现在是什么状况?机器不是用的非常满,有的是有富余,你这个机器这么大,还有点富余能不能做大模型训练?是行的,不是简单的行,要做软硬件协同设计。

他总结称,我们要大力开展基于国产系统的大模型基础设施的研究工作,要改变国产卡的生态系统不好的局面,做好软硬件协同,而且要把国产卡做好。

郑纬民院士:国产AI芯片只要达到国外芯片60%性能,如果生态做好了客户也就满意了_https://www.izongheng.net_人工智能_第1张

以下为演讲实录:

各位专家、各位朋友,非常高兴来参加这个会,我先说我对大模型是不懂的人,但是我是做系统的,今天在这里讨论计算机系统长成什么样来支持大模型训练。因此我讲《支持大模型训练的三种算力系统》,基于英伟达公司的GPU系统,基于国产芯片的系统,第三个超级计算机系统,先说说第一个。这个硬件性能好,编程生态好,大家喜欢用,很多人都用这个系统。但是问题是人家不卖给中国了,价钱从去年12月份以来涨了一倍、两倍,一卡难求,买不到了。我们就说说第二个。

第二个系统,国家产生AI芯片的系统,现在我们国内有超过30家公司做AI芯片,这几天来芯片取得了很大的成果,硬件做出来了,但是状况是用户不喜欢用,用户对这个卡不太喜欢。原因在哪?国产卡的生态系统不好。什么叫生态系统好还是不好?如果原来一个软件基于英伟达编的,现在还容易移植到国产系统上来,并且很容易,这就是生态好。如果新写一个软件,在我们国产系统下写的比较顺当,这个系统生态就好。问题现在状况是,生态系统不好,不好怎么办?就改变,要改变国产大模型系统相对不好的局面。就是做好十个软件。哪十个软件?

第一编程框架、第二编程加速、第三通信库、算子库,还有AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统,共十个系统,这十个系统做好了编程比较容易,大家就喜欢用,现在这30多家厂商很多这十个系统都有的,但是用起来做的不够齐,或者做的不够好。那么怎么办?把这十个软件做好了,我有一个说法,国产AI芯片只要达到国外芯片60%的性能,如果生态做好了客户也就满意了。这十个软件做好了生态好了,客户会满意,如果你的硬件性能是人家的120%,这十个软件没做好,照样没人用,别人也不喜欢用。我们大家要一块努力把这十个软件做好,把生态做好,这是我们非常重要的一件事情。也是某种程度上来支持国产芯片的一个行动。国产芯片如果这十个软件没做好,没人用,相当于你白生产,一定要把这十个软件做好,大家都会用了,那么系统也就好了。

第三个基于超级计算机的系统。我们国内有14个超级计算机系统国家挂牌的,不是国家挂牌的更多,现在是什么状况?机器不是用的非常满,有的是有富余,你这个机器这么大,还有点富余能不能做大模型训练?是行的,不是简单的行,要做软硬件协同设计。

软硬件协同设计指的是硬件变化很大,过去都是CPU,现在除了CPU有GPU、DPU、SSD等很多硬件、芯片出来了。软件也是,原来就是一般的软件,现在有人工智能软件、有大数据软件,硬件变了,应用软件也变了,两者之间怎么做匹配?也就是,编软件的人除了专业知识知道以外,还得知道这个机器硬件结构长成什么样?我听到一个说法,一个大学,学大气物理,学天气预报专业的,十年以前他要懂一门编程语言和数据结构就可以编出很好的天气预报软件。天气预报软件都是他们这些人编的运行的很好,那时候机器CPU加存储器加硬盘,就这样一个结构,就这些东西编的就挺好,我们都用他的。

现在仍然是这位老师,这位研究者,他是学大气的,他也知道数据结构,但是他不知道怎么还有DPU、还有CPU、还有GPU还有SSD,编程他只知道有CPU,编出来的东西要么转起来很慢,要么根本转不起来。什么叫软硬件协同?编软件的时候要把硬件充分利用起来,编起来要把GPU用起来,把DPU用利用起来,SSD利用起来,才能编好。

举个例子,我们在一台轻薄大机器上,做了一个八卦炉大模型,算力要转起来,转起来之前先试试这个图,软硬件协同要知道它长成什么样子的。最左边8×8,64个核,加黑的组合,共65个核,这是一组。中间CG0、CG2、CG3、CG4、CG5,共六组共390个核,封装在一个CPU,中间一个CGU里有390个核,把这个CPU乘以256就是256个这么多东西连在一块,是一个超级点。这个超级点256个CPU两两之间有直接一条路,通信很快。这个256,两两之间很快,另一个256两两之间也很快,两个256之间速度就慢了,通讯往上走几步才能下来,不是一步能到的,大概是这样的情况。

我们的大模型有很多处理的方式,比如数据并行,数据并行什么意思?把一种软件比如装在100个机器上,每台机器装一套,把训练的数据放在100份每个至少100/1,这一百台机器做训练,这一百台机器两两之间交换数据很频繁,这是因为数据并行造成的,以至于我们马上想到这一百台机器两两之间通信很频繁,就希望它两两之间通信能一步到位就好了。

模型并行,把整个软件分成100分,每一个机器装100/1软件,数据是整个的,这个模型训练起来两两之间通信量少,以至于我们碰到这个问题想办法放到机器上,通信慢一点的地方也行。简单回顾一下,碰到一个大模型软件,第一段是数据并行的,我们要把这个并行想办法放到通信很快的一堆机器里去。

下面是模型并行,把这个软件放到通信慢一点的地方也没事。如果你不知道瞎放,就完了,协同就是这样。

第二个要知道内存。一个CPU里有390个核,每一个核都要放一个内存,请求有390个,请求就堵塞了。如果访问的内存的地方都是一个地方,也麻烦了。怎么请求不堵塞负载均匀这是我们要考虑的,没有考虑这个事情也麻烦。

第三个很重要,大规模检查点存储性能优化。我们知道一个大模型一训练,训练到半年一年的都有,时间比较长。我们不要长,一个礼拜,训练一个礼拜,要求这一个礼拜里这个机器最好不要出问题。否则训练还是训练,五个钟头出错了要重来,然后又出错又重来,因此我们过去都用检查点。如果是1万块卡,组成的一个系统,平均3个小时出一次错,这是世界先进水平,怎么办?开始训练,到2个半小时的时候我们就停下来了,不训练了。干什么?2个半小时停下来以后就把当前的环境、硬件、软件、数据把这些一堆的东西计到硬盘里面去,然后开始再训练。碰到出错,过去出错是从头来,现在不用,把刚才硬盘里的东西拿出来从这个地方重新开始就行了,2个半小时这个叫检查点,检查点的时候把当时的环境计到硬盘,然后出错了从这个地方开始进行。大模型训练这个事情量很大,也不好弄,要几十个钟头,2个半小时把一堆东西计到硬盘里要几十个钟头,怎么办?一种办法加SSD,硬盘慢,SSD快。还有就是软件也要想办法。

这里讲的是在青岛这台机器,我们把我们自己的大模型在上面进行了训练。第二个,把LLama也做了训练了,超级计算机做训练也是可以的。在这个情况下训练价钱比英伟达的卡还要便宜,我们说买一台超算专门来做大模型训练,这一点不核算。十亿、二十亿的钱,我们说租人家的用,超算机器国家出钱的,有的地方电费还有补助,因此记次费相对便宜,这也是一条路。

有四件事情要注意,不管你做计算机还是买计算机。第一半精度运算性能与双精度运算性能的平衡。也就是说你这个机器64位计算能力是多少,16位计算能力是多少,最好1:100,或者1:64比较合适。也就是说64位本身很大,有本事,16位的本事更大,1:100左右比较合适。

第二个,你把另外一块卡买来了,就连在一块,怎么连?一种办法是全连,两两之间都是一条路,那样太贵了,每台机器要插999块卡,价钱比买英伟达的还贵,而且还没有地方插,怎么办?一种方案128台机器全连,128台全连的,两两之间,是多条路。

第三个内存。第四个io子系统平衡设计。就是硬盘要支持到检查点,别做十个钟头,20分钟就要能做完。

这几件事情做好了,别人用1万块卡,我们用9000块卡就可以了。

小结:我们要大力开展基于国产系统的大模型基础设施的研究工作。要改变国产卡的生态系统不好的局面。做好软硬件协同,而且要把国产卡做好。

我就讲这些,谢谢!

本文来源:新浪财经,原文标题:《郑纬民院士:国产AI芯片只要达到国外芯片60%性能,如果生态做好了客户也就满意了》







THE END

版权声明:未经纵横网授权,严禁转载或镜像,违者必究。
特别提醒:如果文章内容、图片、视频出现侵权问题,请与本站联系撤下相关作品。
风险提示:纵横网呈现的所有信息仅作为学习分享,不构成投资建议,一切投资操作信息不能作为投资依据。本网站所报道的文章资料、图片、数据等信息来源于互联网,仅供参考使用,相关侵权责任由信息来源第三方承担。
本文地址: