13181326039

博大精深,专业为民!专心做好肥!
服务热线:13181326039

复旦大学副传授郑骁庆谈DeepSeek:AI行业不只要“发布日期:2025-02-05 08:44 浏览次数:

  近日,中国AI草创公司深度求索(DeepSeek)正在全球掀起波涛,硅谷巨头发急,华尔街焦炙。短短一个月内,DeepSeek-V3和DeepSeek-R1两款大模子接踵推出,其成本取动辄数亿以至上百亿美元的国外大模子项目比拟可谓低廉,而机能取国外顶尖模子相当。做为“AI界的拼多多”,DeepSeek还了英伟达的“算力”,旗下模子DeepSeek-V3仅利用2048块英伟达H800 GPU,正在短短两个月内锻炼完成。除了性价比超高,还有另一个缘由——开源。DeepSeek完全打破了以往大型言语模子被少数公司垄断的场合排场。被誉为“深度进修三巨头”之一的杨立昆(Yann LeCun)正在社交平台X上暗示,这不是中国逃逐美国的问题,而是开源逃逐闭源的问题。OpenAI首席施行官萨姆·奥尔特曼(Sam Altman)则稀有识称,OpenAI正在开源AI软件方面“一曲坐正在汗青的错误一边”。DeepSeek具有哪些立异之处?DeepSeek的开源策略对行业有何影响?算力取硬件的从导地位能否会逐步被减弱?针对上述疑问,《每日经济旧事》记者(以下简称NBD)专访了复旦大学计较机学院副传授、博士生导师郑骁庆。他认为,DeepSeek正在工程优化方面取得了显著,出格是正在降低锻炼和推理成本方面。“正在业界存正在着两个,一个是规模(Scaling Law),别的一个是指,跟着手艺的不竭成长,正在既有手艺根本上持续改良,可以或许大幅降低成本。”对于DeepSeek选择的开源策略,郑骁庆指出,“开源模子可以或许吸引全世界顶尖人才进行优化,对模子的更新和迭代有加快感化。”此外,开源模子的通明性有帮于消弭利用平安的顾虑,推进全球范畴内人工智能手艺的公允使用。虽然DeepSeek的模子降低了算力需求,但郑骁庆强调,AI模子仍需要必然的硬件根本来支撑大规模锻炼和推理。此外,大规模数据核心和预锻炼仍是AI成长的主要构成部门,但将来可能会更沉视高质量数据的微和谐强化进修。NBD:微软CEO萨提亚·纳德拉正在微软2024年第四时度财报德律风会上提到,DeepSeek“有一些实正的立异”。正在您看来,DeepSeek有哪些立异点呢?郑骁庆:正在深切研读DeepSeek的手艺演讲后,我们发觉,DeepSeek正在降低模子锻炼和推理成本方面采用的方式,大多基于业界已有的手艺摸索。好比,键值缓存(Key-Value cache)办理,对缓存数据进行压缩。另一个是夹杂专家模子(MoE,Mixture of Experts),现实上是指,正在推理的时候,只需利用模子的某一个特定的模块,而不需要所有模子的收集布局和参数都参取这个推理过程。此外,Deepseek还采用了FP8夹杂精度锻炼的手艺手段。这些其实之前都有所摸索,而DeepSeek的立异之处就正在于,很好地将这些可以或许降低手艺和推理成本的手艺整合起来。郑骁庆:DeepSeek目前正在现有手艺根本上,包罗收集布局锻炼算法方面,实现了一种阶段性的改良,并非是一种素质上的性立异,这一点是比力明白的。其改良次要是针对特定使命,例如,DeepSeek正在数学、代码处置以及推理使命等方面,提出了一种正在机能取成本上相对均衡的处理方案。然而,它正在范畴(open domain)上的表示,劣势并不是十分较着。正在业界存正在着两个,一个是规模(Scaling Law),即模子的参数规模越大、锻炼数据越多,别的一个是指,跟着手艺的不竭成长,正在既有手艺根本上持续改良,可以或许大幅降低成本。好比说,以GPT-3为例,晚期它的成本就很高。但跟着研究的深切,研究人员逐步清晰哪些工具是工做的,哪些工具是不工做的。研究人员基于过往的成功经验,研究方针会逐步清晰,成本现实上也会随之降低。DeepSeek的成功,我更感觉可能是工程优化上的成功。当然也很是欢快看到中国的科技企业正在大模子的时代,正在机能取成本的均衡方面取得了显著进展,不竭鞭策大模子的利用和锻炼成本下降。合适适才我提到的第二个的环境之下,走到世界前列。NBD:DeepSeek旗下模子的最大亮点之一是正在锻炼和推理过程中显著降低了算力需求。您认为这种低成本大效能的手艺立异,持久来看,会对英伟达等芯片公司发生什么影响呢?起首,像DeepSeek或者雷同的公司,正在寻找无效的整合处理方案时,需要进行大量的前期研究取消融尝试。所谓的消融尝试,即指通过一系列测试来确定哪个方案是无效的以及哪些方案的整合是无效的。而这些测试就很是依赖于芯片,由于芯片越多,迭代次数就越多,就越容易晓得哪个工具工做或者哪个工具不工做。好比说,DeepSeek的锻炼预算不到600万美元。它的手艺演讲中提到,不到600万美元的资金,也就是说,他们基于之前的良多研究,把整条锻炼流程都曾经搞清晰的环境之下(哪些是工做,哪些不工做的),从头走一遍。它的GPU的运算速度是几多,运算小时数是几多,然后再乘以每小时两美元获得的这个成果。演讲中也提到了,600万美元其实没有包含先期研究成本,好比,正在布局上的摸索、正在算法上的摸索、正在数据上采收集上的摸索的成本,也没有涵盖消融尝试的开销以及设备的折旧费。所以,我小我判断,对英伟达其实影响不是那么大。别的,DeepSeek的研究表白,良多中小企业都能用得起如许的大模子。虽然锻炼成本的下降可能会临时削减对GPU的需求,但大模子变得愈加经济,会使本来由于模子成本太高而不筹算利用大模子的企业,插手到利用模子的行列,反而会添加对于芯片的需求。NBD:跟着DeepSeek-V3、R1等低成本大模子的问世,保守的大规模数据核心和高投入的大模子锻炼能否仍然值得继续推进呢?郑骁庆:我感觉仍然值得。由于起首DeepSeek模子是言语模子,还没有扩展到多模态,以至于我们当前要研究世界模子。那么一旦引入多模态之后,对算力的要乞降根本设备要求就会成指数的增加。由于人工智能不成能仅仅局限于言语体本身,言语只是聪慧的一种表示,而正在这方面的摸索仍然需要如许的一个根本设备。适才也提到DeepSeek其实是正在良多先期研究的根本之上,找到了一条机能和成本均衡的一个处理方案。先期研究包罗各类各样的测验考试,如何去加快它呢?这个仍是需要强大的硬件支撑。不然,每迭代一次,就可能需要长达一年多的时间,这明显是无法赶上现正在AI军备竞赛的。而若是有几万张卡,迭代可能几天就完成了。别的就是使用方面。即即是模子的推理成本再低,当需要支撑数千、数万以至更大规模的并发利用时,仍然需要一个配备大量显卡的强大根本架构来确保不变运转。我感觉大规模预锻炼这一波潮水可能会弱化,可能不会成为下一步大师抢夺的从疆场。之前这个范畴曾是合作激烈的疆场,但现正在看来,成本和产出之间的比例正逐步趋于收缩。可是后面两步——高质量数据的微和谐基于强化进修的人类偏好对齐,我相信将来会有更多的投入。NBD:DeepSeek采用开源模式,取很多国外大模子巨头闭源的做法分歧。您怎样看开源模子正在鞭策AI行业成长中的感化?郑骁庆:DeepSeek目前遭到了普遍地关心和承认。从开源模子取闭源模子的角度来看,我们察看到,开源模子正在堆集了以往研究的根本上,正在方针明白的环境之下,借帮于各类锻炼技巧以及模子布局上的优化,出格是接收先前研究者正在大模子范畴已验证无效的道理和方式,开源模子已可以或许大致逃上闭源模子。一旦模子开源,全球的顶尖人才都能基于这些代码进行进一步的迭代取优化,这无疑加快了这个模子的更新取成长历程。比拟之下,闭源模子必定是没有如许的能力的,只能靠具有这个闭源模子所属机构的内部人才去鞭策模子的迭代,迭代速度相对受限。别的,开源模子通明,也缓解了对于大模子利用平安的一些顾虑。若是模子闭源,大师正在利用过程傍边可能或多或少会有一些顾虑。并且开源模子对于人工智能的普及以及全球范畴内的公允使用起到了很是好的推进感化,出格是手艺平权方面。也就是说,当一项科学手艺成长起来当前,全世界的人,不管来自哪个国度、身处何地,都使用享有平等地享受这种手艺所带来的劣势及其发生的经济效益。NBD:DeepSeek团队多为国内顶尖高校的应届结业生、正在校博士生。您认为中国AI能否存正在奇特的合作劣势?郑骁庆:我感觉我们的AI的合作劣势,其实是我们的人才数量上的劣势。这几年,从我小我来看,我们的高档教育,包罗硕士、博士的培育,有了长脚前进。现正在从中国的头部高校来看,对博士生、硕士生的培育曾经比力接近于美国。正在如许的环境之下,我们的根本高档教育质量的提拔,使得我们储蓄了大量的人才。正在如许的过程傍边,我们可以或许对现有的手艺进行敏捷的消化。现实上,不乏有华人的身影。大师开打趣说,现正在的人工智能合作是正在中国的中国人和正在美国的中国人合作。要说劣势,其实我感觉仍是很可惜的,那就是我们很少能有性的立异。