

微信号:18321177950
添加微信好友, 获取更多信息
复制微信号
添加微信好友, 获取更多信息
复制微信号
2022年开始由OpenAI推出的ChatGPT3的惊人表现迅速让人工智能成为全社会的热点。
这种热度不只是表现在舆论场,全球资本市场真金白银的巨额投入以及英伟达作为人工智能时代核心厂商市值的飙升都宣告了一个新时代的即将来临。
轩辕之学巨浪4期学员韩东正处于这一大风口,作为NYONIC的创始人,他公司的主营业务是帮助企业建模型工厂,训练模型,赋能应用,为汽车行业链条上的企业赋能。
韩东本人从事人工智能相关工作约在20年前,当时是作为学生身份。他2004年至2008年就读德国马克思普朗克研究院计算机所,专业是计算机科学。马克思普朗克研究院计算机所是欧洲排名第一阵营的计算机科研院所。
“2012年之前深度学习是计算机领域一个没人愿意碰的东西,坚持下来的人并不多。当时没有人需要AI博士,大家其实都找不到工作。”韩东说。
2024年3月17日,轩辕之学巨浪4期第六模块“汽车营销新思维”课程的第二天下午,按既往惯例,学员进行分享,每次大概2-3人。韩东作为第一个学员进行分享。
“我是AI科班出身的从业者,二十多年前大学一年级就开始在德国人工智能研究中心做NLP的研究助理工作,也做了计算机视觉和机器学习的研究,十多年前就在ICCV上发表文章。后面经过了德国创业孵化器的熏陶叫ROCKET INTERNET,这是一家孵化了众多独角兽公司的孵化器。”
他说2020年之前,深度学习训练出来的Chatbot的水平和1960年的水平基本没有本质区别,过去六七十年一直没有什么大的变化。前几十年很少有人相信这件事能做成,觉得深度神经网络是一门玄学。但GPT3让大家第一次看到了所谓的涌现能力,之前没有训练模型做这件事情,但模型自己就会。你会发现训练出来的模型可以做无数件它没有遇到过的事情,这一直是大家梦寐以求的事情。
此次分享会,除了韩东,中科创达智能网联产品中心总经理马强也进行了分享。
马强毕业于人民大学EMBA,他在智能网联汽车电子软件行业超过15年以上。他曾在东软集团任职,2015年加入中科创达。
以手机软件起家的中科创达随着2015年智能座舱概念的兴起成功进入了座舱领域,公司营收也由此进一步增长。但马强说近几年中科创达也正经历转型。他说目前操作系统厂商和芯片厂商,除了进行标准系统的开发外,也同时进入了定制化业务,这对中科创达的原有业务产生了一定影响。这是当前他们的挑战之一。
另外,主机厂的降本要求与日俱增。他说最开始做高通8155芯片时,车企一个座舱平台的研发预算大概在大几千万元,现在已降到几百万元。
以下是他们两位的实录摘要。
韩东:全球最领先的汽车行业
大模型公司肯定来自中国
2012年之前深度学习是计算机领域没人愿意碰的东西,做深度学习坚持下来的人并不多。OpenAI GPT2出来的时候效果非常糟糕,没有人把它当学术来对待,但是GPT3出来让所有人都惊呆了,大家觉得这个方向真的可以走通。这也导致现在这一领域的人才数极少,大部分被OpenAI和谷歌两家公司卷走了,基本上来讲,你很难吸引这些人回到国内的公司。
现在大家的共识是AI将重构每个国家的战略、行业、应用。我们过去这一年跟美国、跟欧洲很多这方面的专家打交道时发现,很明显AI在大国竞争当中扮演非常重要的角色。
回到具体行业当中,我给大家说一下哪些公司真正从当中获益了?
最大的三个机会,第一个在GPU领域,大家都知道英伟达过去一年通过大模型他们非常的飞速增长,包括毛利、净利润,这些都非常的惊人。第二个大的商业机遇在云计算领域,因为所有这些AI模型对外提供服务的时候,都得在云上对外提供。第三个可以从两个角度来说,一个是行业角度,因为各行各业后面都会被AI赋能。我们日常生活当中可能用到最多的三个端侧,一个是PC电脑笔记本、第二个是手机、第三个是汽车。
中国在汽车这个场景下是一个无法忽略的市场,因为占领全球三分之一。AI比拼主要还是中国和美国之间,车的大模型这一块美国公司很难去做到全球领先,因为美国可能连相应的客户都没有,车厂也只有特斯拉一家。所以这一块我有一个信念,全球最领先的汽车行业的大模型公司肯定会来自于中国。
我们说行业大模型到底是什么意思?它不是说我们做一个行业大模型可以解决汽车行业所有的事情,而是去跟通用基础大模型进行区分。在行业大模型基础上,更多去跟汽车行业具体场景结合,在不同的环节加入额外的高质量数据得到额外的能力去解决具体的事情,就好像数字员工,有些做专业文档写作,有些做软件开发和测试。
我们自己在这一年主要做了两件事情:搭建了一个训练大模型的模型工厂,包括整个数据处理,训练和推理的基础设施,同时有能力去给各个客户或者合作伙伴输出不同的行业模型或场景模型。
整个模型训练的工程过程,一开始有非常大量的数据,很多是公开数据,如果说训练一些行业模型,场景模型可能会有些企业数据。公开数据会在模型工厂里有整个数据的预处理,数据混合(data mix),ETL的管道,同时不断的有一个评估的过程,再去做训练。但是因为数据量太大了,深度神经网络又不是可解释的东西,所以就造成了大模型特别难训练,因为模型参数太多,数据量太多,单纯训练就很难,把那么多GPU连起来也很难,高算力的GPU包括A100或者H100包括昇腾等,这些都是半成品,现在还处在不断的在往前迭代的产品,问题非常非常多。
我这边举个核心挑战的例子。超大规模的数据处理,GPU算力利用率。算力的利用率这边有一个对标的数字就是GPT4大概在2万多个A100的进行了90-100天的训练,算力利用率只有33%,就是说这么长时间很多机器并不是真正在做训练的。整体的花费,跑一次大概在6千万美金,跑一次是什么概念?这是成功的一次,但在之前至少做的实验数目整个成本可能是10倍-50倍之间。GPT4也比较贵,它本身是万亿参数的模型,本身就非常复杂难收敛,包括GPU太多时候要保证它的稳定性也更难。
在超大规模数据处理这一块,我们在基础设施上面希望能解决一些问题,让我们后续训练高效。基座模型基础上如果进行重新的预训练或者说继续训练,我们要保证数据加进去的时候不是从头开始,而是可以继续收敛我的loss曲线,不同的功能点、不同的指标能够同时不断的去收敛,就这件事情非常难做到。
但是做到之后,取得的效果有点像可能训练第一个模型花了100块,再训练第二个模型在处理数据的时候可能只需要花1块钱,但是如果没有这个东西,可能第一个模型花100块,第二个模型还是花100块,再往下整个从经济学上或者跟服务客户的时候这个账就算不过来了。