火山引擎发布大模型训练云平台:支持万卡训练 集群性能提升3倍

4月18日消息,自2022年底发布以来,ChatGPT成为人类历史上最快获得上亿用户的消费级互联网应用。最新的GPT-4大模型,更是在法律、数学、生物学等多项测试中超过90%人类。

今日,火山引擎发布自研DPU等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快。

火山引擎发布大模型训练云平台:支持万卡训练 集群性能提升3倍

火山引擎总裁谭待表示,国内很多科技公司投入到大模型建设中,他们有优秀的技术团队,也有丰富的行业知识和创新想法,但往往缺乏经过大规模场景实践的系统工程能力。火山引擎要做的就是为大模型客户提供高稳定性和高性价比的AI基础设施。

谭待认为,大模型不会一家独大。与其他云厂商力推自家大模型不同的是,火山引擎将接入多家大模型深度合作,为企业和消费者提供更丰富的AI应用。

据介绍,火山引擎机器学习平台经过抖音等海量用户业务长期打磨,支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源,随用随取,最高可以为客户节省70%的算力成本。

字节跳动副总裁杨震原认为,业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。通过潮汐、混部等方式,火山引擎实现资源的高利用率和极低成本。以抖音推荐系统为例,工程师用15个月的样本训练某个模型,5小时就能完成训练,成本只有5000元。火爆全网的抖音“AI绘画”特效,从启动到上线只用一周多时间,模型由一名算法工程师完成训练。

MiniMax是目前国内少数已经推出自研大模型产品的AI技术公司,拥有文本、视觉、声音三种通用大模型引擎能力。据MiniMax联合创始人杨斌介绍,MiniMax与火山引擎合作建立了超大规模实验平台,实现千卡级常态化训练;超大规模推理平台有万卡级算力池,支撑单日过亿次调用。

谭待透露,火山引擎的大模型云平台获得智谱AI、昆仑万维等众多企业的良好反馈。国内大模型领域,七成以上已是火山引擎客户。

本站内容来源于互联网,由于内容是机器自动获取,无法一一甄别,如果有侵权的内容,请联系站长处理