3月26日,记者从智源研究院获悉,智源联合生态合作伙伴共建的开源统一软件栈众智FlagOS近日取得重要技术突破,在六家厂商AI芯片、三种AI大模型(语言大模型、多模态大模型、具身大模型),及五个同构+异构(指同类型与不同类型芯片组合)的千卡集群上完成端到端训练(指从原始数据输入到最终结果输出的完整训练过程,无需中间环节的人工干预)全要素验证,将推动AI算力从“普适”向“普惠”迈出实质性步伐。
过去,企业购买不同厂商的芯片来训练大模型,但不同芯片接口、软件生态互不兼容,无形中“锁死”了大模型。为此,在北京市支持下,智源研究院牵头研发了面向多种AI芯片的开源系统软件栈FlagOS。作为国产AI超节点智算“北京方案”的核心功能载体,FlagOS如同一个在人工智能芯片上应用的操作系统,旨在解决大模型训练和推理中的异构计算、高速互联和弹性稳定等技术挑战。
在硬件适配层面,众智FlagOS成功完成了天数智芯、沐曦、寒武纪、海光、摩尔线程、昆仑芯六款主流AI芯片的端到端训练验证,在指定语言模型训练中,各芯片训练效果与国际主流平台高度一致,使得可以在多样化的硬件上获得同等优质的训练体验,大幅降低了对单一硬件体系的依赖。
在规模化训练层面,众智FlagOS更是实现了同构与异构千卡集群训练的全面突破,先后在海光、沐曦、摩尔线程三款芯片上完成同构千卡端到端大模型训练,并在沐曦与英伟达、天数智芯与英伟达组成的两大异构千卡集群上实现高效混合训练,充分验证了统一软件栈支撑多元AI算力大规模协同训练的核心能力。
其中,海光同构千卡集群实现了320亿参数多模态大模型的千卡训练,展现出极高的系统扩展效率与稳定性;沐曦同构千卡集群在多款大模型训练中,同时实现了高性能与高精度的双重突破,达到国际先进水平;摩尔线程同构千卡集群则成功完成具身智能大模型的全流程训练与优化,验证了国产算力在该领域的可行性与稳定性。
在异构训练方面,沐曦与英伟达、天数智芯与英伟达的异构千卡集群均实现高效混合训练,不仅打破了不同硬件之间的协同壁垒,还能让企业根据算力成本、供应链安全等实际需求,灵活配置混合算力集群,在保障训练效果的同时实现资源利用率最大化,为行业算力配置提供了全新思路。
业内人士分析,此次众智FlagOS的一系列成果,不仅是AI软件栈技术领域的重要里程碑,更对我国整个AI多元算力生态形成强大赋能。智源研究院相关负责人表示,其将持续联合产业生态合作伙伴深耕技术创新与生态建设,推动多元算力的普及与应用,让优质AI算力资源实现更广泛的落地,为我国AI产业发展注入持续动力。
来源:北京日报客户端
如遇作品内容、版权等问题,请在相关文章刊发之日起30日内与本网联系。版权侵权联系电话:010-85202353





