首页 > 立知

李开复创业导师 李开复的创业之路业界动态李开复创业大模型公司“零一万物”官网上线:...

小猫咪 立知 2024-01-23

8月24日,浪潮信息正式发布大规模智能计算软件堆栈OGAI。 OGAI(Open GenAI Infra)是全栈全流程的智能计算软件栈,为大规模模型业务提供AI算力系统环境部署、算力调度保障、模型开发和管理能力。 OGAI是浪潮信息根据自身大模型实践和服务客户​​的专业经验开发的。 旨在为大模型研发和应用创新创造高效生产力,加快生成人工智能产业创新步伐。

大模型是通用人工智能产业发展和创新的核心技术。 目前,国内已发布100多个生成式AI模型,“百模争秀”的格局已初现端倪。 但大模型从研发到应用的各个环节仍面临诸多挑战,如大模型算力的系统全栈问题、兼容性适配问题、性能优化问题等。

OGAI是浪潮信息根据当前大规模模型算力建设、模型开发和应用实施的实际需求,秉承全栈全流程、充分释放算力、经实践验证和应用的设计原则而打造的。细化。 OGAI由5层架构组成,从L0到L4分别对应智能计算中心操作系统基础设施层、系统环境层、调度平台层、YLink模型工具层和多模管理层。

L0层智能计算中心操作系统:面向大规模模型算力服务的智能算力运维管理平台,满足多租户、以裸机为主的灵活AI算力运维需求。 其中,高效的裸金属服务支持分钟级数千个裸金属节点的部署和按需弹性扩展,实现一键获取异构计算芯片、IB、RoCE高速网络、高性能存储和其它环境,并实现计算、网络、数据隔离,保证业务安全。

L1层:开源、高效、兼容、易用的智能计算集群系统环境部署方案。 聚焦智能计算集群部署场景,全面覆盖操作系统、驱动、系统监控可视化、资源调度等集群系统环境要素,选择最稳定、兼容广泛的软件版本,通过一系列脚本简化部署流程工具,缩短算力上线周期,并可为企业用户提供实施安装服务和集群性能标定的专家服务。

L2层:用于大模型开发的商用人工智能算力调度平台。 针对大模型训练中常见的训练中断问题,能够快速定位训练异常并自动断点恢复训练:通过快速定位芯片、网卡、通信设备的异常或故障,实现全局训练的暂停和维持,热备算力自动弹性替换,快速读取健康节点,实现断点自动续训。

L3层YLink:用于大模型数据治理、预训练和微调的高效工具链。 聚焦大模型的数据治理、预训练、微调等开发过程,集成了浪潮信息自研工具和开源工具在大模型开发中的应用,如数据处理工具包(Y-)、大模型训练工具包(Y--)和大模型微调工具包(Y-FTKit)等,通过这些丰富、齐全的工程和自动化工具,可以加速大模型的训练和开发效率。

L4层:管理平台,提供多模型接入、服务、评估等功能。 核心组件包括数据集管理、模型管理和评估,可以方便开发者和研究人员更好地管理多版本、多类型的基础大模型和任务模型,并通过多样化的评估数据集和评估任务,对多个模型进行综合评估。从生成精度、推理延迟、推理稳定性等指标进行评估。

浪潮信息高级副总裁、AI&HPC总经理刘军表示:“OGAI提供了完整的工程和自动化工具软件栈,将帮助更多企业成功跨过大规模模型研发和应用的门槛,并全面释放大规模模型的创新生产力,浪潮信息将通过智能计算系统的软硬件高度协同进行持续创新,持续培育和繁荣元脑生态,推动实现“助力百模型、智能万千动作”,加速生成人工智能产业创新。”

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。

相关阅读:

暂无相关信息
  • 网站地图 | 联系我们
  • 声明:这就到-知道你所不知道登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。