颠覆传统!字节跳动VLDB2025发布Magnus:大规模机器学习数据管理终极革命

mysmile 51 0
颠覆传统!字节跳动VLDB2025发布Magnus:大规模机器学习数据管理终极革命

VLDB2025 Magnus 字节跳动面向大规模机器学习的数据管理方案

导读

你是否曾为海量机器学习数据的管理头痛不已?在AI爆炸式增长的今天,字节跳动如何驾驭EB级训练数据?大模型浪潮席卷而来,数据管理面临前所未有的挑战:存储效率低下、索引能力不足、元数据臃肿、更新性能瓶颈。传统方案已捉襟见肘,亟需破局之道!

字节跳动基于Apache Iceberg打造了Magnus数据管理方案,在存储格式、索引设计、元数据管理、更新机制等核心维度实现全面突破。经过五年内部实战检验,Magnus已支撑搜索、广告、推荐、大模型等核心业务,数据规模超5EB,成果入选VLDB 2025,为行业树立新标杆!

论文Magnus: A Holistic Approach to Data Management for Large-Scale Machine Learning Workloads

论文作者:Jun Song, Jingyi Ding, Irshad Kandy, Yanghao Lin, Zhongjia Wei, Zilong Zhou, Zhiwei Peng, Jixi Shan, Hongyue Mao, Xiuqi Huang, Xun Song, Cheng Chen, Yanjia Li, Tianhao Yang, Wei Jia, Xiaohong Dong, Kang Lei, Rui Shi, Pengwei Zhao, Wei Chen

论文地址:

https://www.vldb.org/pvldb/vol18/p4964-song.pdf

背景:机器学习训练场景下的数据管理挑战

机器学习在字节跳动深度落地,海量数据与多元场景引爆管理难题。传统方案在应对大规模工作负载时漏洞百出:

存储效率瓶颈:万列宽表、多模态数据(如图像、视频)让Parquet等传统列存格式不堪重负,资源浪费严重,读写性能骤降。

索引能力欠缺:特征调研需高效主键索引,大模型训练依赖倒排、向量等多元索引,现有方案支持薄弱。

元数据管理困难:海量数据催生“大元数据”难题,缺乏Git式分支管理,特征调研与模型迭代效率低下。

高频更新需求:特征工程列添加、广告数据实时更新等场景要求极致性能。COW策略写入开销巨大,开源MOR方案读写效率不足。

大模型训练特殊性:训练框架集成缺失,资源消耗失控,吞吐量受限,成为模型迭代的隐形杀手。

技术突破:Magnus核心创新

Magnus直击痛点,在Apache Iceberg基础上实现四大革新,打造端到端优化方案:

颠覆传统!字节跳动VLDB2025发布Magnus:大规模机器学习数据管理终极革命

Magnus系统架构

1 高效存储格式与索引设计

除Parquet外,Magnus引入自研Krypton列存与Blob格式。Krypton通过轻量元数据设计,在万列宽表场景下存储空间节省30%,内存消耗大幅降低;Blob格式隔离多模态数据,支持按需提取视频帧,I/O效率提升数倍。

索引层面,Magnus提供哈希与HFile双主键索引,写入时智能路由,读时高效合并。更内置倒排、向量索引,无需外部系统,通过Spark SQL一键创建,实现存储检索一体化。

2 轻量级元数据管理与版本控制

Magnus精简Iceberg元数据70%-80%冗余信息,通过分区排序与稀疏索引,元数据解析速度提升显著。引入类Git分支操作(Rebase、Merge),分支切换仅需元数据调整,底层数据零复制。Tag机制确保版本可追溯,模型训练全程可复现。

颠覆传统!字节跳动VLDB2025发布Magnus:大规模机器学习数据管理终极革命

元数据分支与标记

3 高性能MOR更新与Upsert机制

Magnus基于轻量MOR策略,实现高性能Update与Upsert。支持列级更新,避免全行重写;更新文件按主键排序,通过sort-merge join高效合并,读写放大极低。

Upsert机制依托主键索引,数据路由至唯一桶,全局序列号解决冲突。并发提交无写时检测,延迟至MOR阶段处理,效率远超开源方案。结合Arrow引擎优化,谓词下推与IO预取并行,达成“低写入+高读取”平衡,完美适配高频更新场景。

颠覆传统!字节跳动VLDB2025发布Magnus:大规模机器学习数据管理终极革命

数据读取流程

4 大模型训练的深度适配

推荐大模型(LRM)训练优化:Magnus设计Main+Extra双表架构,Main表存储事件特征,Extra表存放用户序列特征。训练时动态拼接,存储空间降低50倍,回溯效率飙升。

颠覆传统!字节跳动VLDB2025发布Magnus:大规模机器学习数据管理终极革命

Main x Extra表

多模态大模型(LMM)训练优化:Magnus提供统一目录服务,支持存储介质无缝迁移。与BytedStreaming集成,元数据直接用于sharding与shuffle,引入细粒度planning与plan cache,内存占用降低40%,启动性能翻倍。

实证效果:生产环境性能验证

存储效率:Krypton格式在万列宽表中存储占用减30%,Footer解析时间降80%;Blob格式视频抽帧读取速度提升显著。

读写性能:TB级表列更新场景,Magnus写入速度达Iceberg COW的10倍;定期合并后读取性能持平。

大模型训练收益:LRM任务存储节省50×,吞吐提升70%;LMM训练内存减40%,启动快一倍,耗时更优。

结语

Magnus已攻克EB级数据管理难题,为行业提供可复用的机器学习数据范式。未来,随着大模型持续演进,Magnus将不断创新,夯实数据基础设施基石。

训练设施团队为字节跳动大规模机器学习及大模型场景提供计算、编排、数据管理全栈解决方案,涵盖Primus、Ray、Magnus等核心框架。机会难得!立即加入我们,共同推动AI基础设施变革!简历投递:wuyixin.yx@bytedance.com。

相关问答

数据科学与大数据技术专业学什么?什么是数据科学与大数据技...

[回答]每当高考结束,特别是各省份的高考分数公布之后,很多高考学生在专业选择上存在很多疑惑,志愿填报想要选择数据科学与大数据技术专业的很多同学都想了...

简述数据库系统阶段数据管理技术的四大特点?

数据库系统阶段数据管理技术的四大特点:数据库管理系统来管理数据、数据共享性强、数据独立性高、结构化强等特点。数据库管理技术有3个阶段:人工管理阶段、...

数据科学与大数据技术和大数据管理与应用有什么区别?

数据科学、大数据技术和大数据管理与应用是三个相关但不同的概念。数据科学是一门跨学科的学科,涉及统计学、计算机科学、数学、领域知识等多个领域,旨在通过...

大数据技术与应用与数据管理区别?

第一个区别就是专业分类不同。大数据管理与应用是管理学门类下的专业,属于管理科学与工程类,毕业授予的是管理学学士学位。数据科学与大数据技术是工学门类下...

张雪峰建议学大数据管理吗?

建议学。大数据管理与应用领域的人才缺口是比较大的,数据科学与大数据技术专业近两年的就业表现也比较突出,在大数据开始广泛落地应用的大背景下,大数据管理...

大数据与会计和计算机应用哪个好?

大数据、会计和计算机应用都是在当今数字化时代中非常重要的领域。它们各自有着不同的特点和发展前景,因此选择哪个更好取决于您的兴趣、职业目标和市场需求。

211大数据有前途吗?

1.个人认为211大学的大数据专业是比较有前途的。2.首先211大学是国内非常好的大学。211大学在就业市场上面。211大学毕业生在就业市场竞争力是非常强的,也是...

数学科学与大数据技术和大数据管理与应用哪个比较好?

大数据技术更好,大数据技术领域的人才缺口是比较大的,数据科学与大数据技术专业近两年的就业表现也比较突出,在大数据开始广泛落地应用的大背景下,大数据管理...

大数据技术对人力资源管理的影响是全局性的?

大数据将为人力资源规划提供更为科学、全面的信息与数据基础;知识数据库将学习资源和学习需求实时链接和高效匹配,更有利于学习目标的达成;薪酬数据库使得外部...

dpc数据处理技术?

DPC代表数据处理计算机。数据处理机是指对数据进行分类、合并、存储、检索和计算等操作的装置,包括会计机,制表机、卡片处理机以及存储程序的自动计算机。...