中国工程院院士郑纬民:持续优化数据存储结构
|
◎记者 宋薇萍
近日,在2024 Inclusion·外滩大会上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民接受上海证券报记者专访表示,人工智能将对经济发展和人民生活水平提高发挥着越来越大的作用。人工智能发展离不开三个要素,分别是数据、算法、算力。算力扩容,除加强基础设施建设外,还应该千方百计扩大存储。建议人工智能企业通过不断优化数据存储结构应对算力挑战。
郑纬民认为,大模型需要大算力,也需要大存储,但相应会导致大成本,“大模型生命周期的每一个环节都与存储系统有关。分布式技术又存在于大模型生命周期的每一环,建议优化内部存储结构,向存储要算力”。
郑纬民分析称,比如在数据获取阶段,大模型训练需要收集海量多模态小文件,任一模态的数据集包含多达数亿至数百亿小文件,对文件系统元数据管理提出挑战。在数据处理阶段,频繁、随机的小样本读取等海量数据处理也对底层大数据处理框架提出挑战。模型训练阶段,检查点文件读写对存储系统读写提出挑战。在模型推理阶段,模型参数和中间结果KVCache对内存系统容量和传输速度提出挑战,中间结果KVCache往往要占据更多存储空间。
“如何花更少的资金建设更强大的基础设施,满足更大的市场需求?人工智能企业不要一味追求硬件扩容,应在软件优化上寻求解决方案。”郑纬民说。
他建议,大模型企业在推理过程中,应考虑为历史中间结果KVCache专门设置高容量、高宽带的存储系统,保留中间结果,以便重复利用,节省算力。“以大模型辅助读论文场景为例,当不同用户对同一篇论文进行提问,只要能将共享的可复用的部分保存下来多次复用,就可以大幅降低算力开销。”郑纬民说。