官方服务微信:dat818 购买与出租对接

大规模部署中的ZNS SSD与Kubernetes GC设计:提升性能与资源管理

7157

主题

2

回帖

2万

积分

管理员

积分
21619
发表于 2024-12-1 09:46:17 | 显示全部楼层 |阅读模式
    分布式系统

    1.ZNS SSD大规模部署

    摘要: 支持分区命名空间(ZNS)的SSD由于在成本效益和性能提升方面较传统SSD具有显着优势,逐渐成为大规模存储部署中的热门选择。这些优势包括吞吐量提高三到四倍、SSD 寿命延长以及针对 I/O 密集型工作负载使用 QLC 介质。

    2. GC设计与实现

    摘要:与内置垃圾回收编程语言(如Go、Java)一样,内部也存在垃圾回收机制,用于清理集群中的残留资源。整个级联资源的垃圾回收机制的设计思路非常巧妙,能够有效解决问题。很多控制器的设计可以参考不同场景下的级联资源删除问题。

    云计算技术

    1.VFP:公有云主机SDN虚拟交换平台

   


    摘要:本文翻译自 NSDI'17 论文《VFP: A for Host SDN in the Cloud》,介绍了微软 Azure 云在设计 Host 方面的经验(VFP: A for Host SDN in the Cloud)。

    2、利用CXL技术重构基于RDMA的内存解耦

    摘要:内存解耦(内存解耦)是一种很有前景的现代数据中心架构,它将计算和内存资源分离到独立的资源池中。通过超高速网络连接,可以提高内存利用率,降低成本,实现计算和内存资源的弹性扩展,本文提出一种基于RDMA和CXL的新型低延迟、高扩展性内存解耦系统。

    大模型技术

    1.专门针对大模型训练优化,百度集体通讯库BCCL万卡集群快速定位故障

    摘要:BCCL实时记录集体通讯中的通讯状态。当任务挂起时,BCCL将输出每个rank的集体通信状态。运维工程师可以根据这些数据特征进一步缩小故障GPU的范围。

    2、万字长文解构中国如何复制Sora:模型架构、参数规模、数据规模、训练成本

   


    摘要:多模态统一模型的趋势日益明显。这是一个由数据量、模型参数、算力需求和成本效益驱动的过程。随着技术的融合和开源生态系统的构建,未来将以更低的成本实现更高层次的模型,为人类创建和理解复杂的多模态内容开辟新的可能性。

    超越技术

    1. 首席科学家 Bill Dally:深度学习硬件趋势

    摘要:深度学习的成功得益于强大而高效的计算硬件。尽管深度学习算法自 20 世纪 80 年代以来就已存在,但直到最近十年,随着功能强大的 GPU 的出现,该技术才变得实用。深度学习的进展现在受到硬件性能的限制。本次演讲将回顾这段历史,并讨论数字表示的进一步改进,包括对数表示、最佳裁剪和每向量量化。

    2. 为什么越来越多的数据中心使用FPGA?

    摘要:过去我们主要是基于CPU,将重复的计算任务卸载到FPGA上;未来我们会基于FPGA,将复杂的计算任务卸载到CPU吗?随着Xeon + FPGA的出现,古老的SoC会在数据中心找到新的生命吗?
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2024, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2024-12-20 20:35 , Processed in 0.073879 second(s), 18 queries .