关于
AI Infra · 分布式系统 · 底层技术 | 思考与记录
2 文章
2 分类
2 标签
AlfredYang
2 文章
2 分类
2 标签
AlfredYang
Infra 工匠
探索 AI Infra、分布式系统与网络通信的边界
  我的简历

关于我

你好,我是一名专注于 AI 基础设施与分布式系统 的开发者,长期关注如何让 大规模模型训练 更高效、更可靠。
我喜欢从底层到系统整体的全栈思考,并通过动手实验去探索性能的边界。


技术兴趣

  • AI Infra:分布式训练、通信优化、模型并行
  • 系统与架构:操作系统、编译系统、资源调度
  • 网络与协议:TCP/IP 协议栈实现、网络拓扑与传输优化

项目与探索

在实践中,我曾参与并主导过多个与 分布式系统和 AI 基础设施 相关的项目。以下是一些代表性方向:

  • 大模型训练加速
    研究如何降低大规模模型训练过程中的跨节点通信瓶颈,优化并行算法与调度策略,显著提升分布式训练性能。

  • 系统级项目开发
    在分布式系统课程实验中,从零实现了 MapReduce 框架与 Raft 共识算法,锻炼了在高并发与故障恢复场景下的系统设计能力。

  • 网络协议实践
    独立用 C++ 实现了 TCP/IP 协议栈,覆盖了流控、重传、路由等核心机制,实现了协议栈与外部网络的互通。


我的理念

我坚信:理解系统的底层是推动 AI 基础设施进步的关键
每一次优化,不仅仅是为了提升性能数据,更是为了构建一个更优雅、更可扩展的计算世界。


博客内容

在这个博客里,你会看到我对以下主题的思考与记录:

  • 大模型基础设施与工程实践
  • 分布式系统的原理与实现
  • 网络与通信相关探索
  • 个人项目与学习笔记