关于我
你好,我是一名专注于 AI 基础设施与分布式系统 的开发者,长期关注如何让 大规模模型训练 更高效、更可靠。
我喜欢从底层到系统整体的全栈思考,并通过动手实验去探索性能的边界。
技术兴趣
- AI Infra:分布式训练、通信优化、模型并行
- 系统与架构:操作系统、编译系统、资源调度
- 网络与协议:TCP/IP 协议栈实现、网络拓扑与传输优化
项目与探索
在实践中,我曾参与并主导过多个与 分布式系统和 AI 基础设施 相关的项目。以下是一些代表性方向:
大模型训练加速
研究如何降低大规模模型训练过程中的跨节点通信瓶颈,优化并行算法与调度策略,显著提升分布式训练性能。系统级项目开发
在分布式系统课程实验中,从零实现了 MapReduce 框架与 Raft 共识算法,锻炼了在高并发与故障恢复场景下的系统设计能力。网络协议实践
独立用 C++ 实现了 TCP/IP 协议栈,覆盖了流控、重传、路由等核心机制,实现了协议栈与外部网络的互通。
我的理念
我坚信:理解系统的底层是推动 AI 基础设施进步的关键。
每一次优化,不仅仅是为了提升性能数据,更是为了构建一个更优雅、更可扩展的计算世界。
博客内容
在这个博客里,你会看到我对以下主题的思考与记录:
- 大模型基础设施与工程实践
- 分布式系统的原理与实现
- 网络与通信相关探索
- 个人项目与学习笔记