- 使用二维分块与共享内存提升线程块内部的数据复用率。
- 通过寄存器分块把算术强度从 7.2 提升到 14.1 FLOPs/Byte。
- 借助 Nsight Compute 验证 DRAM 流量下降并实现 3.57 倍整体加速。
项目
代表项目
这里整理了我在 CUDA 优化、多模态 AI、代码智能和系统工具方面的代表性工作。
独立研究者独立开发者核心研究者
项目概览
这些项目主要展示我如何从模型理解逐步延伸到系统优化与硬件执行层面的实现能力。
项目 02
基于 LLM 与 RAG 的代码架构分析系统
独立开发者 / 2026 年 3 月
构建了一个结合 LLM 推理、AST 切块、向量检索与 CUDA 专项解析的仓库分析工具,用于结构化理解源码。
- 实现 GitHub 仓库自动化拉取和函数级源码切块。
- 增加了对 CUDA kernel、共享内存和访存模式的专项解析规则。
- 利用向量检索与大模型推理实现跨文件依赖分析与文档生成。
- 采用 ViT 风格视觉编码器处理视频帧特征。
- 构建了基于 Transformer 的跨模态语义对齐机制。
- 推进论文准备工作,并将模型设计与系统效率问题连接起来。
项目 04
从零实现 Transformer 文本大模型
独立开发者 / 2025 年 7 月 - 8 月
从零构建小型生成式语言模型,以深入理解 tokenizer、attention、预训练与微调流程。
- 独立实现数据预处理和 tokenizer 管道。
- 完成预训练与垂直场景微调流程。
- 重点关注训练策略、显存控制和垂直领域生成质量。
项目 05
Etshark 网络协议抓包解析系统
独立开发者 / 2025 年 2 月 - 5 月
开发了一套对标 tshark 思路的全栈抓包与协议解析工具,以 C++ 负责底层解析,并强化本地化体验。
- 实现离线与在线数据包解析以及协议树翻译。
- 完成 C++ 后端与 Electron / JavaScript 打包流程整合。
- 通过中文界面优化提升国内开发者的使用体验。