01
高效 AI 推理
我关心的不只是模型在 benchmark 上的表现,更关心它们在实际部署中的延迟、访存和推理效率,尤其是 Transformer 与多模态任务。
AI Systems / Efficient Inference / Hardware-Aware Execution
我关注高效 AI 系统的研究与工程实践,兴趣集中在多模态学习、CUDA 优化、运行时调度以及面向边缘场景的 AI 基础设施。我希望把模型理解、推理优化和底层硬件执行连接起来。
研究型工程师,不只是做模型。
我更关注模型如何真正运行起来,包括推理效率、访存行为、运行时调度,以及模型与硬件之间的实际耦合。
从 CUDA 内核优化、基于 RAG 的代码分析,到多模态研究与系统级推理优化,我希望持续构建兼具研究深度和工程落地能力的 AI 系统。
聚焦
我目前主要关注一个问题:在真实系统里,尤其是在显存、带宽、延迟和硬件资源受限的条件下,怎样让现代 AI 模型运行得更高效。
01
我关心的不只是模型在 benchmark 上的表现,更关心它们在实际部署中的延迟、访存和推理效率,尤其是 Transformer 与多模态任务。
02
我希望把量化、算子融合、代码生成和运行时调度看作一个相互耦合的系统问题,而不是彼此割裂的独立优化环节。
03
我的思考方式受到内存层次、数据局部性、寄存器压力、指令吞吐以及边缘设备和 GPU 平台实际约束的影响。
作品
这些项目体现了我如何把研究问题意识和动手实现能力结合起来,去处理 AI 系统中的实际问题。
01
AI Systems围绕共享内存分块、寄存器分块和 profiling 驱动分析,对 GEMM 内核进行了实现与优化,重点关注算术强度提升和整体执行性能改进。
02
AI Systems构建了一个结合 LLM、AST 切块、向量检索和 CUDA 专项解析的仓库分析系统,用于结构化理解源码和进行交互式推理。
03
AI Systems设计了一个面向视频到文本生成的多模态系统,在 Transformer 对齐机制之外,也关注其部署效率和系统层面的可行性。
背景
我的背景并不局限于单一方向,而是把研究训练与工程实践结合起来,覆盖数据系统、系统维护、网络和技术工具构建。
能力脉络
01-05