研究主页 / 研究型工程师

AI
&SYSTEMS

AI Systems / Efficient Inference / Hardware-Aware Execution

AI 系统研究者与工程师

我关注高效 AI 系统的研究与工程实践,兴趣集中在多模态学习、CUDA 优化、运行时调度以及面向边缘场景的 AI 基础设施。我希望把模型理解、推理优化和底层硬件执行连接起来。

高效推理CUDA 与系统多模态 AI

研究型工程师,不只是做模型。

我更关注模型如何真正运行起来,包括推理效率、访存行为、运行时调度,以及模型与硬件之间的实际耦合。

从 CUDA 内核优化、基于 RAG 的代码分析,到多模态研究与系统级推理优化,我希望持续构建兼具研究深度和工程落地能力的 AI 系统。

5+代表性技术项目
1在准备中的论文
50+技术博客文章
3.7/4.0硕士 CAP
查看更多研究与项目01
向下滚动
黄奕铭研究与工程并重模型到底层硬件

聚焦

研究聚焦

我目前主要关注一个问题:在真实系统里,尤其是在显存、带宽、延迟和硬件资源受限的条件下,怎样让现代 AI 模型运行得更高效。

01

高效 AI 推理

我关心的不只是模型在 benchmark 上的表现,更关心它们在实际部署中的延迟、访存和推理效率,尤其是 Transformer 与多模态任务。

02

编译器与运行时协同优化

我希望把量化、算子融合、代码生成和运行时调度看作一个相互耦合的系统问题,而不是彼此割裂的独立优化环节。

03

面向硬件的系统视角

我的思考方式受到内存层次、数据局部性、寄存器压力、指令吞吐以及边缘设备和 GPU 平台实际约束的影响。

作品

代表项目

这些项目体现了我如何把研究问题意识和动手实现能力结合起来,去处理 AI 系统中的实际问题。

01

AI Systems

CUDA GEMM 性能优化与体系结构分析

围绕共享内存分块、寄存器分块和 profiling 驱动分析,对 GEMM 内核进行了实现与优化,重点关注算术强度提升和整体执行性能改进。

CUDAProfiling访存优化

02

AI Systems

基于 LLM 与 RAG 的代码架构分析系统

构建了一个结合 LLM、AST 切块、向量检索和 CUDA 专项解析的仓库分析系统,用于结构化理解源码和进行交互式推理。

LLMRAGAST

03

AI Systems

多模态视频描述研究

设计了一个面向视频到文本生成的多模态系统,在 Transformer 对齐机制之外,也关注其部署效率和系统层面的可行性。

多模态ViT推理

背景

背景与积累

我的背景并不局限于单一方向,而是把研究训练与工程实践结合起来,覆盖数据系统、系统维护、网络和技术工具构建。

能力脉络

01-05
  • 01硕士阶段持续聚焦多模态 AI 与高效推理
  • 02正在准备学术论文投稿
  • 03具有数据管道与自动化工程经验
  • 04具备早期系统与网络运维背景
  • 05持续深入学习 CSAPP、系统编程与性能分析

相关入口

相关材料

目前专注于机器学习系统(MLSys)与底层算子优化研究。致力于探索高性能计算、GPU 编程及 AI 基础设施领域的工程挑战,寻求能发挥系统级开发能力的技术岗位,长期深耕分布式系统与 AI 部署优化。

GitHub博客邮箱
技术洞察展开

WeChat

个人公众号

这里会分享我在 MLSys、GPU 编程、底层优化和工程实践中的一些观察与思考。欢迎扫码关注。

在手机端点击后,可长按二维码进行识别。

个人公众号