你好，我是黄奕铭。

当前主线：AI Systems

研究主页 / 研究型工程师

AI
&SYSTEMS

AI Systems / Efficient Inference / Hardware-Aware Execution

AI 系统研究者与工程师

我关注高效 AI 系统的研究与工程实践，兴趣集中在多模态学习、CUDA 优化、运行时调度以及面向边缘场景的 AI 基础设施。我希望把模型理解、推理优化和底层硬件执行连接起来。

高效推理CUDA 与系统多模态 AI

查看研究方向查看简历

研究型工程师，不只是做模型。

我更关注模型如何真正运行起来，包括推理效率、访存行为、运行时调度，以及模型与硬件之间的实际耦合。

从 CUDA 内核优化、基于 RAG 的代码分析，到多模态研究与系统级推理优化，我希望持续构建兼具研究深度和工程落地能力的 AI 系统。

5+代表性技术项目

1在准备中的论文

50+技术博客文章

3.7/4.0硕士 CAP

查看更多研究与项目01

向下滚动

黄奕铭研究与工程并重模型到底层硬件

聚焦

研究聚焦

我目前主要关注一个问题：在真实系统里，尤其是在显存、带宽、延迟和硬件资源受限的条件下，怎样让现代 AI 模型运行得更高效。

从推理效率、编译优化到硬件现实，我更关心系统整体如何落地。

高效 AI 推理

我关心的不只是模型在 benchmark 上的表现，更关心它们在实际部署中的延迟、访存和推理效率，尤其是 Transformer 与多模态任务。

编译器与运行时协同优化

我希望把量化、算子融合、代码生成和运行时调度看作一个相互耦合的系统问题，而不是彼此割裂的独立优化环节。

面向硬件的系统视角

我的思考方式受到内存层次、数据局部性、寄存器压力、指令吞吐以及边缘设备和 GPU 平台实际约束的影响。

作品

代表项目

这些项目体现了我如何把研究问题意识和动手实现能力结合起来，去处理 AI 系统中的实际问题。

查看完整项目

AI Systems

CUDA GEMM 性能优化与体系结构分析

围绕共享内存分块、寄存器分块和 profiling 驱动分析，对 GEMM 内核进行了实现与优化，重点关注算术强度提升和整体执行性能改进。

CUDAProfiling访存优化

AI Systems

基于 LLM 与 RAG 的代码架构分析系统

构建了一个结合 LLM、AST 切块、向量检索和 CUDA 专项解析的仓库分析系统，用于结构化理解源码和进行交互式推理。

LLMRAGAST

AI Systems

多模态视频描述研究

设计了一个面向视频到文本生成的多模态系统，在 Transformer 对齐机制之外，也关注其部署效率和系统层面的可行性。

多模态ViT推理

查看完整项目

背景

背景与积累

我的背景并不局限于单一方向，而是把研究训练与工程实践结合起来，覆盖数据系统、系统维护、网络和技术工具构建。

能力脉络

01-05

01硕士阶段持续聚焦多模态 AI 与高效推理
02正在准备学术论文投稿
03具有数据管道与自动化工程经验
04具备早期系统与网络运维背景
05持续深入学习 CSAPP、系统编程与性能分析

AI
&SYSTEMS

AI 系统研究者与工程师

研究聚焦

高效 AI 推理

编译器与运行时协同优化

面向硬件的系统视角

代表项目

CUDA GEMM 性能优化与体系结构分析

基于 LLM 与 RAG 的代码架构分析系统

多模态视频描述研究

背景与积累

相关材料

个人公众号

AI&SYSTEMS

AI 系统研究者与工程师

研究聚焦

高效 AI 推理

编译器与运行时协同优化

面向硬件的系统视角

代表项目

CUDA GEMM 性能优化与体系结构分析

基于 LLM 与 RAG 的代码架构分析系统

多模态视频描述研究

背景与积累

相关材料

个人公众号

AI
&SYSTEMS