社招_中诚华隆计算机技术有限公司_中诚华隆计算机技术有限公司国产CPU 全国产算力全栈AI

AI芯片架构工程师（专家）

本科及以上学历，计算机科学与技术、微电子学与固体电子学、电子信息工程、自动化、数学等相关专业

1人

本科及以上学历

职位描述：

参与GPGPU核心架构及微架构设计，包括计算单元、存储层次、互联架构等核心模块的方案定义与优化

参与构建GPGPU架构性能模型，开展性能测试与分析，定位性能瓶颈并提供优化方案，达成设计规格目标。

展开软件，算法，芯片设计、验证、驱动开发等跨部门团队合作，开展软硬件协同设计，参与芯片功能与性能验证，协助解决架构层面的技术难题。

跟踪GPGPU领域前沿技术，调研行业竞品架构特点，开展技术预研与创新，输出调研与预研报告，支撑产品迭代升级。

沉淀架构设计经验与方法论，完善技术文档体系，指导初级工程师技术成长

任职要求：

具备扎实的计算机体系结构、数字集成电路设计、并行计算等相关专业知识，深刻理解GPGPU内核及SOC架构原理及SIMT执行模型，熟悉计算核心、存储层次、互联架构的设计要点。

专家5年以上经验，GPGPU架构设计经验，具备完整的GPGPU芯片从架构设计到量产落地的项目经验，能独立主导复杂GPGPU架构设计与优化，有先进工艺芯片研发经验者优先

具备良好的沟通协调能力和团队协作精神，能高效对接跨部门团队，推动项目落地执行

芯片架构建模工程师（专家）

计算机、微电子、电子工程等相关专业本科及以上学历

1人

本科及以上学历

职位描述：

负责GPGPU芯片的电子系统级（ESL）建模，包括UT,LT,CA模型开发，支持RTL验证及虚拟原型平台搭建。

构建基于SystemC/TLM/Gem5的仿真环境，AI core及SoC系统级建模，建立高效、可扩展的建模工具链及架构性能评估工具，支持软硬件协同开发。

通过模型仿真进行GPGPU架构探索，识别性能瓶颈（如吞吐量、延迟、带宽等），提出量化优化方案。配合芯片架构团队完成AI大模型的算力评估、任务调度机制优化及PPA（性能、功耗、面积）分析。

与芯片设计、验证及软件团队协同，校准模型与RTL实现的一致性，支持UVM验证和形式验证。协助编译编辑器及工具链开发，优化AI算子性能及算法部署效率。

跟踪业界前沿建模技术，推动建模方法和工具的持续创新

任职要求：

专家5年以上经验，数字电路设计/验证/建模经验，有完整GPGPU芯片流片经验者优先。

精通C++/SystemC/TLM/Gem5，熟悉Linux开发环境及脚本语言（Python/Perl/Shell）。

熟悉计算机体系结构，具备GPGPU/NPU等高性能芯片建模经验，熟悉Gem5、GPGPU-Sim, Verilator, PA等模拟器者优先。

软件团队负责人（算子方向）

本科及以上学历，计算机、电子、数学等相关专业；3 年以上 AI Infra 或算子开发经验（专家级/负责人岗位需 5 年以上，并有可量化的优化成果）

1人

本科及以上学历

职位描述：

核心算子研发：负责大模型核心算子（Attention、GEMM、LayerNorm、MoE 等）的深度开发与优化，覆盖训练与推理全场景，极致提升吞吐量并降低显存占用。

高性能编程实践：熟练运用 Triton、CuTile 或 CUDA C++ 进行高性能算子实现，针对 DeepSeek、Qwen 等主流大模型架构，进行定制化的性能调优与逻辑适配。

算子库架构设计：参与 AI Infra 算子层架构设计，推动算子的标准化、模块化与工程化，提升在不同计算平台上的复用性与可维护性。

算法与框架协同：与算法、框架团队紧密配合，将前沿算法逻辑高效转化为底层算子实现，解决模型规模化过程中的计算瓶颈与技术挑战。

前沿技术探索：持续跟踪算子融合、自动调优（Auto-tuning）、低比特量化等前沿技术，并将其应用于生产环境，保持技术的领先性。

任职要求：

模型经验：熟悉主流大模型架构（Transformer、MoE 等），具备 DeepSeek、Qwen 等模型的算子优化实战经验，理解算子执行逻辑与模型性能的深度绑定关系。

技术栈精通： * 精通 Triton 编程，能够利用其 DSL 快速实现高性能并行算子。

或精通 CUDA C++ 开发，熟悉 CuTile、Cutlass 或 CuDNN 等库，对分块（Tiling）、流水线（Pipelining）和并行策略有深刻理解。

架构认知：深刻理解 GPU 架构（计算单元、存储层次、指令集），具备独立定位与排查计算瓶颈（Memory-bound vs. Compute-bound）的能力。

工程素养：具备良好的代码规范与工程化能力，熟悉计算图优化、算子融合等编译阶段优化技术。

加分项：

有 DeepSeek、Qwen 等大规模集群优化经验，能提供明确的加速比或显存节省数据。

大模型算子工程师（资深）

本科及以上学历，计算机、电子、数学等相关专业；3 年以上 AI Infra 或算子开发经验（专家级/负责人岗位需 5 年以上，并有可量化的优化成果）

1人

本科及以上学历

职位描述：

核心算子研发：负责大模型核心算子（Attention、GEMM、LayerNorm、MoE 等）的深度开发与优化，覆盖训练与推理全场景，极致提升吞吐量并降低显存占用。

高性能编程实践：熟练运用 Triton、CuTile 或 CUDA C++ 进行高性能算子实现，针对 DeepSeek、Qwen 等主流大模型架构，进行定制化的性能调优与逻辑适配。

算子库架构设计：参与 AI Infra 算子层架构设计，推动算子的标准化、模块化与工程化，提升在不同计算平台上的复用性与可维护性。

算法与框架协同：与算法、框架团队紧密配合，将前沿算法逻辑高效转化为底层算子实现，解决模型规模化过程中的计算瓶颈与技术挑战。

前沿技术探索：持续跟踪算子融合、自动调优（Auto-tuning）、低比特量化等前沿技术，并将其应用于生产环境，保持技术的领先性。

任职要求：

模型经验：熟悉主流大模型架构（Transformer、MoE 等），具备 DeepSeek、Qwen 等模型的算子优化实战经验，理解算子执行逻辑与模型性能的深度绑定关系。

技术栈精通： * 精通 Triton 编程，能够利用其 DSL 快速实现高性能并行算子。

或精通 CUDA C++ 开发，熟悉 CuTile、Cutlass 或 CuDNN 等库，对分块（Tiling）、流水线（Pipelining）和并行策略有深刻理解。

架构认知：深刻理解 GPU 架构（计算单元、存储层次、指令集），具备独立定位与排查计算瓶颈（Memory-bound vs. Compute-bound）的能力。

工程素养：具备良好的代码规范与工程化能力，熟悉计算图优化、算子融合等编译阶段优化技术。

加分项：

有 DeepSeek、Qwen 等大规模集群优化经验，能提供明确的加速比或显存节省数据。

系统软件工程师（专家）

计算机、电子工程、微电子或相关专业本科及以上学历

2人

本科及以上学历

职位描述：

IP 驱动集成与优化：负责 AI 芯片内各类核心 IP（如 NPU 计算核、NoC、内存控制器、DMA、时钟管理等）的驱动编写、调试及性能优化。

固件与 Runtime 架构设计：主导芯片侧固件（Firmware）以及 Runtime 系统的整体架构设计与开发，实现高效的任务调度、内存管理和多硬件加速器协同。

全栈软件开发：负责从 Host 侧（Linux Kernel）到 Device 侧（Bare-metal/RTOS）的通信机制设计（如 PCIe 通信、Command Queue、中断处理等）。

性能分析与调优：针对主流 AI 模型在芯片上的执行路径，进行全链路性能分析，解决系统软件层面的瓶颈问题。

软硬件协同设计：参与下一代芯片架构的定义，从软件视角提供硬件 IP 的功能与接口建议。

任职要求：

年限：架构师/专家5年以上经验

核心技术能力：

深度硬件理解：熟悉 AI 芯片常见 IP 架构，对加速器架构（NPU/TPU）、内存体系（HBM/LPDDR）、互联总线（PCIe/NoC）有实战经验。

OS/内核功底：精通 Linux 内核驱动架构，具备丰富的 KMD (Kernel Mode Driver) 开发经验，熟悉内核同步机制、内存分配、中断处理及 DMA。

用户态驱动经验：熟悉 UMD (User Mode Driver) 架构，有类似 CUDA/ROCm 或 OpenCL 驱动开发经验者优先；理解用户态内存管理与指令提交机制。

编程功底：精通 C/C++，具备优秀的底层代码编写和优化能力，熟悉汇编语言及常用调试工具（GDB, JTAG, Trace32）。

系统工程能力：能够从 Host 驱动侧到芯片系统侧进行全栈思考，深刻理解计算图执行过程中的指令流、数据流以及软硬件同步机制。

加分项

有成功量产过的 AI 芯片（训练或推理）全栈软件开发经验。

熟悉常见 AI 编译器（如 TVM, MLIR）与底层 Runtime 的对接。

在开源社区（Linux Kernel, LLVM 等）有贡献记录。

大模型推理框架（应用或架构）工程师（资深）

教育背景：计算机、电子工程、数学等相关专业硕士或博士学历。

2人

硕士或博士学历

职位描述：

核心架构设计：负责分析大语言模型、多模态模型的数据流与计算流，主导模型切分、并行策略、通信优化及调度策略等关键架构方案。

引擎深度优化：基于 vLLM、SGLang 等前沿项目，主导实现 PD 分离、异构硬件（CPU/GPU/NPU）高效协同，并确立端到端精度无损与性能达标。

显存与算力调优：设计并实现高性能 Virtual Block 管理（Virtual KV Cache 管理）、算子融合及高效的动态批处理（Continuous Batching）机制。

分布式方案落地：针对超大规模集群，构建涵盖 TP（张量并行）、DP（数据并行）、PP（流水线并行）及混合并行的最优拆分手段，优化集群通信（NCCL/RDMA）调优。

异构加速计算：探索池化的跨异构加速计算方法，协同硬件团队定义指令集或优化 Runtime 驱动，实现软硬一体的深度适配。

技术前瞻与决策：追踪推测解码（Speculative Decoding）、量化推理（INT8/FP8/W4A16）等前沿技术，为公司资源采购与技术选型提供核心决策依据。

任职要求：

行业背景：

具有 5 年以上 AI 系统或高性能计算开发经验，至少 2 年专注于 LLM 推理优化。

优先考虑：曾在腾讯、阿里、字节等互联网大厂负责底层异构加速计算，或在主流 GPU/NPU 芯片公司担任软件架构负责人。

核心技能：

精通 vLLM、SGLang、DeepSpeed、Megatron 等至少一种主流框架的底层源码与核心机制。

深刻理解计算机体系结构，对 GPU/NPU 的内存层次（HBM/SRAM）、执行单元及并行编程（CUDA/Triton/CANN）有深入研究。

熟练掌握大规模分布式训练/推理中的精度调试、性能剖析（Nsight Systems, PyTorch Profiler）及存储占用调优。

综合素质：具备出色的技术前瞻性、跨团队协作能力及系统级问题解决能力，能够带领团队在极限资源下交付 SOTA 性能。

加分项

在 vLLM、SGLang、MLIR、TVM 等知名开源社区有核心代码贡献（Maintainer/Committer）。

有超大规模（百卡/千卡以上）异构算力集群推理方案的实际落地经验。

前端设计工程师（SOC集成方向）

计算机体系架构，微电子，电子，通信或其他弱电相关专业背景，硕士及以上相关专业学历，专家8年以上芯片设计经验，资浅3年以上芯片设计经验

1人

硕士及以上学历

职位描述：

深度参与大模型AI芯片的架构和设计实现，与算法、软件、工具链、GPGPU核团队一起进行软硬件协同设计，参与大模型AI芯片的原始需求和规格的定义与分析，完成SOC详细设计规格，制定设计方案和开发计划；

负责芯片设计工作，包括模块/子系统的微架构定义，SOC系统数据流分析和梳理，RTL开发和集成，时钟复位设计，低功耗设计，总线互联设计，SDC，UPF，SOC集成和综合实现等；

负责模块/子系统的性能、时序、功耗、面积评估和优化；

深度参与SOC模块级和系统级验证；

深度参与芯片后端迭代，进行性能分析、功耗分析等；

深度参与芯片验证、后仿、底层软件开发联调以及芯片回片测试和量产导入等相关工作；

任职要求：

计算机体系架构，微电子，电子，通信或其他弱电相关专业背景，硕士及以上相关专业学历，专家8年以上芯片设计经验，资浅3年以上芯片设计经验

有完整的SoC设计开发流程及成功流片经验，尤其是有先进工艺下大算力芯片成功量产的经验；

熟悉CHI，AXI4/5，AHB，APB，ACE等总线协议和Cache一致性；

熟悉对性能、时序、功耗、面积等设计关键指标的分析和优化；

熟练掌握Lint，CDC，Synthesis，STA和LowPower等流程及其工具的使用；

熟悉计算机体系结构和主要处理器(CPU/GPU), 总线协议, 片上互联，内存标准, 高速IO, 功耗管理, 安全管理, 虚拟化等经验者优先，有HBM/DDR/PCIe/Ethernet/UCIe协议及有相关集成设计经验者尤佳；

积极主动，善于思考和规划，能够主动承担责任，有良好的团队合作意识和沟通能力。

前端设计工程师（PCIE设计方向）（资深）

计算机体系架构，微电子，电子，通信或其他弱电相关专业背景，硕士及以上相关专业学历，专家8年以上芯片设计经验

1人

硕士及以上学历

职位描述：

熟悉PCIE gen4/gen5、CXL2/3 、UCIE协议。

熟悉PCIE或者UCIE控制器和PHY集成开发流程。

熟悉Serdes控制器各个分层模块（PL，DL，TL）的设计原理和功能。

有丰富的硅后调试经验，参与过至少一次完整的从设计到硅后调试的过程。

与SOC以及IP团队合作，确保设计与整体系统架构的兼容性。

编写设计文档和技术报告，记录设计决策和优化过程。

配合上下游完成芯片验证、后端迭代、底软调试、回片测试等工作

任职要求：

有完整的SoC设计开发流程及成功流片经验，尤其是有先进工艺下大算力芯片成功量产的经验；

参与过以下一个或多个方向的SoC设计工作，系统总线及NoC、NPU/GPGPU或RISC-V CPU、PCIe/Ethernet/UCIe/MIPI等高速接口

精通Verilog或VHDL等硬件描述语言

良好的问题解决能力和团队合作精神