请输入关键字
服务与销售热线:400-168-9875
服务邮箱:zhongchenghualong@zchlsc.com
招聘邮箱:hr@zchlsc.com
recruit
招贤纳士
职位名称
专业要求
招聘人数
学历
AI芯片架构工程师(专家)
本科及以上学历,计算机科学与技术、微电子学与固体电子学、电子信息工程、自动化、数学等相关专业
1人
本科及以上学历
职位描述:
参与GPGPU核心架构及微架构设计,包括计算单元、存储层次、互联架构等核心模块的方案定义与优化
参与构建GPGPU架构性能模型,开展性能测试与分析,定位性能瓶颈并提供优化方案,达成设计规格目标。
展开软件,算法,芯片设计、验证、驱动开发等跨部门团队合作,开展软硬件协同设计,参与芯片功能与性能验证,协助解决架构层面的技术难题。
跟踪GPGPU领域前沿技术,调研行业竞品架构特点,开展技术预研与创新,输出调研与预研报告,支撑产品迭代升级。
沉淀架构设计经验与方法论,完善技术文档体系,指导初级工程师技术成长

任职要求:
具备扎实的计算机体系结构、数字集成电路设计、并行计算等相关专业知识,深刻理解GPGPU内核及SOC架构原理及SIMT执行模型,熟悉计算核心、存储层次、互联架构的设计要点。
专家5年以上经验,GPGPU架构设计经验,具备完整的GPGPU芯片从架构设计到量产落地的项目经验,能独立主导复杂GPGPU架构设计与优化,有先进工艺芯片研发经验者优先
具备良好的沟通协调能力和团队协作精神,能高效对接跨部门团队,推动项目落地执行
芯片架构建模工程师(专家)
计算机、微电子、电子工程等相关专业本科及以上学历
1人
本科及以上学历
职位描述:
负责GPGPU芯片的电子系统级(ESL)建模,包括UT,LT,CA模型开发,支持RTL验证及虚拟原型平台搭建。
构建基于SystemC/TLM/Gem5的仿真环境,AI core及SoC系统级建模,建立高效、可扩展的建模工具链及架构性能评估工具,支持软硬件协同开发。
通过模型仿真进行GPGPU架构探索,识别性能瓶颈(如吞吐量、延迟、带宽等),提出量化优化方案。配合芯片架构团队完成AI大模型的算力评估、任务调度机制优化及PPA(性能、功耗、面积)分析。
与芯片设计、验证及软件团队协同,校准模型与RTL实现的一致性,支持UVM验证和形式验证。协助编译编辑器及工具链开发,优化AI算子性能及算法部署效率。
跟踪业界前沿建模技术,推动建模方法和工具的持续创新
任职要求:
专家5年以上经验,数字电路设计/验证/建模经验,有完整GPGPU芯片流片经验者优先。
精通C++/SystemC/TLM/Gem5,熟悉Linux开发环境及脚本语言(Python/Perl/Shell)。
熟悉计算机体系结构,具备GPGPU/NPU等高性能芯片建模经验,熟悉Gem5、GPGPU-Sim, Verilator, PA等模拟器者优先。

软件团队负责人(算子方向)
本科及以上学历,计算机、电子、数学等相关专业;3 年以上 AI Infra 或算子开发经验(专家级/负责人岗位需 5 年以上,并有可量化的优化成果)
1人
本科及以上学历
职位描述:
核心算子研发: 负责大模型核心算子(Attention、GEMM、LayerNorm、MoE 等)的深度开发与优化,覆盖训练与推理全场景,极致提升吞吐量并降低显存占用。
高性能编程实践: 熟练运用 Triton、CuTile 或 CUDA C++ 进行高性能算子实现,针对 DeepSeek、Qwen 等主流大模型架构,进行定制化的性能调优与逻辑适配。
算子库架构设计: 参与 AI Infra 算子层架构设计,推动算子的标准化、模块化与工程化,提升在不同计算平台上的复用性与可维护性。
算法与框架协同: 与算法、框架团队紧密配合,将前沿算法逻辑高效转化为底层算子实现,解决模型规模化过程中的计算瓶颈与技术挑战。
前沿技术探索: 持续跟踪算子融合、自动调优(Auto-tuning)、低比特量化等前沿技术,并将其应用于生产环境,保持技术的领先性。

任职要求:
模型经验: 熟悉主流大模型架构(Transformer、MoE 等),具备 DeepSeek、Qwen 等模型的算子优化实战经验,理解算子执行逻辑与模型性能的深度绑定关系。
技术栈精通: * 精通 Triton 编程,能够利用其 DSL 快速实现高性能并行算子。
或精通 CUDA C++ 开发,熟悉 CuTile、Cutlass 或 CuDNN 等库,对分块(Tiling)、流水线(Pipelining)和并行策略有深刻理解。
架构认知: 深刻理解 GPU 架构(计算单元、存储层次、指令集),具备独立定位与排查计算瓶颈(Memory-bound vs. Compute-bound)的能力。
工程素养: 具备良好的代码规范与工程化能力,熟悉计算图优化、算子融合等编译阶段优化技术。
加分项:
有 DeepSeek、Qwen 等大规模集群优化经验,能提供明确的加速比或显存节省数据。

大模型算子工程师(资深)
本科及以上学历,计算机、电子、数学等相关专业;3 年以上 AI Infra 或算子开发经验(专家级/负责人岗位需 5 年以上,并有可量化的优化成果)
1人
本科及以上学历
职位描述:
核心算子研发: 负责大模型核心算子(Attention、GEMM、LayerNorm、MoE 等)的深度开发与优化,覆盖训练与推理全场景,极致提升吞吐量并降低显存占用。
高性能编程实践: 熟练运用 Triton、CuTile 或 CUDA C++ 进行高性能算子实现,针对 DeepSeek、Qwen 等主流大模型架构,进行定制化的性能调优与逻辑适配。
算子库架构设计: 参与 AI Infra 算子层架构设计,推动算子的标准化、模块化与工程化,提升在不同计算平台上的复用性与可维护性。
算法与框架协同: 与算法、框架团队紧密配合,将前沿算法逻辑高效转化为底层算子实现,解决模型规模化过程中的计算瓶颈与技术挑战。
前沿技术探索: 持续跟踪算子融合、自动调优(Auto-tuning)、低比特量化等前沿技术,并将其应用于生产环境,保持技术的领先性。

任职要求:
模型经验: 熟悉主流大模型架构(Transformer、MoE 等),具备 DeepSeek、Qwen 等模型的算子优化实战经验,理解算子执行逻辑与模型性能的深度绑定关系。
技术栈精通: * 精通 Triton 编程,能够利用其 DSL 快速实现高性能并行算子。
或精通 CUDA C++ 开发,熟悉 CuTile、Cutlass 或 CuDNN 等库,对分块(Tiling)、流水线(Pipelining)和并行策略有深刻理解。
架构认知: 深刻理解 GPU 架构(计算单元、存储层次、指令集),具备独立定位与排查计算瓶颈(Memory-bound vs. Compute-bound)的能力。
工程素养: 具备良好的代码规范与工程化能力,熟悉计算图优化、算子融合等编译阶段优化技术。
加分项:
有 DeepSeek、Qwen 等大规模集群优化经验,能提供明确的加速比或显存节省数据。

系统软件工程师(专家)
计算机、电子工程、微电子或相关专业本科及以上学历
2人
本科及以上学历
职位描述:
IP 驱动集成与优化: 负责 AI 芯片内各类核心 IP(如 NPU 计算核、NoC、内存控制器、DMA、时钟管理等)的驱动编写、调试及性能优化。
固件与 Runtime 架构设计: 主导芯片侧固件(Firmware)以及 Runtime 系统的整体架构设计与开发,实现高效的任务调度、内存管理和多硬件加速器协同。
全栈软件开发: 负责从 Host 侧(Linux Kernel)到 Device 侧(Bare-metal/RTOS)的通信机制设计(如 PCIe 通信、Command Queue、中断处理等)。
性能分析与调优: 针对主流 AI 模型在芯片上的执行路径,进行全链路性能分析,解决系统软件层面的瓶颈问题。
软硬件协同设计: 参与下一代芯片架构的定义,从软件视角提供硬件 IP 的功能与接口建议。

任职要求:
年限:架构师/专家5年以上经验
核心技术能力:
深度硬件理解: 熟悉 AI 芯片常见 IP 架构,对加速器架构(NPU/TPU)、内存体系(HBM/LPDDR)、互联总线(PCIe/NoC)有实战经验。
OS/内核功底: 精通 Linux 内核驱动架构,具备丰富的 KMD (Kernel Mode Driver) 开发经验,熟悉内核同步机制、内存分配、中断处理及 DMA。
用户态驱动经验: 熟悉 UMD (User Mode Driver) 架构,有类似 CUDA/ROCm 或 OpenCL 驱动开发经验者优先;理解用户态内存管理与指令提交机制。
编程功底: 精通 C/C++,具备优秀的底层代码编写和优化能力,熟悉汇编语言及常用调试工具(GDB, JTAG, Trace32)。
系统工程能力: 能够从 Host 驱动侧到芯片系统侧进行全栈思考,深刻理解计算图执行过程中的指令流、数据流以及软硬件同步机制。
加分项
有成功量产过的 AI 芯片(训练或推理)全栈软件开发经验。
熟悉常见 AI 编译器(如 TVM, MLIR)与底层 Runtime 的对接。
在开源社区(Linux Kernel, LLVM 等)有贡献记录。

大模型推理框架(应用或架构)工程师(资深)
教育背景:计算机、电子工程、数学等相关专业硕士或博士学历 。
2人
硕士或博士学历
职位描述:
核心架构设计:负责分析大语言模型、多模态模型的数据流与计算流,主导模型切分、并行策略、通信优化及调度策略等关键架构方案 。
引擎深度优化:基于 vLLM、SGLang 等前沿项目,主导实现 PD 分离、异构硬件(CPU/GPU/NPU)高效协同,并确立端到端精度无损与性能达标 。
显存与算力调优:设计并实现高性能 Virtual Block 管理(Virtual KV Cache 管理)、算子融合及高效的动态批处理(Continuous Batching)机制 。
分布式方案落地:针对超大规模集群,构建涵盖 TP(张量并行)、DP(数据并行)、PP(流水线并行) 及混合并行的最优拆分手段,优化集群通信(NCCL/RDMA)调优 。
异构加速计算:探索池化的跨异构加速计算方法,协同硬件团队定义指令集或优化 Runtime 驱动,实现软硬一体的深度适配 。
技术前瞻与决策:追踪推测解码(Speculative Decoding)、量化推理(INT8/FP8/W4A16)等前沿技术,为公司资源采购与技术选型提供核心决策依据 。

任职要求:
行业背景:
具有 5 年以上 AI 系统或高性能计算开发经验,至少 2 年专注于 LLM 推理优化 。
优先考虑:曾在腾讯、阿里、字节等互联网大厂负责底层异构加速计算,或在主流 GPU/NPU 芯片公司担任软件架构负责人。
核心技能:
精通 vLLM、SGLang、DeepSpeed、Megatron 等至少一种主流框架的底层源码与核心机制 。
深刻理解计算机体系结构,对 GPU/NPU 的内存层次(HBM/SRAM)、执行单元及并行编程(CUDA/Triton/CANN)有深入研究 。
熟练掌握大规模分布式训练/推理中的精度调试、性能剖析(Nsight Systems, PyTorch Profiler)及存储占用调优 。
综合素质:具备出色的技术前瞻性、跨团队协作能力及系统级问题解决能力,能够带领团队在极限资源下交付 SOTA 性能 。
加分项
在 vLLM、SGLang、MLIR、TVM 等知名开源社区有核心代码贡献(Maintainer/Committer)。
有超大规模(百卡/千卡以上)异构算力集群推理方案的实际落地经验 。

前端设计工程师(SOC集成方向)
计算机体系架构,微电子,电子,通信或其他弱电相关专业背景,硕士及以上相关专业学历,专家8年以上芯片设计经验,资浅3年以上芯片设计经验
1人
硕士及以上学历
职位描述:
深度参与大模型AI芯片的架构和设计实现,与算法、软件、工具链、GPGPU核团队一起进行软硬件协同设计,参与大模型AI芯片的原始需求和规格的定义与分析,完成SOC详细设计规格,制定设计方案和开发计划;
负责芯片设计工作,包括模块/子系统的微架构定义,SOC系统数据流分析和梳理,RTL开发和集成,时钟复位设计,低功耗设计,总线互联设计,SDC,UPF,SOC集成和综合实现等;
负责模块/子系统的性能、时序、功耗、面积评估和优化;
深度参与SOC模块级和系统级验证;
深度参与芯片后端迭代,进行性能分析、功耗分析等;
深度参与芯片验证、后仿、底层软件开发联调以及芯片回片测试和量产导入等相关工作;

任职要求:
计算机体系架构,微电子,电子,通信或其他弱电相关专业背景,硕士及以上相关专业学历,专家8年以上芯片设计经验,资浅3年以上芯片设计经验
有完整的SoC设计开发流程及成功流片经验,尤其是有先进工艺下大算力芯片成功量产的经验;
熟悉CHI,AXI4/5,AHB,APB,ACE等总线协议和Cache一致性;
熟悉对性能、时序、功耗、面积等设计关键指标的分析和优化;
熟练掌握Lint,CDC,Synthesis,STA和LowPower等流程及其工具的使用;
熟悉计算机体系结构和主要处理器(CPU/GPU), 总线协议, 片上互联,内存标准, 高速IO, 功耗管理, 安全管理, 虚拟化等经验者优先,有HBM/DDR/PCIe/Ethernet/UCIe协议及有相关集成设计经验者尤佳;
积极主动,善于思考和规划,能够主动承担责任,有良好的团队合作意识和沟通能力。

前端设计工程师(PCIE设计方向)(资深)
计算机体系架构,微电子,电子,通信或其他弱电相关专业背景,硕士及以上相关专业学历,专家8年以上芯片设计经验
1人
硕士及以上学历
职位描述:
熟悉PCIE gen4/gen5、CXL2/3 、UCIE协议。
熟悉PCIE或者UCIE控制器和PHY集成开发流程。
熟悉Serdes控制器各个分层模块(PL,DL,TL)的设计原理和功能。
有丰富的硅后调试经验,参与过至少一次完整的从设计到硅后调试的过程。
与SOC以及IP团队合作,确保设计与整体系统架构的兼容性。
编写设计文档和技术报告,记录设计决策和优化过程。
配合上下游完成芯片验证、后端迭代、底软调试、回片测试等工作

任职要求:
有完整的SoC设计开发流程及成功流片经验,尤其是有先进工艺下大算力芯片成功量产的经验;
参与过以下一个或多个方向的SoC设计工作,系统总线及NoC、NPU/GPGPU或RISC-V CPU、PCIe/Ethernet/UCIe/MIPI等高速接口
精通Verilog或VHDL等硬件描述语言
良好的问题解决能力和团队合作精神

1 2 3 4
更多职位
请进入招聘网站查看