Blog

Kubernetes 集群工程师(S003)

【关于我们】
我们是一家领先的全球量化交易企业和流动性提供商,致力于提供卓越的风险调整后回报。通过结合全面的数学分析、丰富的金融市场知识以及尖端的人工智能技术解决方案,我们的交易模型经受住了时间的考验。我们是系统化决策、算法执行和主动风险管理领域的先驱。我们的团队由来自顶级投资银行的资深专业人士和拥有知名学府背景的毕业生组成。
在瞬息万变的资本市场中,端到端智能模型闭环是交易盈利的基石。我们构建了一个从多源实时数据采集与清洗、Vector/Graph RAG 混合检索,到结构化模型推理、自动化训练流水线、CI/CD 驱动的模型自动化部署与滚动升级的全流程平台,通过 NLP、深度学习、强化学习、时间序列和风险管理等前沿技术,不断提升对复杂市场的洞察力和执行力,确保交易分析与决策始终保持领先。
【职责范围】
1.监控 & 告警体系构建
● 设计并维护 Prometheus Operator、Alertmanager,覆盖节点资源、Pod 状态、队列深度、模型推理延迟、下单成功率等业务与基础指标;
● 编写 ServiceMonitor、PodMonitor 和 PrometheusRule,持续优化数据抓取与告警策略;
2.日志聚合与检索
● 部署与运维 Fluentd/Fluent Bit + Elasticsearch 集群,设计高效的日志收集管道;
● 制定索引模板与生命周期管理(ILM)策略,保障海量日志的存储与快速检索;
3.分布式追踪
● 部署 OpenTelemetry Collector 与 Jaeger/Tempo 服务,实现交易信号推理、模型调用到下单执行的全链路追踪;
● 设计 Trace Pipeline,优化采样率与存储,协助定位微服务性能瓶颈;
4.CI/CD 与自动化发布
● 搭建 GitLab CI 流水线,集成镜像构建、容器安全扫描、单元测试与灰度发布;
● 使用 Harbor 镜像仓库管理多租户镜像版本,编写 Helm Chart 与 Kustomize 配置,实现 RollingUpdate、蓝绿/金丝雀部署;
5.配置与凭据管理
● 设计并维护 Kubernetes Secret、ConfigMap,安全存储 API Key、模型参数、FIX/CTP 证书与银行接口凭据;
● 集成 KMS(AWS KMS、HashiCorp Vault)或 SealedSecrets,保障敏感信息加密与审计;
6.集群可扩展性与高可用
● 规划并实施节点自动伸缩(Cluster-Autoscaler)、Pod 水平/垂直自动扩缩容;
● 优化网络策略(Calico/Weave)、存储类(CSI)、Ingress 控制器与 Service Mesh(Istio/Linkerd)配置;
7.故障排查与应急响应
● 编写健康检查(liveness/readiness probe)、Pod Disruption Budget 与 Pod Priority,确保自动恢复;
● 参与 on-call 值班,快速响应集群故障与安全事件,并完成事故复盘报告;
8.文档与协作
● 撰写 Kubernetes 运维手册、监控告警指南与应急预案;
● 与模型业务、数据业务、交易前台、交易后台等团队紧密合作,开展CI/CD培训,持续改进集群的可观测性与稳定性
【职位要求】
● 本科及以上学历,计算机、云计算或相关专业;
● 3 年及以上 Kubernetes 集群实施与运维经验,熟练掌握核心组件(API Server、Scheduler、Controller-Manager、etcd);
● 精通 Prometheus Operator、Alertmanager、Grafana;
● 熟悉 Fluentd/Fluent Bit、Elasticsearch、Kibana 日志收集与检索;
● 熟练 OpenTelemetry、Jaeger、Tempo 分布式追踪;
● 熟练使用 GitLab CI/CD、Helm、Kustomize、Harbor;
● 熟悉 Kubernetes Secret/ConfigMap、Vault、KMS 等安全策略;【关于我们】
我们是一家领先的全球量化交易企业和流动性提供商,致力于提供卓越的风险调整后回报。通过结合全面的数学分析、丰富的金融市场知识以及尖端的人工智能技术解决方案,我们的交易模型经受住了时间的考验。我们是系统化决策、算法执行和主动风险管理领域的先驱。我们的团队由来自顶级投资银行的资深专业人士和拥有知名学府背景的毕业生组成。
在瞬息万变的资本市场中,端到端智能模型闭环是交易盈利的基石。我们构建了一个从多源实时数据采集与清洗、Vector/Graph RAG 混合检索,到结构化模型推理、自动化训练流水线、CI/CD 驱动的模型自动化部署与滚动升级的全流程平台,通过 NLP、深度学习、强化学习、时间序列和风险管理等前沿技术,不断提升对复杂市场的洞察力和执行力,确保交易分析与决策始终保持领先。
【职责范围】
1.监控 & 告警体系构建
● 设计并维护 Prometheus Operator、Alertmanager,覆盖节点资源、Pod 状态、队列深度、模型推理延迟、下单成功率等业务与基础指标;
● 编写 ServiceMonitor、PodMonitor 和 PrometheusRule,持续优化数据抓取与告警策略;
2.日志聚合与检索
● 部署与运维 Fluentd/Fluent Bit + Elasticsearch 集群,设计高效的日志收集管道;
● 制定索引模板与生命周期管理(ILM)策略,保障海量日志的存储与快速检索;
3.分布式追踪
● 部署 OpenTelemetry Collector 与 Jaeger/Tempo 服务,实现交易信号推理、模型调用到下单执行的全链路追踪;
● 设计 Trace Pipeline,优化采样率与存储,协助定位微服务性能瓶颈;
4.CI/CD 与自动化发布
● 搭建 GitLab CI 流水线,集成镜像构建、容器安全扫描、单元测试与灰度发布;
● 使用 Harbor 镜像仓库管理多租户镜像版本,编写 Helm Chart 与 Kustomize 配置,实现 RollingUpdate、蓝绿/金丝雀部署;
5.配置与凭据管理
● 设计并维护 Kubernetes Secret、ConfigMap,安全存储 API Key、模型参数、FIX/CTP 证书与银行接口凭据;
● 集成 KMS(AWS KMS、HashiCorp Vault)或 SealedSecrets,保障敏感信息加密与审计;
6.集群可扩展性与高可用
● 规划并实施节点自动伸缩(Cluster-Autoscaler)、Pod 水平/垂直自动扩缩容;
● 优化网络策略(Calico/Weave)、存储类(CSI)、Ingress 控制器与 Service Mesh(Istio/Linkerd)配置;
7.故障排查与应急响应
● 编写健康检查(liveness/readiness probe)、Pod Disruption Budget 与 Pod Priority,确保自动恢复;
● 参与 on-call 值班,快速响应集群故障与安全事件,并完成事故复盘报告;
8.文档与协作
● 撰写 Kubernetes 运维手册、监控告警指南与应急预案;
● 与模型业务、数据业务、交易前台、交易后台等团队紧密合作,开展CI/CD培训,持续改进集群的可观测性与稳定性
【职位要求】
● 本科及以上学历,计算机、云计算或相关专业;
● 3 年及以上 Kubernetes 集群实施与运维经验,熟练掌握核心组件(API Server、Scheduler、Controller-Manager、etcd);
● 精通 Prometheus Operator、Alertmanager、Grafana;
● 熟悉 Fluentd/Fluent Bit、Elasticsearch、Kibana 日志收集与检索;
● 熟练 OpenTelemetry、Jaeger、Tempo 分布式追踪;
● 熟练使用 GitLab CI/CD、Helm、Kustomize、Harbor;
● 熟悉 Kubernetes Secret/ConfigMap、Vault、KMS 等安全策略;
● 掌握 Cluster-Autoscaler、HPA/VPA、PodDisruptionBudget、NetworkPolicy;
● 优秀的脚本与自动化能力(Bash、Python、Go 任一);
● 优秀的故障排查与 on-call 响应能力,良好的跨团队沟通与文档撰写能力;
● 具备高度的责任心,愿意签署严格的保密协议并履行保密义务;
● 英语听说读写能力强者优先,可快速定位国际化组件文档与技术社区资源者优先,可适应海外公司轮派常驻者优先。
【福利待遇】
● 具有竞争力的基本薪资与绩效奖金;
● 扁平化管理体系与充满活力的创新团队文化;
● 每年多次海外差旅及专项培训机会;
● 五险一金、带薪年假、年度健康体检、团建活动等完善福利。
【工作地点】
上海、苏州、深圳、新山
如有意向可将简历发至Careers@liangheng.top,请在邮件标题处注明: 姓名+申请职位
● 掌握 Cluster-Autoscaler、HPA/VPA、PodDisruptionBudget、NetworkPolicy;
● 优秀的脚本与自动化能力(Bash、Python、Go 任一);
● 优秀的故障排查与 on-call 响应能力,良好的跨团队沟通与文档撰写能力;
● 具备高度的责任心,愿意签署严格的保密协议并履行保密义务;
● 英语听说读写能力强者优先,可快速定位国际化组件文档与技术社区资源者优先,可适应海外公司轮派常驻者优先。
【福利待遇】
● 具有竞争力的基本薪资与绩效奖金;
● 扁平化管理体系与充满活力的创新团队文化;
● 每年多次海外差旅及专项培训机会;
● 五险一金、带薪年假、年度健康体检、团建活动等完善福利。
【工作地点】
上海、苏州、深圳、新山
如有意向可将简历发至Careers@liangheng.top,请在邮件标题处注明: 姓名+申请职位