【公司简介】
上海量恒信息技术股份有限公司,是金融交易行业人工智能解决方案的领先者。在瞬息万变的资本市场,最大的挑战是如何准确预测市场走势,传统模型往往无法捕捉金融市场的复杂性,导致错失交易机会和风险增加。我们致力于通过为中国金融行业打造高性能人工智能驱动的基础设施来克服这些挑战。我们的人工智能解决方案,可以使严格的交易人员在监管框架内部有效地管理各种模型和数据集,使他们能够专注于更深入的研究并做出更明智的交易决策,从而产生卓越的回报。我们的核心价值观是:守正出奇,守拙利他。
【岗位职责】
- Elasticsearch 生态系统(ELK)
- 负责 Elasticsearch、Logstash、Kibana(ELK)的运维准备及生产问题解决。
- 进行 Elasticsearch 集群的容量规划与分析。
- 定期执行 Elasticsearch 集群与索引的健康检查;收集并分析慢查询日志,定位性能较差的查询。
- 排查和优化 Elasticsearch 的性能问题,进行索引扩容并优化集群配置。
- 与多个利益相关方协作,分析需求、明确设计依赖关系、制定测试计划,并支持功能性及非功能性测试。
- 搭建并配置 Elastic Stack,确保安全的数据传输(例如通过 Beats、Logstash pipelines)。
- 配置 ELK 堆栈组件以采集、存储并可视化数据,满足业务需求。
- Redis
- 设计并实施 Redis 架构,以支持高吞吐量、低延迟的缓存需求。
- 优化 Redis 性能,包括数据分片、持久化配置、内存管理以及高并发访问。
- 监控并排查 Redis 集群故障,主动识别并解决性能瓶颈。
- Kafka & 消息系统
- 设计、部署并维护 Apache Kafka 集群,用于实时数据摄入与事件流处理。
- 配置 Kafka 的主题、分区和消费组,优化系统吞吐量与可扩展性。
- 通过监控和排查 Kafka 的性能、延迟及偏移量管理,确保数据管道的可靠性。
- 与跨职能团队协作,将 Kafka 集成到 ETL 工作流以及其他实时数据处理框架(例如 Flink、Redis)中。
- Flink & 实时数据处理
- 使用 Apache Flink 构建实时数据摄入与处理流程。
- 开发并维护流式 ETL 作业,以近乎实时的方式处理大规模数据流。
- 利用 Flink 的有状态流处理、检查点和容错功能,确保数据可靠性与低延迟。
- 与数据工程和分析团队紧密合作,将 Flink 流水线与其他组件(包括 Elasticsearch、Redis)集成。
- 数据治理与安全
- 在 Elasticsearch、Redis、Flink 等组件中实施并管理安全设置(如静态加密、传输加密)。
- 负责修补安全漏洞,严格遵循安全标准。
- 与跨职能团队协作,确保数据完整性、一致性,并遵循最佳的数据治理实践。
- 基础设施与维护
- 维护大规模 Linux 环境;监控系统健康状况、服务器资源使用和网络性能。
- 与基础设施团队协作,确保服务器、存储和网络服务的平稳运行。
- 及时排查生产环境问题并制定预防性措施。
- 文档与协作
- 维护 Elasticsearch、Redis、Flink 环境的配置信息、操作流程和最佳实践文档。
- 为架构决策提供建议,与跨职能团队共享经验和见解。
- 参与值班轮岗,及时响应生产系统的突发事件。
【任职要求】
- Elasticsearch & ELK
- 有实际使用 Elasticsearch、Logstash、Kibana(ELK)的经验。
- 熟练掌握 Elasticsearch 和 Logstash 的部署、配置调优、REST API 调用以及集群管理。
- 能够设置多种 Beats 并建立安全的数据传输。
- 熟练使用 Kibana 进行日志分析与监控,能创建查询、仪表盘和可视化界面。
- Redis
- 具备 Redis 集群实践经验,包括数据分片、复制与持久化。
- 深刻理解缓存模式、内存管理以及高并发优化。
- Kafka
- 拥有 Apache Kafka 管理维护的实践经验,包括集群搭建、主题配置和性能调优。
- 了解消费组管理、偏移量、分区及复制策略。
- 能够排查数据摄入、延迟和代理(broker)性能相关问题。
- 熟悉生产环境中 Kafka 安全的最佳实践(ACL、加密等)。
- Apache Flink
- 具备使用 Apache Flink 搭建流式 ETL 管道和实时数据处理的经验。
- 了解或熟悉 Flink 的复杂事件处理(CEP)、窗口机制、有状态处理及检查点机制等优先。
- 数据与查询语言
- 具备 SQL 或其他专业查询语言处理大规模数据集的丰富经验。
- 若了解并使用过 Cloudera CDP(HDFS、HBase、Spark、Ranger)等服务优先。
- 能够编写包含复杂连接和聚合的大数据查询。
- 安全与系统管理
- 在分布式环境中有实际的安全配置经验。
- 具备管理和维护大型 Linux 环境的扎实背景。
- 熟悉 ITIL 流程者优先。
- 软技能
- 优秀的问题解决能力和沟通技巧。
- 注重细节,能在快节奏环境中高效工作。
- 能够与跨职能团队及利益相关方有效合作。
【福利待遇】
- 可选择在国内远程办公,可达100%;
- 每年可在海外远程办公长达 25 天;
- 具竞争力的基本薪资及奖金;
- 扁平化的组织结构,融洽积极的团队氛围。
- 每年多次海外集体出游。
- 各种休闲活动(如体育运动、桌游等)。
【工作地点】
- 上海