Blog

DQN 模型工程师

【公司简介】

上海量恒信息技术股份有限公司是金融交易行业人工智能解决方案的领先者。我们致力于为中国金融行业打造高性能的人工智能驱动基础设施,帮助交易团队在监管框架内高效管理模型与数据集,从而进行更深入的市场研究并做出更明智的交易决策。我们的核心价值观是:守正出奇,守拙利他。

【岗位概述】

我们正在招聘一位精通 DQN(Deep Q-Network)及相关深度强化学习技术的工程师,应用于高频交易(High Frequency Trading,HFT)场景的研发与落地。该岗位需要在深入理解 Q-learning 和相关增强方法(如 Double DQN、Q-teacher、KL 监督等)的基础上,结合高频交易中的长序列数据、复杂市场波动和实时性需求,打造高性能、稳定的自动化交易策略模型。你将负责构建微秒到秒级别的强化学习交易代理,探究分层式(Hierarchical RL)多时间粒度建模,不断优化交易收益和风险控制。

【岗位职责】

  1. DQN 模型开发与优化

    • 设计并实现基于 DDQN/Double Q-Learning 的高频交易策略,对接秒级或毫秒级实时市场数据。

    • 将 Q-teacher(动态规划/最优价值监督信号)与经典 TD 更新方法结合,提高模型收敛速度与稳定性。

    • 实现 KL 监督、优先级经验回放等前沿技术,提升探索效率,缩短对大规模高频数据的训练周期。

  2. 交易环境构建与强化学习实验

    • 搭建接近真实市场的高保真环境(包括多层级 LOB、实时成交撮合等),并设计合理的市场订单执行逻辑。

    • 依据市场微结构特点,开发分层式/多时间粒度强化学习流程(如秒级低层策略、分钟级路由决策等)。

    • 设计可扩展的大规模并行实验框架,对数百万级别的时序数据进行批量仿真与训练。

  3. 数据预处理与特征工程

    • 与数据工程师、量化研究员合作,获取并清洗多源行情数据,如限价订单簿(LOB)、OHLC、技术指标等。

    • 运用 Talib 技术指标(MACD、订单失衡、VWAP 等)与自研特征,增强 DQN 对市场价格动态的感知。

    • 结合时间序列差分、去噪、分段等方法,提升对牛熊、震荡等不同市场趋势的建模准确度。

  4. 模型评估与风险控制

    • 设计全面的收益及风险指标(如年度化收益、夏普比率、最大回撤等),对 DQN 策略进行多维度评估。

    • 研究并实现多策略路由/池化方法(将若干在不同市场段表现优异的子策略进行组合),减少单一策略失效风险。

    • 分析在极端市场条件(剧烈波动、网络延迟等)下的模型稳健性,提出改进与降风险建议。

  5. 持续优化与跨团队协作

    • 与量化团队紧密沟通,理解业务需求并对接模型预测结果,提出具有可解释性的交易策略建议。

    • 编写、维护相关技术文档与部署脚本,为内部团队及外部伙伴提供培训与技术支持。

    • 不断追踪分层强化学习、动态编程、金融时间序列等领域的最新研究进展并引入到实际交易系统中。

【任职要求】

  1. 教育与背景

    • 计算机科学、统计学、数学、金融工程或相关专业本科及以上学历。

    • 有高频交易、量化交易或金融风控等项目经验者优先。

  2. 技术与模型能力

    • 深入理解 Q-learning 及其变体(DQN、Double DQN、DDQN 等),熟悉价值函数近似、经验回放、目标网络等关键技术。

    • 熟练掌握 Python 语言及数据分析库(NumPy、Pandas、PyTorch/TF 等),可独立搭建深度网络并进行模型训练与调参。

    • 对分层强化学习(Hierarchical RL)有一定了解,能将多时间尺度(秒级、分钟级)信息嵌入到模型框架中。

    • 熟悉 LOB(限价订单簿)和 OHLC 等金融微结构数据,具备动态规划、最优策略估计等数理基础。

    • 熟悉常见金融评价指标(收益、最大回撤、波动率、夏普比率等),可对高频策略进行多维度风险收益分析。

  3. 编程与工具

    • 熟悉 C++、Python 等主流语言,熟悉 Git、Docker 及相关 DevOps 工具,具备分布式或并行训练经验者优先。

    • 能独立编写高质量、可复现的实验与生产代码,熟练进行单元测试与性能调优。

    • 熟悉大规模时间序列处理与实时数据流采集,具备使用 Redis、Flink、Kafka 或其他常见数据库(SQL/NoSQL)构建高并发数据管道的实践经验。

  4. 综合能力

    • 良好的数理功底与逻辑思维,能快速理解并解决模型或数据相关的复杂问题。

    • 优秀的沟通能力与团队协作能力,能与量化、数据工程、风控等部门高效对接。

    • 关注学术与行业前沿,对高频量化交易中的动态规划、分层策略路由等技术方向保持持续学习热情。

【福利待遇】

  • 可选择在国内远程办公,可达100%;
  • 每年可在海外远程办公长达 25 天;
  • 具竞争力的基本薪资及奖金;
  • 扁平化的组织结构,融洽积极的团队氛围。
  • 每年多次海外集体出游。
  • 各种休闲活动(如体育运动、桌游等)。

 

【工作地点】

  • 上海