[[qlib]] # 为什么做量化? **总结一下量化的两个好处** 1. 虽然打不过机构,但是可赢过其他随意的散户们 2. 提高纪律性(摆脱情绪控制)和如臂使指的准确性 我选择做买方quant的理由如下,绝对主观:1.好奇心。我喜欢玩解谜游戏。做empirical research和解谜很相像。对证据和人性进行分析、思考,寻找关联,做出假设,得到结论,等待验证。真相揭晓的一刻令人兴奋。2.自由。只要策略能获得收益,没有人限制我想研究什么数据,应用什么方法,阅读多少文献,和多少人聊天。3. 有挑战性。预测市场是一件困难的事情。做出一个稳定高收益的投资组合有成就感。4.投资渠道。一个成熟的系统化投资组合,会带来个人资产的稳健增长。天降一个亿,而不知如何投资,也是一件令人头疼的事。5. 学以致用。这是一个可以把科学文化知识直接转化为财富的行业。从前看似无用的理论,在这个行业中都被直接或间接地应用了。6.和优秀的人一起工作。敢于挑战且能战胜市场的人,都很优秀。和他们一起工作,是一件令人享受的事情。7. 个人持续进益。虽然个人做的努力会100%奉献给平台,但也有至少80%加成在自己身上。随着工作年限增长,经验在不断积累,视角会越来越宽阔,技能点也越来越丰满。离开平台的时候,也能自信地应对风浪。综上,毕业以后我加入了quant阵营。 # 路径 一、低成本技术栈搭建 1. 平民级开发环境 - 硬件:二手ThinkPad P系列(配备NVIDIA Quadro显卡)约$800 - 云资源:Google Colab Pro($10/月)+ AWS Spot Instance突发使用 - 数据源: - 免费:Yahoo Finance + Alpha Vantage(5年历史数据) - 低成本:TradingView付费版($14.9/月)获取实时数据 - 另类数据:爬取SEC EDGAR系统(Python的Sec-edgar-downloader库) 2. 开源武器库 - 回测框架:Backtrader(支持多资产类别)+ PyAlgoTrade(事件驱动) - 因子库:TA-Lib(158个技术指标)+ WorldQuant的alpha101公式复现 - 机器学习:Fast.ai(简化版深度学习)+ SHAP值归因分析 二、微型策略开发路线 1. 首月生存策略 - 期限套利:加密货币跨交易所价差捕捉(Binance vs FTX遗留市场) - 工具:CCXT库连接20+交易所API,用Pandas计算瞬时价差 - 风险控制:自动止盈止损(Talib的ATR指标动态调整) 2. 三月进阶策略 - 统计套利:A股ETF配对交易(华泰证券万得API免费版) - 步骤: 1. 用Cointegration方法筛选ETF组合 2. 布林带通道设定交易阈值 3. 动态仓位管理(凯利公式改良版) - 回测工具:JoinQuant模拟盘(10万虚拟本金) 3. 半年突破策略 - 期权波动率交易:VIX期货期限结构套利 - 数据:CBOE免费历史波动率数据 - 核心算法:GARCH(1,1)模型预测波动率曲面 - 执行:TDAmeritrade Thinkorswim平台(支持Paper Money模拟) 三、实战资金运作方案 1. 启动资金获取 - 竞赛奖金:Kaggle量化赛(Top10团队奖$5000+) - 外包接单:Upwork上承接量化策略开发(时薪$30起) - 模拟盘验证:在QuantConnect社区发布策略,吸引跟投分成 2. 微型账户管理 - 初始规模:$1000-5000(建议从加密货币入手) - 资金分配: - 70%主策略(日频交易) - 20%对冲策略(期权保护) - 10%高风险套利(跨市场搬砖) - 出金纪律:每月盈利超20%部分强制转出至冷钱包 四、能力证明体系构建 1. 可视化成果展示 - 动态简历:用Plotly Dash搭建交互式策略演示平台 - 策略图谱:Neo4j数据库展示因子关联网络 - 代码证书:GitHub仓库+ Quantopian证书(即使平台关闭仍可展示) 2. 非学历认证路径 - Coursera专项课程:密歇根大学《Python金融应用》 - 考试认证:CMT一级(技术分析协会)+ Python Institute的PCAP - 论文替代:在arXiv发布《零售投资者量化实践方法论》 五、渐进式职业过渡 1. 人脉破冰策略 - Meetup参与:寻找本地Quant Trading Meetup(平均参加成本$10/次) - 逆向猎头:在LinkedIn主动联系HFT公司初级开发人员 - 内容输出:在Medium发布《DIY Quant》系列文章(每周2篇) 2. 曲线入职路径 - 先入金融科技:从TradingView插件开发者做起 - 转型做数据标注:为对冲基金清洗另类数据(时薪$25) - 加入DAO组织:参与Quantopian遗产社区复兴项目 六、AI协同切入点 1. 低门槛结合场景 - 自动因子生成:用Codex生成伪代码,人工优化 - 另类数据处理:Stable Diffusion生成模拟订单流数据 - 策略参数优化:PyTorch实现贝叶斯超参搜索 2. 现金流转化设计 - 开发Telegram交易信号Bot(订阅制$9.9/月) - 出售策略模板:在Gumroad上架MT4/MT5策略包($49/套) - 建立Youtube频道:量化教学+实时交易展示(联盟营销变现) 七、风险管理手册 1. 熔断机制 - 单日最大亏损:总资金2%(用TradingView警报触发) - 策略失效指标:夏普比率连续3周<1 - 强制休市规则:连续3笔亏损立即停止交易1周 2. 生存保障线 - 保留现有主业收入50%以上 - 建立6个月生活费的USDC储备 - 购买商业保险:专业责任险(年费$500保额$100万) 关键成长指标: - 第1年目标:开发3个盈利策略,管理资金达$10k - 第2年目标:年化收益超30%,启动AI数据标注业务 - 第3年目标:建立自动化交易系统,申请新加坡MAS牌照 这个路径的精髓在于:用开源工具降低技术门槛,用竞赛和外包解决资金问题,用内容输出构建个人品牌,最终通过可验证的交易记录突破学历限制。建议从今天开始建立交易日志,记录每个策略的盈亏比、最大回撤等核心指标,这是未来说服机构投资者的关键凭证。 # 架构 ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2024%2F10%2F06%2F15-20-53-e17330d52928ff85e0ca8ad78b842bfa-202410061520280-f99e54.png) # 数据 ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2024%2F10%2F10%2F01-27-45-f975be83ab96bd0a975fd6f4af06a393-202410100127208-580e53.png) 根据您提供的市场数据订阅选项列表,我建议您考虑以下几个选项: 1. Cboe One(非专业,一级)- USD 1.00/月 这个选项提供来自四家CBOE美国股票交易所的实时串流报价,覆盖范围较广,价格也很合理。 2. 纳斯达克(Network C/UTP)(非专业,一级)- USD 1.50/月 提供纳斯达克挂牌证券的实时数据买/卖报价,包括许多知名科技股。 3. 纽交所(Network A/CTA)(非专业,一级)- USD 1.50/月 提供纽交所挂牌股票的实时市场数据,包括许多蓝筹股。 4. 纽交所美国证券交易所、BATS、ARCA、IEX与区域性交易所(Network B)(非专业,一级)- USD 1.50/月 这个选项涵盖了许多其他重要的交易所和平台。 5. OPRA(美国的期权交易所)(非专业,一级)- USD 1.50/月 如果您对期权交易感兴趣,这个选项很有价值。 这些选项合计每月费用为7美元,可以为您提供全面的美国股票和ETF市场数据覆盖。如果您主要关注特定类型的证券,可以根据需求选择其中的一部分。 另外,美国共同基金(非专业,一级)是免费的,如果您对共同基金感兴趣,可以考虑添加这个选项。 最后,根据您之前提到的CHAU股票,它很可能属于纽交所ARCA交易的ETF,所以"纽交所美国证券交易所、BATS、ARCA、IEX与区域性交易所(Network B)"这个选项可能是最直接相关的。 您可以根据自己的交易需求和预算来选择最适合的组合。如果您有特定的交易策略或关注的市场板块,也可以告诉我,我可以进一步为您提供建议。 ## 策略模块 | 策略类别 | 描述 | 示例 | |----------|------|------| | 投资想法类 | 由一个简单的投资想法生成的策略 | 基于日历效应的策略 | | 因子驱动类 | 由一些有价值的因子驱动的策略 | 技术面:动量因子、反转因子<br>基本面:估值因子、成长性因子 | | 交易策略类 | 由经典的策略思想细化而来的策略 | 配对交易、趋势跟踪等 | | 交易模型类 | 更加复杂的策略,程序员擅长的领域 | 机器学习、深度学习的模型 | | | | | | ----- | --------------------------------------- | ------------------------------------- | | 多因子模型 | 概念:建立在定量的学术基础上,是把多个因子整合在一起,来获出最大作用的投资模型 | | | | 巴菲特化投资中最重要的模型 | 葛格熟悉使用多因子模型,是区分量化投资高手和初学者的重要分界线 | | | | 多因子模型是量化投资的一些基础心思想 | | | 股票预测中的常用因子 | 宏观因子 | | | | 行业因子 | | | | 技术面因子 | | | | 基本面因子 | | | | 大数据因子 | | | 线性多因子模型的数学形式 | r = f1 * X1 + f2 * X2 +... + fK * XK | | | 如何用多因子模型做投资管理 | 分清主次,给不同因子不同权重 | | 机器学习 | 用机器学习建立投资模型 | 流程:样本生成、特征选取、模型训练、测试验证 | | | 以预测股票涨跌为例 | 训练数据是通过历史数据计算得出的 | | | | 在生成过程中要剔除引入未来信息 | | | 解决趋势相关的预测问题 | LSTM、RNN | | | 基于处理特征工程的问题 | [[XGboost]]、DeepFM | | | 细节的数据清洗 | | | | 精准的问题定义 | | | | 机器学习模型也有局限性 | 避免生产者的过拟合投资 | | | | 黑盒特征 | | | | 金融数据的强噪声性 | 这是啥 ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2024%2F09%2F26%2F15-19-52-736f106b86146b77a6362930fe896293-202409261519138-d1c7e3.png) 这里推荐一个我最开始学习量化到现在依然在追的 github仓库,他就是awesome-quant,里面包含了编程、回测、因子框架、资产定价、交易、风险定价等等你所需要的量化知识。在github上有15.7k的 star,受到广大量化爱好者和业界人士的喜爱。这里我简单截取了几个部分:p1:仓库介绍 p2:金融工具定价 p3:交易回测 p4:回测&ai等 p5:因子分析、世间序列 最后感觉现在很多人在神话量化,但是在我看来量化投资没那么高深,跟主观投资一样只是一种投资理念与方式,跟你看k线、搞产业链没有高低贵贱之分,大家一定要祛魅。我喜欢量化是因为他可以帮助我客观理性的看待这个市场,甚至这个世界。人性、逻辑、情绪、情感、风格等等都可以运用统计学和数学方式量化出来,这本身就是一件有乐趣的事情,虽然很有可能研究了几个星期发现鸟用没有。最后祝每一位热爱量化的小伙伴都能找到属于自己的alpha 6o [GitHub - thuquant/awesome-quant: 中国的Quant相关资源索引](https://github.com/thuquant/awesome-quant) [GitHub - wilsonfreitas/awesome-quant: A curated list of insanely awesome libraries, packages and resources for Quants (Quantitative Finance)](https://github.com/wilsonfreitas/awesome-quant) ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2024%2F08%2F29%2F21-10-16-4719cf9287e817cabdca188bcf495f4e-202408292110168-a69463.png) 相关公司: [佳期投资](佳期投资.md) [九坤投资](九坤投资) ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2024%2F07%2F13%2F19-09-49-b903b63c129c36daa6f7e10643a7ed6e-20240713190949-48f485.png) ## Step 1. 提取与审查——文本主旨与隐性前提 **简要复述** 1. **主力策略极简却最赚钱**:一家量化机构真正赚钱的往往是 3–5 个非常简单的“老”策略(均线、一元线性回归之类),占用 80 % 以上资金并贡献主要利润。 2. **“长尾”策略多而不赚**:其余几十个策略(特别是新来的研究员做的 ML 策略)整体可能不赚钱。 3. **为什么仍要招 quant / 搞 ML** - _对外讲故事_:向投资人或上级展示“高科技”“大团队”以获取资金或KPI。 - _对内分工_:让员工承担洗数据、盯盘、调参等苦活,同时保持“做高端研究”的职业期待。 4. **机器学习≠盈利来源**:真正决定盈亏的是因子本身;因子若赚钱,用不用 ML 差别不大。 5. **ML 难点**:金融价格序列信噪比低、样本量有限→易过拟合;高频虽数据多却受滑点与容量限制。 6. **结论**:在国内大部分量化私募里,ML 主要价值是“故事”而非“收益”。 **隐性前提与局限** |隐性假设|可能局限或风险| |---|---| |① 市场中“极简策略”长期可持续并能容纳大额资金|未讨论策略衰退与规模变动的生存性检验;忽视择时失效风险| |② 金融数据**天然**低信噪且样本少 → ML 无用|忽视替代数据源(卫星图像、文本、订单簿深度)与特征工程可显著提高信噪比的事实| |③ ML 只能做信号预测|未考虑 ML 在组合优化、风控、成交算法、自动化监控等环节的价值| |④ “讲故事”一定比“真实收益”更能吸引资金|对部分机构/资管人群的尽调深度和绩效追踪要求估计不足| |⑤ 员工只为薪水或学习机会而接受低效研发|忽视人才流动与知识泄露导致的护城河侵蚀| --- ## Step 2. 显性揭示盲点——作者可能遗漏的关键要素 1. **跨资产 & 横截面 ML 证据** - 大样本横截面(数千股票 × 数百特征)显著缓解样本不足;多项研究表明非线性 ML 方法能在风险调整后超越线性基准。 2. **另类数据与噪声降维技术** - 订单簿、新闻、卫星图像、ESG 文本等数据已被用来提高信号质量;扩散模型去噪、表征学习不断演进。 3. **Risk-Tech 价值链** - ML 在波动率曲面插值、极端风险预测、交易成本建模、智能执行(SOR / RL 执行代理)中的商业落地被低估。 4. **国际监管与信息披露压力** - 美欧监管机构要求对 AI/ML 模型做解释、压力测试,限制“只讲故事”而缺少可审计流程。 5. **复合策略与元学习** - 近年流行的 **ensemble stacking、meta-learning** 可将数十个弱预测器组合成稳健策略,而非简单地“多添几个不赚钱的 ML 模型”。 6. **人力资本与知识产权风险** - 过度依赖“苦力型”量化团队导致人才流失,且流程文档化不足时,核心策略难以在组织层面沉淀。 --- ## Step 3. 权威参照与对比 |主题|文本主张|全球/学术共识或对立证据|评价| |---|---|---|---| |ML 对股票预期收益的贡献|基本无增益|Gu、Kelly & Xiu (2020) 发现随机森林/神经网络在横截面预测上**经济收益翻倍**,因捕获非线性交互 ([Empirical Asset Pricing via Machine Learning - Oxford Academic](https://academic.oup.com/rfs/article/33/5/2223/5758276?utm_source=chatgpt.com))|存在显著分歧| |ML 改善因子预报|“同样因子换模型没意义”|AlphaArchitect (2024) 亦指出 ML 提升有限 ([Can Machine Learning Improve Factor Returns? Not Really](https://alphaarchitect.com/2024/04/can-machine-learning-improve-factor-returns-not-really/?utm_source=chatgpt.com))|业界学术仍有争论;效果依赖数据宽度与调参| |数据低信噪 → 过拟合|赞同|芝大 BFI《Can Machines Learn Weak Signals?》证明低 SNR 环境下算法易失效 ([[PDF] Can Machines Learn Weak Signals?](https://bfi.uchicago.edu/wp-content/uploads/2024/03/BFI_WP_2024-29.pdf?utm_source=chatgpt.com))|观点一致| |机构使用 ML 的真实目的|“讲故事”占主|2024 美参议院报告称部分对冲基金披露不足、存在监管担忧 ([[PDF] 2024.06.11-Hedge-Fund-Use-of-AI-Report.pdf](https://www.hsgac.senate.gov/wp-content/uploads/2024.06.11-Hedge-Fund-Use-of-AI-Report.pdf?utm_source=chatgpt.com))|有一定佐证,亦提醒风险控制需求| |高频 ML 受容量限制|赞同|HFT 研究强调滑点与成本对 RL/HFT 模型盈利影响显著 ([[PDF] Impact of Machine Learning on High Frequency Trading](https://ijsret.com/wp-content/uploads/2024/11/IJSRET_V10_issue6_571.pdf?utm_source=chatgpt.com))|观点一致| |ML 适合非金融场景|赞同|文献综述指商业/图像领域 SNR 高,ML 效果最佳 ([Machine learning in business and finance: a literature review and ...](https://jfin-swufe.springeropen.com/articles/10.1186/s40854-024-00629-z?utm_source=chatgpt.com))|观点一致| --- ## Step 4. 认知更新建议 1. **区分场景与任务** - 将 ML 价值拆分为 _信号预测_、_交易执行_、_风险管理_、_流程自动化_ 四条链路,逐一评估边际贡献。 2. **引入替代数据 + 特征学习** - 结合文本情绪、卫星夜光、订单簿微结构,并采用自监督/扩散去噪提升信噪比;再与传统因子叠加做 **hybrid alpha**。 3. **采用严谨的“先经济后统计”框架** - 以 **经济假设 → 特征工程 → 交易成本模型 → walk-forward 验证** 的闭环来约束过拟合,而非盲目网格调参。 4. **关注模型治理与解释性** - 按监管趋势建立模型文档、追踪误差、压力测试与 _model lineage_;防范“讲故事”带来的合规风险。 5. **人才激励与知识沉淀** - 通过 **profit-sharing + 技术分享会 + 自动化工具链**,让研究员既能承担数据运营也能真正迭代核心因子,减少“苦力-镀金”落差。 6. **量化“容量–复杂度”前沿** - 用 **稳健的冲击成本曲线** 衡量策略可承载资金;对高频/非线性策略先做微观容量分析,再决定是否值得 ML 投入。 --- ## 概念树(Concept Tree) - **量化机构盈利结构** - 主力极简策略 - 高资金占用 - 历史悠久 - 长尾多样策略 - 多为 ML / 新人研发 - 总体收益低 - **隐性假设** - 简单策略可长期扩容 - 低信噪→ML 无效 - ML 仅用于预测 - **盲点** - 替代数据与降噪 - ML 在执行 / 风控价值 - 监管与模型治理 - 组织知识与人才流动 - **权威参照** - 正面证据:Gu-Kelly-Xiu、HFT 研究 - 负面证据:AlphaArchitect、参议院报告 - **改进建议** - 分模块评估 ML 价值 - 引入多源数据 + 去噪 - 建立经济假设驱动的验证框架 - 加强模型可解释性与合规 - 设立人才与知识沉淀机制 - 量化容量–复杂度权衡 这棵概念树串联了文本论断、隐性前提、缺失要素、外部证据与更新路径,帮助你在后续研究与实践中快速定位关键议题并进行深挖。