时间序列分析 - 𓀚 转了码的刘公子

# 💡 Summary 本质：利用历史数据的**时间依赖性**，预测未来场景：股票预测、销售预测、天气预报、流量预测方法：[[ARIMA]]族、分解法、指数平滑、状态空间模型. ## 1. **时间顺序不能乱** 这是最核心的特点。普通机器学习任务里，你可以随机打乱数据，比如预测房价时，第一条数据是北京的房子、第二条是上海的，顺序无所谓。但时间序列不行！今天的股价、明天的气温，这个先后顺序本身就包含重要信息。就像看电影，你不能把镜头顺序打乱了看。 ## 2. **过去影响未来** 时间序列有很强的"记忆性"。今天的销量可能受昨天促销活动的影响，这周的流感病例数跟上周有关。我们把这叫**自相关性**——数据跟自己过去的值相关。而普通任务里，每个样本通常是独立的。 ## 3. **不能随便划分训练集和测试集** 普通机器学习可以随机抽取80%数据训练，20%测试。但时间序列必须用"过去"预测"未来"，所以只能按时间切分——比如用2020-2023年的数据训练，用2024年的数据测试。你不能用未来的数据训练模型再预测过去，那就"偷看答案"了。 ## 4. **有明显的模式** 时间序列常常有规律可循： - **趋势**：比如GDP长期增长 - **季节性**：夏天冰淇淋销量高，冬天低 - **周期性**：经济有繁荣-衰退周期这些模式是时间序列特有的，需要专门的方法来捕捉。 ## 5. **越远越难预测** 预测明天的天气比较准，预测下个月就难了，预测明年几乎不可能。时间序列有个"预测衰减"特性——预测时间越长，不确定性越大。就像滚雪球，误差会累积放大。 ## 6. **外部因素很重要** 时间序列往往受很多外部事件影响：疫情、政策变化、突发新闻等。这些"外生变量"需要特别考虑，而普通任务可能只关注数据本身的特征。 **打个比方**：如果说普通机器学习像给一堆照片分类（猫、狗、鸟），那时间序列预测就像看着一部电影的前半段，猜测后面的剧情发展——你必须理解时间的流动、记住之前发生了什么、还要考虑剧情的节奏规律。 # 🧩 Cues [[量化$]] 相关比赛： https://www.kaggle.com/competitions/predict-energy-behavior-of-prosumers/data # 🪞Notes