# 💡 Summary 本质:利用历史数据的**时间依赖性**,预测未来 场景:股票预测、销售预测、天气预报、流量预测 方法:[[ARIMA]]族、分解法、指数平滑、状态空间模型. ## 1. **时间顺序不能乱** 这是最核心的特点。普通机器学习任务里,你可以随机打乱数据,比如预测房价时,第一条数据是北京的房子、第二条是上海的,顺序无所谓。但时间序列不行!今天的股价、明天的气温,这个先后顺序本身就包含重要信息。就像看电影,你不能把镜头顺序打乱了看。 ## 2. **过去影响未来** 时间序列有很强的"记忆性"。今天的销量可能受昨天促销活动的影响,这周的流感病例数跟上周有关。我们把这叫**自相关性**——数据跟自己过去的值相关。而普通任务里,每个样本通常是独立的。 ## 3. **不能随便划分训练集和测试集** 普通机器学习可以随机抽取80%数据训练,20%测试。但时间序列必须用"过去"预测"未来",所以只能按时间切分——比如用2020-2023年的数据训练,用2024年的数据测试。你不能用未来的数据训练模型再预测过去,那就"偷看答案"了。 ## 4. **有明显的模式** 时间序列常常有规律可循: - **趋势**:比如GDP长期增长 - **季节性**:夏天冰淇淋销量高,冬天低 - **周期性**:经济有繁荣-衰退周期 这些模式是时间序列特有的,需要专门的方法来捕捉。 ## 5. **越远越难预测** 预测明天的天气比较准,预测下个月就难了,预测明年几乎不可能。时间序列有个"预测衰减"特性——预测时间越长,不确定性越大。就像滚雪球,误差会累积放大。 ## 6. **外部因素很重要** 时间序列往往受很多外部事件影响:疫情、政策变化、突发新闻等。这些"外生变量"需要特别考虑,而普通任务可能只关注数据本身的特征。 **打个比方**:如果说普通机器学习像给一堆照片分类(猫、狗、鸟),那时间序列预测就像看着一部电影的前半段,猜测后面的剧情发展——你必须理解时间的流动、记住之前发生了什么、还要考虑剧情的节奏规律。 # 🧩 Cues [[量化$]] 相关比赛: https://www.kaggle.com/competitions/predict-energy-behavior-of-prosumers/data # 🪞Notes