# 💡 Summary
本质:利用历史数据的**时间依赖性**,预测未来
场景:股票预测、销售预测、天气预报、流量预测
方法:[[ARIMA]]族、分解法、指数平滑、状态空间模型.
## 1. **时间顺序不能乱**
这是最核心的特点。普通机器学习任务里,你可以随机打乱数据,比如预测房价时,第一条数据是北京的房子、第二条是上海的,顺序无所谓。但时间序列不行!今天的股价、明天的气温,这个先后顺序本身就包含重要信息。就像看电影,你不能把镜头顺序打乱了看。
## 2. **过去影响未来**
时间序列有很强的"记忆性"。今天的销量可能受昨天促销活动的影响,这周的流感病例数跟上周有关。我们把这叫**自相关性**——数据跟自己过去的值相关。而普通任务里,每个样本通常是独立的。
## 3. **不能随便划分训练集和测试集**
普通机器学习可以随机抽取80%数据训练,20%测试。但时间序列必须用"过去"预测"未来",所以只能按时间切分——比如用2020-2023年的数据训练,用2024年的数据测试。你不能用未来的数据训练模型再预测过去,那就"偷看答案"了。
## 4. **有明显的模式**
时间序列常常有规律可循:
- **趋势**:比如GDP长期增长
- **季节性**:夏天冰淇淋销量高,冬天低
- **周期性**:经济有繁荣-衰退周期
这些模式是时间序列特有的,需要专门的方法来捕捉。
## 5. **越远越难预测**
预测明天的天气比较准,预测下个月就难了,预测明年几乎不可能。时间序列有个"预测衰减"特性——预测时间越长,不确定性越大。就像滚雪球,误差会累积放大。
## 6. **外部因素很重要**
时间序列往往受很多外部事件影响:疫情、政策变化、突发新闻等。这些"外生变量"需要特别考虑,而普通任务可能只关注数据本身的特征。
**打个比方**:如果说普通机器学习像给一堆照片分类(猫、狗、鸟),那时间序列预测就像看着一部电影的前半段,猜测后面的剧情发展——你必须理解时间的流动、记住之前发生了什么、还要考虑剧情的节奏规律。
# 🧩 Cues
[[量化$]]
相关比赛:
https://www.kaggle.com/competitions/predict-energy-behavior-of-prosumers/data
# 🪞Notes