最后来说说数据湖。你可能听过"数据仓库",那是传统数据库的玩法,把数据收拾得整整齐齐(结构化数据,比如表格),存进去之前得先洗干净、整理好。
数据湖不一样,它是个"大水池",什么数据都能往里扔:结构化的(表格)、半结构化的(JSON 文件)、非结构化的(图片、视频)。它不要求你提前整理好,数据是原始状态存进去,需要用的时候再拿出来加工。
举个例子:数据仓库像个超市,货架上全是摆好的商品;数据湖像个大杂货市场,东西堆在那儿,你得自己挑自己洗。数据湖通常用 Hadoop 的 HDFS 做存储,然后可以用 Hive、Spark、Flink 这些工具去分析里面的数据。