Trino、PrestoSQL 和数仓几个概念梳理 前言 最近在补一些大数据基础概念时,发现自己最容易混的不是某一个单独术语,而是这些词总是一起出现:Trino、PrestoSQL、DW、ODS/DWD/DWS/ADS、ETL/ELT、OLTP/OLAP。 单看每个词,好像都能说两句;真要把它们放到
回溯相关的一些思考 前言 这次想单独记一下自己对“回溯”这件事的一些理解。 一开始我对回溯的理解其实也比较直白,无非就是把某个对象过去某一天的数据查出来,再往后分析原因。 但后面越想越觉得不对。 如果回溯真的只是查历史数据,那很多问题其实解释不通。比如为什么时间跨度一大,就不能继续逐天查;为什么有些
前言 最近在做大数据回溯相关工作,这里把其中关于 CID 缓存以及 SQL 体积调优的一些经验做一次整理。 这类场景里,随着数据量和回溯范围变大,CID 存储方式、批量读取方式、SQL 体积控制以及查询执行稳定性,都会逐渐成为影响整体性能的关键因素。实际处理过程中,也会涉及缓存成本、查询开销、批次控