doabled
本站致力于IT相关技术的分享
构建从 CircleCI 到 HBase 的幂等数据ETL管道与 Pandas 转换层实现 构建从 CircleCI 到 HBase 的幂等数据ETL管道与 Pandas 转换层实现
团队接手了一个遗留的数据分析项目,痛点非常明确:每个月,分析师需要手动运行一个本地的Python脚本,处理大约500万行从业务系统导出的CSV文件。这个脚本使用Pandas进行一系列复杂的特征衍生和数据清洗,最终将结果写入HBase,用作后
2023-10-27
使用Jest为Delta Lake上的Saga分布式事务模式构建确定性单元测试 使用Jest为Delta Lake上的Saga分布式事务模式构建确定性单元测试
一个看似简单的业务需求摆在面前:在一个用户注册流程中,我们需要原子性地向两个不同的Delta Lake表中写入数据。一张是 users 表,记录用户ID和认证信息;另一张是 user_profiles 表,记录用户的详细资料。如果任意一张表
2023-10-27
构建基于 DVC 与 Apache Spark 的可验证数据到静态站点安全生成管道 构建基于 DVC 与 Apache Spark 的可验证数据到静态站点安全生成管道
最初的需求听起来很简单:将每日TB级的安全审计日志,聚合成一个静态HTML合规报告网站,供内部审计团队查阅。最初的方案也同样直接:一个Python脚本,用Pandas处理日志样本,生成几个JSON文件,然后让Hugo读取这些JSON生成站点
2023-10-27