比较 Microsoft Fabric 上的 PowerBI DataFlows 与 Dataflows Gen2
微软产品组最近做了一个Reddit 上的 AMA关于他们在构建会议上宣布的最新、最伟大的分析产品“Microsoft Fabric”。
Dataflows Gen2 带来了完整的 ETL/ELT 数据集成体验,彻底改变了企业提取、转换和加载数据的方式。在这篇博文中,我们深入研究了令人兴奋的功能和进步,使 Dataflows Gen2 成为数据集成领域的游戏规则改变者。
| 特征 | 数据流 | 数据流 Gen2 |
|---|---|---|
| 一体化 | Power BI / Power Platform 的一部分 | 通用数据集成功能(超越 Power BI) |
| 输出目的地 | 有限的目的地 (Power BI) | 多个目的地(Fabric/Synapse Lakehouse、仓库、实时分析、SQL 等) |
| 性能和规模 | 性能和规模有限 | 构建在 Fabric 计算引擎之上,以提高性能和规模 |
| 分期 | 使用默认的暂存机制 | 使用 Fabric Lakehouse 进行暂存,从而获得更好的性能 |
| 复印功能 | 不支持PB级复制 | 与 PB 级复制集成,以实现更快的数据导入/复制 |
| 监控集成 | 未指定 | 与结构监控中心完全集成 |
| 创作/保存模型 | 整体改进 | 改进了创作和保存模型的体验 |
| 许可 | Power BI 高级功能 | 适用于结构容量和 Power BI Premium 容量 |
Dataflows Gen2 是 Dataflows 的演变,具有多项增强功能和功能。它引入了输出目的地,允许将转换结果写入各种目标。
建议阅读:比较 Google Workspace 与 M365 Microsoft 365 商业版与企业版
它基于 Fabric 计算引擎构建,解决性能和规模问题。它利用 Fabric Lakehouse 进行暂存并与监控集成。通过集成 PB 级复制,数据导入/复制速度更快。
总体而言,Dataflows Gen2 的目标是提供更通用、更灵活的数据转换体验,与其前身 Dataflows 相比,具有更好的性能和规模。
在 Microsoft Fabric 中, Lakehouse 是使用 Azure Data Lake Storage 实现的,数据模型/数据集是使用 Azure SQL 数据库实现的。
下面的表格总结了 Lakehouse 和数据模型/数据集之间的差异:
| 特征 | 莱克豪斯 | 数据模型/数据集 |
|---|---|---|
| 存储架构 | 单一存储库 | 单独的存储库 |
| 灵活性 | 非常灵活 | 灵活性较差 |
| 可管理性 | 可能难以管理 | 更容易管理 |
| 一致性 | 可能很难确保一致性 | 更容易保证一致性 |
| 准确性 | 可能很难确保准确性 | 精度更容易保证 |
| 适合不同用途 | 适合多种用途 | 并不适合所有用途 |
结论:
随着 Dataflows Gen2 的推出,组织现在可以使用超越 Power BI 范围的强大且多功能的数据集成工具。
利用多个输出目标的能力、改进的性能和规模、无缝监控集成以及增强的创作功能使 Dataflows Gen2 成为数据管理工具包中的重要组件。
随着 Microsoft 不断完善和扩展这项技术,从数据中转换和提取见解的可能性变得更加引人注目。拥抱 Dataflows Gen2 的强大功能,释放满足您数据集成需求的无限潜力。
