比较 Microsoft Fabric 上的 PowerBI DataFlows 与 Dataflows Gen2

Avilas

微软产品组最近做了一个Reddit 上的 AMA关于他们在构建会议上宣布的最新、最伟大的分析产品“Microsoft Fabric”。

Dataflows Gen2 带来了完整的 ETL/ELT 数据集成体验,彻底改变了企业提取、转换和加载数据的方式。在这篇博文中,我们深入研究了令人兴奋的功能和进步,使 Dataflows Gen2 成为数据集成领域的游戏规则改变者。

特征 数据流 数据流 Gen2
一体化 Power BI / Power Platform 的一部分 通用数据集成功能(超越 Power BI)
输出目的地 有限的目的地 (Power BI) 多个目的地(Fabric/Synapse Lakehouse、仓库、实时分析、SQL 等)
性能和规模 性能和规模有限 构建在 Fabric 计算引擎之上,以提高性能和规模
分期 使用默认的暂存机制 使用 Fabric Lakehouse 进行暂存,从而获得更好的性能
复印功能 不支持PB级复制 与 PB 级复制集成,以实现更快的数据导入/复制
监控集成 未指定 与结构监控中心完全集成
创作/保存模型 整体改进 改进了创作和保存模型的体验
许可 Power BI 高级功能 适用于结构容量和 Power BI Premium 容量

Dataflows Gen2 是 Dataflows 的演变,具有多项增强功能和功能。它引入了输出目的地,允许将转换结果写入各种目标。

建议阅读:比较 Google Workspace 与 M365 Microsoft 365 商业版与企业版

它基于 Fabric 计算引擎构建,解决性能和规模问题。它利用 Fabric Lakehouse 进行暂存并与监控集成。通过集成 PB 级复制,数据导入/复制速度更快。

总体而言,Dataflows Gen2 的目标是提供更通用、更灵活的数据转换体验,与其前身 Dataflows 相比,具有更好的性能和规模。

在 Microsoft Fabric 中, Lakehouse 是使用 Azure Data Lake Storage 实现的,数据模型/数据集是使用 Azure SQL 数据库实现的。

下面的表格总结了 Lakehouse 和数据模型/数据集之间的差异:

特征 莱克豪斯 数据模型/数据集
存储架构 单一存储库 单独的存储库
灵活性 非常灵活 灵活性较差
可管理性 可能难以管理 更容易管理
一致性 可能很难确保一致性 更容易保证一致性
准确性 可能很难确保准确性 精度更容易保证
适合不同用途 适合多种用途 并不适合所有用途

结论:

随着 Dataflows Gen2 的推出,组织现在可以使用超越 Power BI 范围的强大且多功能的数据集成工具。

利用多个输出目标的能力、改进的性能和规模、无缝监控集成以及增强的创作功能使 Dataflows Gen2 成为数据管理工具包中的重要组件。

随着 Microsoft 不断完善和扩展这项技术,从数据中转换和提取见解的可能性变得更加引人注目。拥抱 Dataflows Gen2 的强大功能,释放满足您数据集成需求的无限潜力。