比较 Power BI Native 与 OneLake – 选择哪一个?

Avilas

当我们查看其中的数据存储选项时微软结构,它提出了一个关键的架构选择:您是否利用传统的高速Power BI 本机存储,或者拥抱统一的、开放的标准一个湖?这一决定会影响从成本和性能到治理和未来可扩展性的方方面面。

本指南对这两种范例进行了明确的深入探讨。我们将解构 VertiPaq 引擎与 Delta Lake 的底层技术,比较经济模型,并对 Import 与 Direct Lake 模式的实际性能进行基准测试。最后,您将拥有一个清晰的框架,可以为任何工作负载选择正确的存储策略。

GigXP.com |结构存储深入探讨:Power BI Native 与 OneLake

演出XP.com

概述
成本与性能
工作流程
治理
决策指南
最佳实践
订阅

概述
成本与性能
工作流程
治理
决策指南
最佳实践
订阅

深入分析

在 Microsoft Fabric 中选择正确存储策略的权威指南。我们解构技术、经济和性能,帮助您构建可扩展、经济高效的解决方案。

第一部分:基础支柱

在 Microsoft Fabric 生态系统中,数据存储分为两种不同的范式:传统的高性能 Power BI 本机存储和新的统一 OneLake 存储。了解每种架构、目的和权衡对于构建现代数据解决方案至关重要。

概览:Native 与 OneLake

显示全部

使用案例

技术

成本模型

表现

属性 Power BI 本机存储 OneLake存储
主要用例 自助服务和部门 BI 企业规模的统一分析
核心文物 语义模型、报告、仪表板 Lakehouse、仓库、KQL DB
底层技术 VertiPaq 分析服务引擎 Azure 数据湖存储 (ADLS) Gen2
数据格式 专有的压缩柱状 开放标准:Delta Parquet
仓储成本 包含在许可证中(上限) 按 GB 按需付​​费
交易成本 捆绑到容量计算中 结构容量 (CU) 消耗
性能简介 高速内存分析 可调谐;取决于 V 顺序和访问模式
数据新鲜度 静态(截至上次刷新) 近实时
治理模式 Power BI 中的工件级别 集中在 OneLake,Purview 集成
关键差异化因素 专用 BI 的速度和简单性 开放性、可扩展性、单一事实来源

Power BI 本机存储内部

一个针对单一目的进行优化的闭环高性能生态系统:交互式 BI。

VertiPaq 引擎:内存中的列式数据库,提供卓越的压缩和查询速度。 Power BI 传奇性能的关键。

专有格式:数据以只能由 Analysis Services 引擎读取的格式存储,从而创建数据孤岛,但最大限度地提高该孤岛内的性能。

捆绑成本:存储包含在 Power BI Pro/PPU 或 Fabric Capacity 许可证中,从而使成本可预测且固定。

OneLake 存储内部

基于开放标准构建的开放、统一的数据基础,适用于所有分析工作负载。

三角洲湖标准:基于开放的 Delta Parquet 格式构建,支持 ACID 事务并允许任何计算引擎(Spark、T-SQL 等)访问相同的数据副本。

快捷键:数据虚拟化的一个关键特性。快捷方式充当指向其他位置(其他工作区、其他云)中的数据的指针,从而防止数据重复。

按量付费:存储按 GB 计费,事务消耗来自结构容量的计算。这提供了精细的成本透明度。

第二部分:经济与绩效计算

这两种存储范例在根本不同的经济模型上运行,并提供不同的性能配置文件。了解这些差异是管理成本和用户期望的关键。

成本模型比较

说明性成本明细。 OneLake 成本根据使用情况而变化,而本机存储是固定许可费用。

OneLake 的隐藏成本和奖金

已删除的工作空间保留

您需要为已删除工作区中 7-90 天的存储付费。主动清理对于避免“僵尸”成本至关重要。

文件软删除

默认情况下,删除的文件会保留 7 天,并且您需要为此存储付费。需要定期“VACUUM”作业来回收空间。

镜像存储奖励

为每个 Fabric CU 的镜像副本获取 1 TB 免费 OneLake 存储。 F64 容量附带 64 TB 的可用镜像存储空间。

性能深入探究:导入与 Direct Lake

Direct Lake 的目标是在不复制数据的情况下实现类似导入的速度,但性能存在细微差别。关键区别在于从源到查询引擎的数据路径。

导入方式

数据来源

复制和压缩
VertiPaq 缓存

(专有格式)

最快查询
Power BI 报告

最高速度、数据延迟

直接湖模式

一湖数据

(三角洲/实木复合地板)

直接读取
Power BI 引擎

(无副本)

快速查询
Power BI 报告

高速度、低延迟

优化 Direct Lake 性能

高性能并不是自动的。这取决于 OneLake 中 Delta 文件的物理布局。

V 型订购:写入时优化可重新组织 Parquet 文件以匹配 Power BI 引擎预期的模式,从而显着提高读取性能。

文件压缩:经常使用 OPTIMIZE 和 VACUUM 命令将许多小文件压缩成更少、更大的文件(100MB-1GB 是理想的)来解决“小文件问题”。

第三部分:现代数据工作流程

向 OneLake 的战略转变正在从根本上重塑数据工作流程,最明显的体现是数据流的演变以及对统一、以数据为中心的治理的推动。

演变:数据流 Gen1 与 Gen2

从 Gen1 到 Gen2 的转变代表了 OneLake 中从特定于 BI 的孤岛向通用、可重用的数据资产的转变。

数据流第一代

来源

电源查询

内部 PBI 存储

(孤立)

输出:写入内部托管存储位置。主要用于 Power BI 语义模型。

数据流 Gen2

来源

电源查询

一湖目的地

通用Delta表

输出:写入 OneLake(Lakehouse/Warehouse)中用户指定的目的地。创建可重用的通用 Delta 表。

第四部分:跨越鸿沟的治理与安全

Fabric 旨在统一治理,但实现方式和成熟度有所不同。战略方向是从应用层面治理到数据层面治理的根本性转变,以OneLake为重心。

Fabric 的关键治理支柱

权限统一治理:Fabric 具有内置的 Purview 功能,可集中查看整个数据资产(从 OneLake 表到 Power BI 报告)。

端到端数据沿袭:Fabric 提供了一个沿袭视图,可以跟踪数据从源到使用的过程,尽管它对于管道和数据流等已识别的工件最为可靠。

敏感度标签继承:下游 Power BI 报告会自动继承应用于 OneLake 中表的标签(例如“高度机密”),从而确保一致的数据保护。

数据级访问控制:在 Warehouse 或 Lakehouse 中的表上定义行级安全性 (RLS) 和列级安全性 (CLS) 一次,即可在从 Power BI 到 Spark 的任何地方强制执行。

第五部分:战略建议

Power BI 本机存储和 OneLake 之间的选择不是一个二元决策,而是一个战略决策,取决于具体场景、数据量、用户角色和长期架构目标。

场景 1:传统自助服务和部门 BI

对于使用 Power BI Pro/PPU 处理较小数据集的熟练分析师来说,目标是快速创建和共享交互式报告。

推荐:坚持Power BI 本机存储(导入模式)。对于这种规模来说,它具有成本效益、高性能,并且不需要专门的数据工程技能。

场景 2:企业规模 Lakehouse 和 DWH

适用于为多个消费者工作负载(BI、数据科学、ML)构建企业单一事实来源的中央数据团队。

了解更多:原生 MacOS Docker 容器现已成为可能

推荐: OneLake是唯一的战略选择。使用 Lakehouse/Warehouse 架构并通过以下方式连接 Power BI直接湖模式来利用单个数据副本。

场景 3:实时和近实时分析

用于分析高速流数据(物联网、点击流),其中仪表板必须以最小的延迟反映数据。

推荐:混合方法集中于一个湖。将流引入 KQL 数据库并使用直接湖为BI层实现低延迟和高性能。

第六部分:整体管理的最佳实践

对 Fabric 存储环境的有效管理需要采用涵盖成本、性能和治理的整体方法,以确保健康且可持续的数据资产。

成本优化

  • 合适的容量:从小规模开始,并根据监控扩大规模。
  • 自动暂停:在非工作时间暂停非生产能力。
  • 监控存储:定期审核 OneLake 存储以查找并清理孤立数据。
  • 优化摄取:使用高效的数据加载模式来最大限度地减少 CU 消耗。

数据生命周期

  • 设置工作空间保留:配置最短保留期限(例如7天)以降低成本。
  • 自动清理:将作业安排到“VACUUM”增量表并清除软删除的文件。
  • 使用大奖章架构:将您的湖泊构建为青铜、白银和黄金层以简化管理。

治理

  • 使用命名约定:对所有 Fabric 项目实施一致的命名标准。
  • 利用域:按业务领域对工作区进行分组以委派管理。
  • 采用 Git 集成:将工件视为强大的源代码控制和 CI/CD 的代码。

演出XP.com

为数据专业人员提供可行的见解。我们将复杂的主题分解为清晰、实用的指导。

导航

合法的

订阅我们的时事通讯

将这样的深入探讨发送到您的收件箱。

© 2025 GigXP.com。版权所有。这是一个概念设计,与微软无关。