让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

财经聚焦Position

你的位置:第一财经资讯 > 财经聚焦 > CIO仍然比以往任何期间齐更接近他们梦思的数据湖仓

CIO仍然比以往任何期间齐更接近他们梦思的数据湖仓

发布日期:2024-10-31 20:01    点击次数:184

Databricks 收购初创公司 Tabular 的果敢举动,对其自身的 Delta Lake 数据湖料理决策并未起到有用的匡助,无法梗阻 Apache Iceberg 的崛起,但是,这一收购可能会影响接下来的发展。

数据湖鸿沟的竞争照旧完了,开源的 Apache Iceberg 照旧成效,即便 Databricks 以十亿好意思元收购了由 Iceberg 首创东谈主创立的初创公司 Tabular,也无法改变这一事实。

尽管如斯,这一果敢的收购令一些 CIO 感到困惑和分神,他们难以联贯为何 Databricks 算作数据湖鸿沟的前驱,Delta Lake 的架构师,竟会破耗巨资收购这家培植仅三年、年收入不及 100 万好意思元的初创公司 Tabular,尽管该公司长进广袤。

一些东谈主想到,Databricks 可能但愿通过这一不确信性,减缓 Iceberg 生态系统的快速发展,另一些东谈主则推测,Databricks 可能计较将 Delta Lake 的样式压在 Tabular 团队身上,而 Tabular 团队咫尺仍然在积极参与 Iceberg 的开发,这种作念法可能既匡助了其自身平台的发展,又亏空了 Iceberg 算作另一种数据湖表状貌的资源。

还有一种假定是,Databricks 的高层可能对打败 Snowflake 的举动感到鼎沸,尤其是在 Snowflake 的步履期间通过收购来迷惑谨慎力,据报谈其竞争敌手曾经寻求此次收购,或者,Databricks 可能只是但愿通过在 Iceberg 鸿沟脱颖而出,来缓解华尔街对其行将上市的不安情谊。

非论原因是什么,Databricks 咫尺对外所说的对于灵通性和可移植性的平允听起来齐很适当——但措辞暗昧,足以让外界接续想到。

Amazon Web Services (AWS) 的开源策略和营销总监 David Nalley 对我示意:“我确乎觉得此次收购有点散布谨慎力,但当这种限制的资金流动时,情况时常即是如斯。” AWS 已将 Iceberg 集成到 AWS Glue 和 Amazon Athena 中分析做事中,并在往日三年积极参与了 Iceberg 的开发。“不外,就我看到的总共信号来看,越来越多的东谈主参与其中,开发速率施行上正在加速。咱们对此感到异常鼎沸。”

事实上,尽管有多样担忧,但咫尺的大部单干作并不波及 Iceberg 表状貌。里面东谈主士示意,该状貌相对建壮。既然 Iceberg 已开荒为默许的表状貌,下一步的竞争将围绕其上的 REST 目次层伸开——即匡助界说 Iceberg 的膨胀范围及数据料理才调的 API,这正成为新的竞争战场。

这亦然 Databricks 仍有契机进展作用的方位,终点是通过将其平台下的数据与其他竞争平台上的信息鸠合。施行上,Databricks 照旧朝这个标的死力。6月,在收购 Tabular 的一周后,Databricks 将其数据治理用具 Unity Catalog 开源。

Cloudera 家具料理高档副总裁 Venkat Rajaji 示意:“数据目次至关紧迫,因为它是企业料理元数据的方位。” Cloudera 也一直在其平台上投资 Iceberg 和 REST 目次的才调。“最近围绕 Iceberg REST 目次的改进异常多,因为数据战场照旧完了,但元数据的战场才刚刚运转。”

数据湖的迷惑力

数据湖表状貌的履行实在好得让东谈主难以置信,它们实质上是概述层,赋予了业务分析师和数据科学家混杂和匹配不同数据存储的才调,非论数据存储在哪个方位,也非论使用哪种处理引擎。

一切操作齐有记载,包括元数据的变更,这为一系列料理和治理才调铺平了谈路。数据本人保合手齐全,莫得复制或改动。因此,任何数目的样式齐不错同期探访这些数据,而表状貌会追踪总共这些操作。

CIO们对此示意招供,因为这些表状貌取消了为每个样式单独复制数据的需求,从而减少了存储用度,并缓解了安全性、可靠性和可料感性方面的问题。表面上,总共这些齐能竣事不依赖供应商的锁定。

临了极少——莫得相似于“加州旅舍”式的罗网,如特有的增强功能和不菲的外部数据更动用度,这些用度时常会将企业困在特罕有据仓库中——在 Iceberg 的缱绻中起到了重要作用。那时,Iceberg 的创造者们在 Netflix 使命,他们取舍了供应商中立的才调,这种才调也迷惑了像 Apple、Citibank 和 Pinterest 这么的以数据为中心的大公司,并接续鼓动其东谈主气飞腾。

Delta Lake 从时期上讲亦然灵通的,Databricks 将 Delta Lake 捐馈遗了 Linux 基金会,差未几在 Netflix 将 Iceberg 样式交给 Apache 软件基金会的同期,但一些 CIO 惦记,Databricks 在平台中的遍及影响力可能让公司有契机保管并增强其特有的钩子,举例在 Databricks Runtime 中。

“东谈主们确乎有一种嗅觉,觉得 Delta Lake 是一家公司草创的截止,”Snowflake 的首席工程师 Russell Spitzer 说。Spitzer 在 6 月从 Apple 加入了 Snowflake,同期亦然 Iceberg 样式料理委员会 (PMC) 的成员,并在 6 月 Snowflake 捐馈遗 Apache 的 REST 兼容 API 样式 Apache Polaris 的孵化 PMC 中担任职务。他还为这两个样式孝顺了代码。

“你知谈,它是开源的,”Spitzer 说,“但它确乎是一个 Databricks 的家具。”

要是你无法打败他们,那就加入他们

Iceberg 的第一波大限制取舍始于 2020 年,那时它成为 Apache 的顶级样式,除了 AWS,像 Cloudera 和 Dremio 这么以灵通为中心的供应商也运转围绕 Iceberg 构建做事,Google 也在这波海浪接近尾声时加入。

大普遍特罕有据平台供应商在当先的海浪中取舍旁不雅,可能是因为 Iceberg 的“任何数据、任何引擎”结构对他们现存的交易模式组成了恫吓,而 Snowflake 是个显耀的例外,这门户据平台供应商在此期间运转投资 Iceberg,可能是因为它需要一个与其最刚烈的竞争敌手 Delta Lake 抗衡的料理决策。

跟着企业越来越多地翌日自竞争性数据仓库的数据与 Iceberg 鸠合使用,各大特有平台供应商运转谨慎地添加对 Iceberg 的撑合手,这让他们处于更有益的地位,不仅粗造接续料理数据,还可能托管处理功能。

仅在往日的一年里,Confluent、Oracle 和 Salesforce 齐增多了对 Iceberg 的撑合手。Snowflake 则通过 Polaris 加大了对 Iceberg 的进入。微软算作临了一家保合手不雅望的云做事提供商——很可能因为其对 Delta Lake 的投资——在 6 月份加入了 Snowflake 的发布步履。虽然,Databricks 也在快速扩大对 Iceberg 的袒护。

“看到 Iceberg 赢得的进展,我感到异常骇怪,”Snowflake 的 Spitzer 说,“往日我得向东谈主们阐扬为什么他们应该温雅 Iceberg,而咫尺,东谈主东谈主齐知谈 Iceberg,各人也齐知谈,总共东谈主齐在向它面对。”

一切齐与元数据相干

Iceberg 为将不同的数据存储整合到样式中并进行处理奠定了坚实的基础。咫尺,企业数据分析社区基本上照旧领受了这极少,下一阶段的使命将麇集在目次层面。AWS、Cloudera、Databricks、Snowflake 等公司齐在死力让 Iceberg 粗造处理尽可能多的数据并进展最好性能。

“目次不单是关乎表状貌,还波及治理,”AWS 的灵通数据分析引擎摆布 Roni Burd 说。Burd 还负责料理该公司对 Iceberg 的孝顺。“因此,在目次 API 上有另一个遍及的改进契机,即表状貌之上的概述层。这亦然咱们的客户所需求的,因为它为他们料理问题开辟了新的前沿。”



Powered by 第一财经资讯 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024

TOP