当前位置:首页 >时尚 >Hadoop已死?Hadoop万岁! Hadoop已死?Hadoop万岁

Hadoop已死?Hadoop万岁! Hadoop已死?Hadoop万岁

2024-06-28 17:21:02 [百科] 来源:避面尹邢网

Hadoop已死?Hadoop万岁!已死

作者:读芯术 开发 开发工具 Hadoop 各种博客文章、已死杂志投稿中,已死“Hadoop已死”的已死说法死灰复燃,且又开始甚嚣尘上。已死近年来,已死Cloudera不再满足于Hadoop开源平台的已死身份,转而以企业数据公司的已死身份进行营销。

各种博客文章、已死杂志投稿中,已死“Hadoop已死”的已死说法死灰复燃,且又开始甚嚣尘上。已死近年来,已死Cloudera不再满足于Hadoop开源平台的已死身份,转而以企业数据公司的已死身份进行营销。如今,Cloudera已经进入企业数据云市场:混合云/多云服务,统一的安全体系和管理,多功能分析——都得益于Hadoop的开源服务。

话虽如此,在“Hadoop已死”这一负面论调的汪洋大海中航行,还是困难重重。

Hadoop已死?Hadoop万岁! Hadoop已死?Hadoop万岁

[[278761]]

Hadoop已死?Hadoop万岁! Hadoop已死?Hadoop万岁

Hadoop是什么?

Hadoop已死?Hadoop万岁! Hadoop已死?Hadoop万岁

首先,从最基本的层面来讲——Hadoop最初是Apache 软件基金会的一个开源项目。后来,Map/Reduce 和 HDFS也分别被纳入这一项目中,很快就形成了一个广泛而丰富的开源生态系统。如今,Cloudera的“Hadoop发行版”(CDH/HDP/CDP)包含30多个开源项目,涵盖存储、计算平台(例如YARN,以及未来的Kubernetes)、批处理/实时计算框架(Spark、Flink等)、编排、SQL、NoSQL、ML、安全/管理等等。

所以,如果把Hadoop仅仅定义为MapReduce,那么,MapReduce的确正在衰落。但这并不妨碍Spark、Flink以及其他技术的兴起——这使客户感到高兴。这就是平台的美妙和强大之处——它可以进化,可以拥抱新的范式。

那么,如果Hadoop不是一个“项目”或“一组项目”,它又是什么呢?

“Hadoop”是一种哲学——是一场运动,是管理和分析数据的现代化体系结构的发展。

[[278762]]

“Hadoop 哲学”

“Hadoop 哲学”始终遵循以下原则:

1. 转向分解软件堆栈,将每一层(存储、计算平台、批处理/实时/SQL计算框架等)构建为可组合的乐高积木,而不是单一且不灵活的软件栈(例如以垂直方式整合的具有定制存储格式、解析器、执行引擎等的数据库。

  • 尤其是,通过建立开放的元数据、安全和管理平台来协调分解的堆栈,有助于实现这一点。

2. 转向用于大型分布式系统的商品硬件,而不再是专有/单片硬件+软件堆栈。

  • 在经济学理论中,商品被定义为一种物品或服务,具有充分的可替代性和广泛的可获得性,这通常会导致较小的利润率,使价格以外的因素(如品牌)变得并不那么重要。
  • 请参阅下面的讨论,了解商品硬件在架构上如何很好地转化为公共云。

3. 转向利用开放数据标准和开源技术,而不是专有的、供应商控制的技术。这不仅仅是开放标准——标准是实现,而不仅仅是“规范”。

4. 转向灵活多变的技术生态系统(MRv1 -> YARN -> K8s, MapReduce -> Spark/Flink等),而不是对所有的整体堆栈一刀切,从而在每一层都能实现创新。

从某种层面来说,“Hadoop哲学”对于数据架构来说,就像著名的Unix 哲学对于软件开发一样,Eric Raymond在其著作《Unix编程艺术》中阐述了17条Unix规则,同样适用于该领域:

1. 模块原则:使用简洁的接口拼合简单的部件。

• HDFS, YARN/K8s, Spark, Hive等既可以相互组合,又相互依赖。

3. 组合原则:设计时考虑拼接组合。

• Impala,Hive, Spark等可用于端到端的解决方案。

4. 分离原则:策略同机制分离,接口同引擎分离。

• HDFS既是文件系统接口,也是文件系统实现。这就是Spark通过Hadoop兼容文件系统“API”与S3对话的原因。

6. 吝啬原则:除非确无它法,不要编写庞大的程序。

• 避免出现“大”而“胖”的层,而是使用依赖于其他层的模块化层,例如Phoenix和HBase。

7. 透明性原则:设计要可见,以便审查和调试。

• 开源FTW!

16. 多样原则:决不相信所谓“不二法门”的断言。

• Hadoop生态系统提供了多种工具,因为它们适用于不同的场景,并且具有不同的优势(可以通过Spark或Hive实现ETL,通过Hive/Tez或Impala实现SQL,通过LLAP或SparkSQL实现SQL)。

17. 扩展原则:设计着眼未来,未来总比预想来得快。

• 在2005-2006年时,很难预测到HBase, Hive, Impala, Spark, Flink, Kafka等产品的出现,但在过去13年多的时间里,它们成为了高质产品和堆栈的关键组件,这已经是很好的成果了。

[[278763]]

云是什么呢?

如今,公共云(以及私有云)显然将成为企业部署体系结构中不可或缺的一部分。

公共云本质上就是企业硬件基础设施(服务器、网络、数据中心等)的商品化。因此,它完全符合Hadoop哲学的原则——专注于商品硬件。此外,整个Hadoop生态系统一直都是为了“变形”和吸收新影响而构建的——Tom White在2006年编写了第一个S3-Hadoop连接器,Amazon在2009年引入了EMR服务。

与此相比,传统数据库供应商很难分解单个的、高度工程化、融合一体化的硬件/软件堆栈,并使它们在公共云中进行“本地化”工作。

不幸的是,就整个行业来说,没能很好的帮助市场(尤其是金融市场)理解Hadoop与传统技术在公共云方面的区别。这值得思考,且亟待改善。

亚马逊的 EMR、Azure的HDInsight,以及谷歌的Dataproc都是很好的例子,能够很好地说明“Hadoop”是如何在客户群的公共云中大规模推动巨头价值和业务的。

Cloudera是什么?

Cloudera是一家数据公司。这家公司能够将数据转化为清晰且可操作的观点,这主要是通过“Hadoop哲学”来实现的。我们建立了这个市场——为自己的过去感到骄傲,但并没有被蒙蔽。我们借力于技术浪潮(公共云、Kubernetes等),这不仅有益于客户,也符合公司的使命。

即使再过一百年,企业依然会希望将数据转化为观点。这是我们正在做的,并将持续做下去。

有些事情确实发生了改变——这需要引起注意。五年前,当我们还是IT技术时,就获得了通行证。所有的酷小孩都想和我们一起玩,把他们能找到的所有用例分享过来,还向他们的朋友们炫耀我们。在某种程度上,当时的主流情绪是“已经知道答案是Hadoop——那么问题是什么?”。这导致在产品生命周期的早期出现了一些不合理的、不切实际的期望。现在我们需要努力去说服客户,才能让其使用我们的产品,但是带给他们的价值和理念是毋庸置疑的。我们还需要说服客户使用如CDP之类的技术。但他们今天确实在与我们合作,正如他们在集体平台上运行的数千BP的数据和数百万分析程序所证明的那样!

本质上,通过参与用户和企业存储/管理/保护/控制/分析数据的用例,我们将继续蓬勃发展。随着“Hadoop已死”的说法重现又消退,我们会被误解,也愿意被误解一段时间——因为我们重视结果。所有伟大的公司都会时不时的被误解,坚持到最后就是胜利者。

Gartner分析师Merv Adrian喜欢讲述这样一个故事,一个客户说他最喜欢的“Hadoop应用程序”就是在S3中使用了带有Spark的Tensorflow。Merv问他为什么选择Hadoop,他回答是因为Hadoop团队创建了它。而且,使用的Spark来自Hadoop发行版。因此,Merv指出:“通常,旁人才能看出Hadoop的价值所在。”

CDP的基本目标是确保使用云服务能让企业更容易从平台获得价值,而无需处理技术的复杂性。尤其是,使用CDP提供的用于数据仓库和机器学习的本地SaaS式服务经验,使得业务用户能够轻松分析存储在云空间中的数据。此外,SDX使得使用ABAC和细粒度策略跨存储在对象存储和on-prem HDFS中的数据建立完全安全的数据湖变得非常简单,还提供了用于治理和加密(存储和在线)的来源和沿袭。在这方面取得的进展令人兴奋——正如从许多企业客户反馈中看到的那样!

那么,Hadoop已经死去了吗?

对Hadoop旧的认知已经过时了——尘埃落定。Hadoop作为一种理念,正在推动着开源技术生态系统和开放数据标准不断发展,使人们能够将数据转化为观点,这种理念是鲜活而持久的。

只要有数据,就会有Hadoop。

Hadoop的旧理念已死。Hadoop的新理念长青。

责任编辑:赵宁宁 来源: 读芯术 Hadoop开源云

(责任编辑:焦点)

    推荐文章
    • “放水养鱼”式管理激发市场活力 安徽降本减负典型经验做法获点赞

      “放水养鱼”式管理激发市场活力 安徽降本减负典型经验做法获点赞学会“放水养鱼”,尽一切努力把企业负担降下来。11月15日,记者从第十届安徽省减负政策宣传周上了解到,截至9月底,规模以上工业企业每百元营业收入中的成本为83.73元,这一数字 ...[详细]
    • 广告靠拢经营,技术如何助力?

      广告靠拢经营,技术如何助力?来源:36氪技术与广告的融合永无止境,它永远是进行时,而不是完成时。 ...[详细]
    • 世界数字教育联盟在上海正式宣布成立

      世界数字教育联盟在上海正式宣布成立转自:红星新闻1月30日,以“数字教育:应用、共享、创新”为主题的2024世界数字教育大会在上海开幕。会议期间,世界数字教育联盟正式宣布成立。联盟发起方代表,中国教育国际交流协会会长刘利民向与会嘉宾介 ...[详细]
    • 国内大模型与GPT

      国内大模型与GPT1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。根据评测, ...[详细]
    • 股票熔断什么意思?上证指数跌多少触发熔断?

      股票熔断什么意思?上证指数跌多少触发熔断?股票熔断什么意思?股票熔断是指自动停盘机制,当股指波幅达到规定的熔断点时,交易所为控制风险采取的暂停交易措施,具体是对标的物设置一个熔断价格,使合约买卖报价在一段时间内只能在这一价格范围内交易的机制。 ...[详细]
    • 香港科技大学成立3个科创实验室

      香港科技大学成立3个科创实验室【教育传真】    科技日报讯 记者罗云鹏 通讯员谈家诚 张者昂)1月下旬,记者从香港科技大学获悉,该校成立数据科学基础、再生生物学以及对流与降水3个科创实验室,旨在培育科创人才,促进科研成果转化。  ...[详细]
    • V观财报|赣锋锂业2023年净利预降70%

      V观财报|赣锋锂业2023年净利预降70%中新经纬1月30日电 赣锋锂业2023年业绩大幅预降。30日盘后,赣锋锂业发布2023年业绩预告,预计归属上市公司股东的净利润42亿元-62亿元,同比降79.52%-69.76%;扣除非经常性损益后的 ...[详细]
    • 要把高梯度磁选机做到全世界最好

      要把高梯度磁选机做到全世界最好【国家工程师】◎本报记者 魏依晨  通讯员 魏小兰    从勘破世界难题到装备落地开花,从开拓国际市场到带领企业飞速发展,今年72岁的熊大和潜心一生只为一件事:“要把高梯度磁选机做到全世界最好!”   ...[详细]
    • 评价结果显示:零售业务对商业银行收益可持续能力的贡献不断增强

      评价结果显示:零售业务对商业银行收益可持续能力的贡献不断增强据中国银行业协会官网11月9日消息,近日,中国银行业协会行业发展研究委员会发布了2021年度商业银行稳健发展能力“陀螺”(GYROSCOPE)评价体系评价结果。据了解,&ldq ...[详细]
    • 天津“福彩嘉年华生肖票首卖式”启动

      天津“福彩嘉年华生肖票首卖式”启动彩市动态1月27日、28日,天津福彩连续两天在南开区鲁能城负一层举办“福彩嘉年华,生肖票首卖式”活动。活动现场有著名歌手及舞蹈表演助兴,用动听的歌声、激情的舞姿,点燃新春的热情;更有精心设计的魔术表演 ...[详细]
    热点阅读