当前位置:首页 >时尚 >互联网分布式存储入门 布式该篇文章作为一个入门

互联网分布式存储入门 布式该篇文章作为一个入门

2024-06-30 17:08:13 [百科] 来源:避面尹邢网

互联网分布式存储入门

作者:互联网技术面试 存储 存储软件 分布式 在Google、互联Amazon、网分腾讯等大型互联网公司里,布式因为业务广泛,存储有大量的入门用户数据需要保存,因此分布式存储系统往往成为该类公司的互联一个基础设施。分布式存储涉及到单机存储引擎、网分分布式系统协议等众多领域,布式该篇文章作为一个入门,存储带领大家认识分布式存储系统的入门基本概念。

在Google、互联Amazon、网分腾讯等大型互联网公司里,布式因为业务广泛,存储有大量的入门用户数据需要保存,因此分布式存储系统往往成为该类公司的一个基础设施。分布式存储涉及到单机存储引擎、分布式系统协议等众多领域,该篇文章作为一个入门,带领大家认识分布式存储系统的基本概念。

分布式存储应该满足的基本条件

互联网分布式存储入门 布式该篇文章作为一个入门

  • 可扩展

以微信朋友圈的图片为例,随着微信运营时间的增长,需要保存的朋友圈图片必然是越来越多的,因此保存这些图片的分布式存储系统必须可扩展。

互联网分布式存储入门 布式该篇文章作为一个入门

  • 低成本

对于大型互联网公司来讲,要保存的数据量非常大,因此成本是考量一个存储系统是否可上线运营非常重要的一个指标。

互联网分布式存储入门 布式该篇文章作为一个入门

  • 高性能

无论是对整个分布式存储集群还是针对单机的存储引擎,都需要高性能的保证,否则低成本就无从谈起。

  • 易用性

分布式存储系统作为一个基础设施,必须具备足够的易用性,才能更好地服务于各个业务。比如Amazon的S3,接口形式统一,接入简单。

分布式存储系统面临的主要技术挑战

  • 数据分布

整个存储系统是一个集群,如何保证数据均匀分布到多台服务器?假设某一数据被拆分存储到多台服务器后,又该如何实现跨服务器读写?

  • 一致性

出于数据可靠性的考虑,同一份数据必然是保存多份的,如何保证这多份数据的一致性?

  • 容错

对于一个集群而言,机器出现故障是必然的。如何在出现故障时做到及时发现,并且自动把故障机器上的数据和服务迁移到非故障机器?

  • 负载均衡

任何一个集群系统都存在负载均衡的策略问题,分布式存储系统自然不例外。

  • 事务与并发控制

如果要求该分布式存储系统支持事务和并发控制功能,该如何实现?

  • 易用性

易用性前面有提,不再赘述。

  • 压缩/解压缩

怎样根据数据的特点设计、选用合理的压缩/解压缩算法以平衡压缩带来的空间节省和消耗的CPU计算资源。

分布式存储系统存储的数据分类

互联网业务涉及的数据一般可以分为三大类:

1.非结构化数据

典型的如图片、音视频文件等。

2.结构化数据

传统的用关系型数据库保存的二维表结构数据。

3.半结构化数据

介于结构化数据和非结构化数据之间,典型的比如HTML文档。

分布式存储系统分类

基于上述数据类型存储的实际需要,分布式存储系统逐渐演化为以下四种类型:

1.分布式文件系统

一般用于存储非结构化数据。比如HDFS、TFS(Taobao File System)、FastDFS等。

2.分布式键值系统

可以通俗地理解为hash表,如淘宝的Tair、Redis、memcached等,一般用于存储半结构化数据。

3.分布式表格系统

也用于存储非结构化数据,相比分布式键值系统,不单单提供基于主键的读写,还支持对某个主键范围进行扫描,典型的比如Google的Big Table。

4.分布式数据库

由单机数据库发展而来,用于存储结构化数据。典型的如MySQL Sharding集群。

责任编辑:武晓燕 来源: 今日头条 互联网分布式存储

(责任编辑:知识)

    推荐文章
    热点阅读