经常有人问,存储架构师的选型学习路线是什么?
我一般推荐架构师的基本功,是起步从「存储选型」开始的。
本文整理了存储选型的架构思路和整体框架,主要包括几个部分内容:
DB-Engines数据库排名并不代表数据库的安装数量,或者使用量。但某数据库越来越受欢迎则代表在一定时间范围内更加广泛的使用。
这里贴了一张2022年5月份的排行榜(https://db-engines.com/en/ranking)。
我们对于排名前10的数据库中,比较熟悉的应该是MySQL、Redis和ES,这三个数据库在我们日常开发中占据绝大多数的比例。
但是,这三个数据库只代表了一小部分的数据库类型,我们是不是可以把视野打开更多一些,看看没有更多的数据库类型,可以适合我们不同的业务,包括Relational、Document、Key-value、Search engine、Wide column、Time Series、Graph等等不同数据库类型。
除去上面的传统数据库之外,云时代存储技术又有了更多的变化。
除了简单的把上面的数据库托管到云上之外,还多了许多充分利用云的基础设施产生的云原生数据库,比如aws的Amazon Aurora、阿里云的PolarDB、腾讯云的TDSQL等。
另外,云时代还产生了更多类型的数据库,比如阿里云的多模数据库Lindorm、Pingcap的HTAP数据库TiDb等。
多类型数据库是各个云厂商发展的趋势,他们为什么会支持越来越多用途的数据库呢?
供给侧的改变一定是来源于需求侧,因为随着互联网、物联网等场景发展,有很多业务需求不是任何单一的数据库能解决的了。
「数据库类型多元化」 & 「云原生数据库类型多元化」 是一个必然的发展趋势。
我们要解决的场景会越来越多,我们需要掌握的数据库领域也越来越广,只有这样,我们才能面对在线事务、离线分析、海量存储、成本与效率等因素,真正做好存储选型。
大家可能都知道,数据库的选型一定是基于实际的业务场景的。但是,可能也遇到过类似的对话:
上面的对话可能有些夸张,但是实际生产中,可能是对场景的理解有误,也可能是为了快速完成任务开发,结果是在「特定场景」选择了错误的数据库的情况时有发生。
常见的特定场景包括:
数据增长方式:按日期、按用户、按位置类型等。
对于存储选型来说,一定需要识别特定场景的特点,是在线业务还是离线业务?数据冷热是否明显?数据访问方式特点?数据增长方式等等。
如果没有根据场景特点来做存储选型,可能会带来不良后果,包括无法满足业务需求、存储成本暴涨等,然后就需要花大代价做不停机数据迁移和代码重构。
因此,针对特定业务场景的存储选型一定要仔细、慎重,并在一开始就设计好。
除了特定场景外,「数据规模」是存储选型的另一个核心要素。
这样的对话非常常见。
虽然在一些新业务场景下,确实很难准确评估业务的数据规模,但是无法评估的数据规模,往往意味着无法做好正确的存储选型。
因此,如果有一定的先验知识,我们需要尽量做好数据规模的评估。比如,之前有没有类似的业务、其他组有没有类似的需求或功能,它们目前的数据规模大致如何,然后进行评估。
常见的数据规模指标有三个:
不同的数据规模指标,往往意味着不同的存储选型。
对于存储选型,「掌控度」是非常重要的选型原则。
这里其实包括了两个维度,开发同学对存储的掌控度 & DBA对存储的掌控度。
1)开发同学的掌控度
对开发同学来说,选择一个存储,一定是基于对该存储的基本认知&最佳实践的了解。
一定不是其他人也这么用所以我这么用。
如果盲目使用一个自己不了解的存储,很容易带来不良后果,轻则造成资源浪费,重则引起线上故障(比如Mysql的慢sql、HBase的热点访问等)。
2)DBA对存储的掌控度
对DBA来说,对一个存储的基本认知&最佳实践是基础要求了。在此之上,还有其他更多的要求。
一个是社区活跃度。社区活跃度决定着你获取信息的难易程度,也决定到出现了故障后的定位速度甚至是能不能定位出来,如果社区很活跃,自然就能得到更多的帮助。
第二个是有没有案例背书。最好是一些中厂、大厂最新的案例实践(千万不要被大厂多年前的案例迷惑,技术发展往往意味着更新更合适的解决方案)。如果案例与存储不匹配,或者没有什么案例来支持你的存储选型,那么这个选型可能就是不合适的。
第三个是存储组件的上手成本。团队具备了什么样的技术储备?选择的是自研还是云产品?云产品是全托管的还是半托管的?毕竟每一种数据库都不是这么简单,如果人力有限而上手难度又很大,那么这个存储组件目前可能不是一个好的选择。
结合上面的原则,我们来做一个存储选型路线图供大家参考。
进一步,针对各个类型数据库,我们都需要了解它们的优点、缺点、最佳实践等,来结合业务场景因地制宜。
以MySQL为代表的关系型数据库。常用于在线业务(OLTP)场景,对于强事务有较好支持。
优点:
缺点:
最佳实践:
KV型NoSql顾名思义就是以键值对形式存储的非关系型数据库,是最简单、最容易理解也是大家最熟悉的一种 NoSql。
Redis是其中的代表,典型用于缓存场景。
优点:
缺点:
最佳实践:
搜索型NoSql顾名思义主要是用在搜索场景下的。
尽管MySQL可以通过索引来加速查询,但是对于全文搜索、模糊搜索等场景就比较无力,搜索型NoSql正是为了补足这个场景诞生的。
ElasticSearch是其中的代表产品。
优点:
缺点:
最佳实践:
文档型 NoSql 指的是将半结构化数据存储为文档的一种 NoSql,通常以 JSON 或者 XML 格式存储数据。
Mongo是其中的代表产品。
优点:
缺点:
最佳实践:
一般用于可靠性要求不高的海量存储场景。
HBase是代表产品(国外cassandra用得多,国内HBase用得多)。
优点:
缺点:
最佳实践:
上文提出了 三条选型原则 和 常见数据库的选型依据,下面结合不同场景做一下常规选型方案参考。
毋庸置疑,互联网业务的主要场景,是采用mysql进行数据存储。正如MySQL的自己所说 —— most popular open source database。
当然,为了扛住高并发场景,缓存也不可缺失。
因此,最主要的方案就是 MySQL + Redis。
适用于日常主要场景:
MySQL数据库擅长在线业务(OLTP)读写,不擅长做统计、分析型业务(OLAP)。因此,一般会通过MySQL做持久化存储,ES构建索引进行查询、分析。
适用于搜索场景:
数据规模:100TB以内的数据量。
1)MySQL分库分表 + es
传统MySQL横向扩展方案,利用分库分表中间件进行存储扩展,利用ES进行非分表键查询和复杂查询。
适用场景:
2)云原生数据库(以polarDB为例)
云时代的新方案。
PolarDB是阿里巴巴自研的新一代云原生关系型数据库,在存储计算分离架构下,利用了软硬件结合的优势,为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务,100%兼容MySQL 5.6/5.7/8.0。
最高100 TB,不再需要因为单机容量的天花板而去购买多个实例做分片,由此简化应用开发,降低运维负担。
适用场景:
3)mongo分片集群
适用场景:
数据规模:100TB以上的数据量。
1)高可用数据库 + HBase
由于数据量非常大,需要考虑存储成本。因此一般会考虑冷热数据分离。
热数据在高可用数据库进行读写,可以选择MySQL、Mongo等。冷数据存入成本较低的HBase或者对象存储等组件。
适用场景:
2)直接使用HBase
如果是非核心在线业务,或者离线业务,可以考虑直接使用HBase。
适用场景:
在业务开发过程中,除了常用的MySQL,一定要多关注市面上更合适的存储方案,这是架构师的基本功。
通过了解更多存储组件的基本特性和使用场景,因地制宜选择合适存储,提高业务开发效率,降低使用成本。
希望本文能够抛砖引玉,提供一些启发和思考。
责任编辑:武晓燕 来源: 阿丸笔记 存储选型MySQL(责任编辑:热点)
成立7周年,爱善天使俏妃被称茶颜悦色和文和友之外的长沙新名片