SIMD能力初体验，你了解多少？那么SIMD到底是多少什么呢

2024-07-01 12:03:15 [百科] 来源：避面尹邢网

SIMD能力初体验，初体你了解多少？

作者：赵帅虎 2023-06-19 08:48:19商务办公 SIMD技术在大数据和机器学习领域有非常广泛的验解应用。Clickhouse为什么快，多少NumPy为什么快，初体背后都离不开SIMD技术的验解支持。那么SIMD到底是多少什么呢，我们来看看。初体

SIMD，验解Single Instruction Multiple Data，多少是初体一种在CPU指令级别支持的并行处理技术。大家最早听说这个词，验解应该是多少在《计算机组成原理》的课上。

SIMD能力初体验，你了解多少？那么SIMD到底是多少什么呢

为了体现出区别，初体我们先看最简单的验解模式：Single Instruction Single Data (SISD)。这种模式下，多少一个单核CPU接收并执行一条指令。该指令只加载内存单元里的一条数据到寄存器，然后进行处理。

SIMD能力初体验，你了解多少？那么SIMD到底是多少什么呢

Single Instruction Single Data

SIMD模式下，CPU的寄存器通常比较大，比如128bit，目前最新已支持到512bit。如果我们使用512bit寄存器，那么一次性就可以加载8个int64数字，以并行度=8的速度进行计算:

Single Instruction Multiple Data

当然，还有两个分类 MISD 和 MIMD，这里就不细说了。

Intel CPU对SIMD的支持

Intel CPU通过扩充指令集提供了对SIMD的支持。按照出现顺序，总共有三套：MMX、SSE 和 AVX:

我们可以通过Intel官方网站查询自己的处理器是否支持（地址附在文章末尾）。下面以MacOS为例，简单看一下。通过sysctl查看CPU型号:

sysctl -a | grep brand machdep.cpu.brand_string: Intel(R) Core(TM) i7-1068NG7 CPU @ 2.30GHzmachdep.cpu.brand: 0

下面是查询结果，可见主流的SSE和AVX指令集都是支持的：

那么这些指令集怎么用呢？Intel官方提供了一套C语言库，并且有详细的函数文档，名字为 "Intel® Intrinsics Guide"。

这些函数有明确的命名规范，由三段构成，分别是:

_mm<位数>: _mm 128bit，_mm256 256bit，_mm512 512bit。
_<运算>: _add 加, _sub 减，_mul 乘，_div 除，与或非同理。
_<原始类型>: _epi16 int16, _epi32 int32, _ps float32, _pd float64。

比如我想看下256bit下的加法，搜索 mm256_add 会返回一组函数:

接下来我们用这些指令来看看下性能吧。

准备工作

由于要做性能测试，编程语言是C/C++，所以选择 google/benchmark 作为辅助。测试场景是两个100w条数据的数组做加法，数组里的元素可以是int32、float32、int64等。后面我们采用float32进行测试。

google/benchmark 跟着Github上"Installation" 部分走就好了，最后必须执行安装这一步:

sudo cmake --build "build" --config Release --target install

编写代码:

先写一段比较正常的单测代码，通过 #include <immintrin.h>可使用SIMD的能力。准备工作包括：

初始化3个长度为100w的数组 a、b、c, _mm_malloc负责内存分配。
对 a 和 b 进行初始化。

计算逻辑是 c = a + b，跑多少轮次由 benchmark::State &state 来控制。代码如下:

#include <immintrin.h>#include <benchmark/benchmark.h>constexpr int N = 1000000;static void normal(benchmark::State &state){     float *a = static_cast<float *>(_mm_malloc(sizeof(float) * N, 16));    float *b = static_cast<float *>(_mm_malloc(sizeof(float) * N, 16));    float *c = static_cast<float *>(_mm_malloc(sizeof(float) * N, 16));    for (int i = 0; i < N; ++i)    {         a[i] = i;        b[i] = 2 * i;    }    for (auto _ : state)    {         for (int i = 0; i < N; ++i)        {             c[i] = a[i] + b[i];        }    }    _mm_free(a);    _mm_free(b);    _mm_free(c);}BENCHMARK(normal);

我们将文件命名为 benchmark_float32.cpp。编译并执行:

g++ -Wall -std=c++20 -msse4 -mavx512f -mavx512bw benchmark_float32.cpp -pthread -lbenchmark -o benchmark_float32

由于需要支持sse4 avx512，编译时需要加上 -msse4 -maxv512f -mavx512bw。运行 ./benchmark_float32 结果如下:

2023-06-17T18:30:04+08:00Running ./benchmark_float32Run on (8 X 2300 MHz CPU s)CPU Caches:  L1 Data 48 KiB  L1 Instruction 32 KiB  L2 Unified 512 KiB (x4)  L3 Unified 8192 KiBLoad Average: 3.24, 3.72, 4.09-----------------------------------------------------Benchmark           Time             CPU   Iterations-----------------------------------------------------normal        1821404 ns      1812256 ns          386

到当前为止，测试能够跑起来了。我们再加一个 128bit 计算的支持。这需要3个函数:

_mm_load_ps 将4个打包的float32加载到一个__m128类型的变量里。
_mm_add_ps 对2个 __m128类型的变量做加法。
_mm_store_ps 将1个__m128类型的变量存到一个float32*指向的内存里。

组装起来就是:

for (int i = 0; i < N; i += 4){     __m128 v1 = _mm_load_ps(a + i);    __m128 v2 = _mm_load_ps(b + i);    __m128 v3 = _mm_add_ps(v1, v2);    _mm_store_ps(c + i, v3);}

由于一个 __m128类型的变量可以容纳4个float32，所以 i 每次加4。

同样的方法，我们可以把 __m256 和 __m512 都纳入测试，测试结果如下：

可以发现，这些扩容指令集的执行性能还是不错的，不过由于load和store需要额外的时间，并没有倍数的提升。

同样的方式，我们拿 int32 和 int64 进行测试，测试结果如下：

我们看 Iterations 这个指标，这个指标越大，说明运行速度越快。我们将不同类型汇总成表格:

Iterations	float32	int32	int64	float32-O3	int64-O3
normal	388	383	361	1541	516
sse128	573	709	345	1441	2716
avx256	943	1176	550	1435	2959
avx512	1791	1872	759	6611	2601