下面是我对
STM32F7508-DK 板上连续内存块的乘积性能基准测试,用于三种不同类型的内存(片上 SRAM、FMC 管理的外部 SDRAM 和 QSPI 连接的 NOR 闪存):

水平轴给出了操作的连续内存区域的大小,垂直轴给出了每秒数百万次乘法累加的数量。
对我来说有意义的一个观察是,一旦连续内存块增长超过 2^12 B = 4 kiB = 缓存大小,所有情况下的性能都会显着下降。
我不明白的主要事情是为什么外部SDRAM 性能在小尺寸区域差这么多。有人可以详细说明吗?
电路板、SDRAM 和 NOR 闪存均由 STM32CubeF7 的 BSP 函数和 STM32F7508-DISCO 电路板模板进行初始化。
虽然绝对数字不同,但总体定性行为在从 -O0 到 -O3 的优化级别上是相同的。