为了账号安全,请及时绑定邮箱和手机立即绑定

Go:通过切片切片(二维切片)访问数组时的意外性能

Go:通过切片切片(二维切片)访问数组时的意外性能

Go
红颜莎娜 2021-10-04 17:10:27
我正在用矩阵乘法在 Go 中做一些性能实验,并遇到了一些意想不到的结果。版本 1:func newMatrix(n int) [][]int {    m := make([][]int, n)    buf := make([]int, n*n)    for i := range m {        m[i] = buf[i*n : (i+1)*n]    }    return m}func mult1(m1, m2, res [][]int) [][]int {    for i := range m1 {        for k := range m1[0] {            for j := range m2[0] {                res[i][j] += m1[i][k] * m2[k][j]            }        }    }    return res}我从线性数组创建了多个表示矩阵行的切片。版本 2:func mult2(m1, m2, res []int, n int) []int {    for i := 0; i < n; i++ {        for k := 0; k < n; k++ {            for j := 0; j < n; j++ {                res[i*n+j] += m1[i*n+k] * m2[k*n+j]            }        }    }    return res}在这个版本中,我只是使用一个线性数组并从乘法中索引到它。将 2 个 2048x2048 矩阵相乘得到以下执行时间: version 1: 35.550813801s version 2: 19.090223468s版本 2 的速度几乎是版本 2 的两倍。我使用以下方法进行测量:start := time.Now()mult(m1, m2, m3)stop := time.Now()我知道使用切片会提供另一层间接性,这可能会影响缓存性能,但是我没想到会有如此大的差异。不幸的是,我还没有找到任何适用于 Mac 的好工具,可以分析 Go 中的缓存效率,所以我不能确定这是否是导致性能差异的原因。所以我想我问的是这是预期的行为还是我遗漏了什么?软硬件:Go version 1.4.2 darwin/amd64;OS X 10.10.3;2 GHz 四核 i7。
查看完整描述

2 回答

?
MYYA

TA贡献1868条经验 获得超4个赞

不幸的是,我没有足够的声誉将其作为评论,但除了VAndrei的观点之外,值得注意的是,两个提供的示例使用不同的 for 循环。之后第一个示例如何执行s/i := range m1/i := 0; i < n; i++/

检查“list mult1”和“list mult2”输出在 pprof 中的样子也很有用。有一个很棒的教程可以非常快速地开始使用 Go 的 pprof:Profiling Go Programs By Russ Cox


查看完整回答
反对 回复 2021-10-04
  • 2 回答
  • 0 关注
  • 234 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信