图书介绍

大规模并行处理器编程实战【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

（美）科克，（美）胡文美著著
出版社：北京：清华大学出版社
ISBN：9787302237006
出版时间：2010
标注页数：211页
文件大小：76MB
文件页数：226页
主题词：并行程序－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：ef6bfdf821c1efe1a7ecdafe1ac56a41

下载说明

大规模并行处理器编程实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章引言1

1.1 GPU与并行计算机2

1.2 现代GPU的体系结构7

1.3 为什么需要更高的速度和并行化8

1.4 并行编程语言与模型11

1.5 综合目标12

1.6 本书的组织结构13

第2章 GPU计算的发展历程17

2.1 图形流水线的发展18

2.1.1 固定功能的图形流水线时代18

2.1.2 可编程实时图形流水线的发展21

2.1.3 图形与计算结合的处理器23

2.1.4 GPU：一个中间步骤25

2.2 GPU计算26

2.2.1 可扩展的GPU27

2.2.2 发展近况27

2.3 未来发展趋势28

第3章 CUDA简介31

3.1 数据并行性32

3.2 CUDA的程序结构33

3.3 矩阵乘法示例34

3.4 设备存储器与数据传输37

3.5 kernel函数与线程41

3.6 小结45

3.6.1 函数声明45

3.6.2 启动kernel函数46

3.6.3 预定义变量46

3.6.4 运行时API46

第4章 CUDA线程49

4.1 CUDA线程组织结构50

4.2 使用blockIdx和threadIdx54

4.3 同步与透明可扩展性58

4.4 线程分配59

4.5 线程调度和容许延时60

4.6 小结62

4.7 习题63

第5章 CUDA存储器模型65

5.1 存储器访问效率的重要性66

5.2 CUDA设备存储器的类型67

5.3 减少全局存储器流量的策略70

5.4 存储器——限制并行性的一个因素76

5.5 小结77

5.6 习题78

第6章性能优化79

6.1 更多关于线程执行的问题80

6.2 全局存储器的带宽86

6.3 SM资源的动态划分93

6.4 数据预取95

6.5 指令混合97

6.6 线程粒度98

6.7 可度量的性能和小结99

6.8 习题100

第7章浮点运算105

7.1 浮点格式106

7.1.1 M的规范化表示106

7.1.2 E的余码表示107

7.2 能表示的数109

7.3 特殊的位模式与精度113

7.4 算术运算的准确度和舍入114

7.5 算法的优化114

7.6 小结115

7.7 习题116

第8章应用案例研究：高级MRI重构117

8.1 应用背景118

8.2 迭代重构120

8.3 计算FHd123

8.4 最终评估139

8.5 习题142

第9章应用案例研究：分子可视化和分析143

9.1 应用背景144

9.2 kernel函数简单的实现方案145

9.3 指令执行效率149

9.4 存储器合并151

9.5 附加性能比较154

9.6 采用多GPU156

9.7 习题157

第10章并行编程和计算思想159

10.1 并行编程的目标160

10.2 问题分解161

10.3 算法选择163

10.4 计算思想168

10.5 习题169

第11章 OpenCL简介171

11.1 背景172

11.2 数据并行性模型173

11.3 设备的体系结构175

11.4 kernel函数176

11.5 设备管理和启动kernel177

11.6 OpenCL中的静电势图谱179

11.7 小结183

11.8 习题184

第12章结论与展望185

12.1 重申目标186

12.2 存储器体系结构的演变187

12.2.1 大型虚拟和物理地址空间187

12.2.2 统一的设备存储空间188

12.2.3 可配置的缓存和暂时存储器188

12.2.4 提高原子操作的速度189

12.2.5 提高全局存储器的访问速度189

12.3 kernel函数执行控制过程的演变190

12.3.1 kernel函数内部的函数调用190

12.3.2 kernel函数中的异常处理190

12.3.3 多个kernel函数的同步执行191

12.3.4 可中断的kernel函数191

12.4 内核的性能191

12.4.1 精度的速度191

12.4.2 提高控制流的效率192

12.5 编程环境192

12.6 美好前景193

附录A 矩阵乘法主机版的源代码195

附录B GPU的计算能力207