格发软件

首页

产品

解决方案

服务支持

关于

软件库

在线咨询

申请试用

155-2731-8020

产品

实现专业软件许可精细化管理

高效利用许可资源、回收闲置许可

合理管控调配许可资源

终端软件管理

终端软件管理和合规性管理共同保障终端安全

多角度管控软件使用权限，保证软件安全性

实用、强大的资产台账管理工具

行业分类

半导体行业

服务支持

关于

产品

解决方案

服务支持

关于

产品

实现专业软件许可精细化管理

高效利用许可资源、回收闲置许可

合理管控调配许可资源

终端软件管理

终端软件管理和合规性管理共同保障终端安全

多角度管控软件使用权限，保证软件安全性

实用、强大的资产台账管理工具

解决方案

半导体行业

服务支持

关于

当前位置：服务支持 > 软件文章 > MATLAB、cuBLAS、numpy矩阵乘法性能对比分析

MATLAB、cuBLAS、numpy矩阵乘法性能对比分析

阅读数 372

点赞 73

copyright

article_banner

测试条件

测试矩阵：10000*10000的全一阵（元素全是1）

CPU:i7-77700HQ@2.8G，单核睿频3.5G，笔记本CPU

GPU:1060-6G

numpy

代码：

import numpy as np
import time

s=10000

# float类型
a=np.ones((s,s),dtype=np.float32)
b=np.ones((s,s),dtype=np.float32)

t=time.time()
c=np.dot(a,b)
print(time.time()-t)

# double类型
a=np.ones((s,s),dtype=np.float64)
b=np.ones((s,s),dtype=np.float64)

t=time.time()
c=np.dot(a,b)
print(time.time()-t)

在计算过程中似乎把我的四核八线程都跑满了。

结果：

float32(float):14.6s

float64(double):23.2s

cuBLAS

代码：

#include &lt;cublas_v2.h&gt;

template &lt;typename T = float&gt;
void testMatrixTime2(int M = 10000, int N = 10000, int K = 10000) {
	T* A, * B, * C;
	T* dev_A, * dev_B, * dev_C;
	T alpha = 1, beta = 0;
	// 初始化cuda句柄
	cublasHandle_t handle;
	cublasCreate(&amp;handle);

	A = (T*)malloc(M * K * sizeof(T));
	B = (T*)malloc(K * N * sizeof(T));
	C = (T*)malloc(M * N * sizeof(T));

	cudaMalloc(&amp;dev_A, M * K * sizeof(T));
	cudaMalloc(&amp;dev_B, K * N * sizeof(T));
	cudaMalloc(&amp;dev_C, M * N * sizeof(T));

	for (int i = 0; i &lt; M * K; ++i) {
		A[i] = 1;
	}

	for (int i = 0; i &lt; K * N; ++i) {
		B[i] = 1;
	}
	clock_t t = clock();

	cudaMemcpy(dev_A, A, M * K * sizeof(T), cudaMemcpyHostToDevice);
	cudaMemcpy(dev_B, B, K * N * sizeof(T), cudaMemcpyHostToDevice);

	// double计算时改为cublasDgemm
	cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N,
		M, N, K,
		&amp;alpha,
		dev_A, M,
		dev_B, K,
		&amp;beta,
		dev_C, M
	);

	 cudaMemcpy(C, dev_C, M * N * sizeof(T), cudaMemcpyDeviceToHost);
	 cudaThreadSynchronize();
	 cout &lt;&lt; &quot;time&quot; &lt;&lt; (double)(clock() - t) / CLOCKS_PER_SEC &lt;&lt; endl;
}

结果：

float32(float):0.908s

float64(double):16.5s

说明游戏GPU的双精度运算能力还是很差的。

MATLAB

代码:

s=10000;

% 双精度
a=ones(s,s);
b=ones(s,s);
tic;
c=a*b;
toc;

% 单精度
a=single(a);
b=single(b);
tic;
c=a*b;
toc;

CPU跑到了60多，估计是四核并行计算。

结果:

float32(float):11.308408s

float64(double):23.026492s

返回上级列表

，获取更多内容

MATLAB答疑：仿写程序报错解决方法

数值方法：Euler法、梯形法、RK2、RK4求解ODE的MATLAB实现

相关文章

Matlab GUI飞机俯仰角控制仿真分析

Matlab矩阵乘积计算：线性代数基础

MATLAB基础：算术运算详解

MATLAB转Python：进阶使用与代码转换

MATLAB与Python程序互转：实例解析（二）

MATLAB与Python程序互转：实例解析

MATLAB矩阵基础入门教程

MATLAB基础教程：算术、数组与矩阵运算入门

重温MATLAB矩阵基础知识

MATLAB矩阵运算：理解左除与右除的区别

MATLAB基础入门手册：第三章运算符详解

MATLAB系统分析：N维LTI系统的能控能观性分解

MATLAB深度学习自定义GLU层实现

MATLAB常用操作技巧与指南

Matlab矩阵创建与操作详解：大小、维度、数目等

技术文档

格发许可分析软件管理系统宣传

软件实现正版化-格发最专业的解决方案

企业软件资产和License管理遇到的问题和解决办法

UG许可资源优化解决方案-许可不够用，解决UG盗版，UG许可监控，UG律师函

公司使用盗版SolidWorks被发函，solidworks盗版检测，solidworks 被软件公司查到用盗版，SolidWork价格减少

Teamcenter无法创建多余账号怎么办？

如何解决许可不足问题以提升许可利用率

CATIA的license资源管理-gofar许可优化效果

企业如何进行合规性管理

收到西门子发来的UG告知函怎么办？Solidworks盗版被查如何防范？厂商是怎么样查到公司在用盗版，有什么方法可以核实真假？……

热门文章

团队效率杀手：软件许可证不足背后的隐性成本解析

软件授权不够的隐性成本：后期修改费用是省下的多少倍？

技术岗位员工吐槽：许可证不足是否意味着不被重视？

用户价值与体验：升级研发团队总抱怨软件卡顿？智能调度让等待时间缩短60%

多地办公软件管理难？云端监控实现跨区域许可统一调度

版本混乱风险预警：许可证短缺对设计团队的隐性打击

gotoDetail

武汉格发信息技术有限公司

湖北省武汉市经开区科技园西路6号103孵化器

电话：155-2731-8020 座机：027-59821821

电子邮件：tanzw@gofarlic.com

友情链接

格发

发现

终端软件管理

方案

半导体行业

服务

关于

© gofarlic.com 武汉格发信息技术有限公司 - 鄂ICP备18026411号-1 - 鄂公网安备42011302000881号

隐私声明 | 使用条款 | 网站地图

联系我们

武汉格发信息技术有限公司

湖北省武汉市经开区科技园西路6号103孵化器

电话：155-2731-8020 座机：027-59821821

邮件：tanzw@gofarlic.com

发现

终端软件管理

方案

半导体行业

服务

关于

隐私声明 | 使用条款

Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利

鲁ICP备14018425号-1 鄂公网安备42011302000881号

遇到许可问题？该如何解决！？

评估许可证实际采购量？

不清楚软件许可证使用数据？

收到软件厂商律师函!?

想要少购买点许可证，节省费用？

收到软件厂商侵权通告!?

有正版license，但许可证不够用，需要新购？

联系方式

155-2731-8020

预留信息，一起解决您的问题

* 姓名：

* 手机：

* 公司名称：

姓名不为空

手机不正确

公司不为空