一种基于 Zynq 的 CNN 加速器设计与实现

时间:2023-08-21 09:24:22
作者:许 杰,张子恒,王新宇,佟 诚,梅 青,肖 建*
关键字:Zynq,卷积神经网络,硬件加速,现场可编程逻辑门阵列,数据量化,CIFAR-10
DOI:10.3969/j.issn.1673-629X.2021.11.018
查看次数:571

如需要完整文档点击下方 "点击下载文档" 按钮

卷积神经网络是一种前馈神经网络,它的人工神经元可以响应部分覆盖范围内的临近单元,对于大型图像处理有出色表现。 文中设计了一种基于 Zynq 芯片的 CNN 加速器,以期在资源和功耗受限的 FPGA 中实现运算性能加速。 该加速器采用数据量化的方式将网络参数从 64 位双精度浮点数转化为 16 位定点数;针对 CNN 不同层的特性和要求,设计了不同的网络结构和优化策略。 卷积层和全连接层采用循环分块、循环流水及循环展开等方法进一步改进,而池化层采用流水线的优化方式。 亦设计了 FPGA 和外部存储器的缓存策略,减少 FPGA 和外部存储器的数据传输量。 以 CIFAR-10 数据集下的图像识别为例,在 Zynq7020 实验平台上进行板级测试,实验结果表明,100 MHz 的工作频率下,平均识别时间为15. 5 ms,相对于单核 CPU 方案实现了 144 倍的加速。

如需要完整文档点击下方 "点击下载文档" 按钮

一种基于 Zynq 的 CNN 加速器设计与实现
《一种基于 Zynq 的 CNN 加速器设计与实现》
完整文档 下载到本地,方便收藏和查阅
文件号:061397
一种基于 Zynq 的 CNN 加速器设计与实现
点击下载文档
一种基于 Zynq 的 CNN 加速器设计与实现

点击下载 文件号:061397(点击复制) 公众号(点击复制)

x