一种基于 Zynq 的 CNN 加速器设计与实现论文211网

一种基于 Zynq 的 CNN 加速器设计与实现

时间：2023-08-21 09:24:22
作者：许杰,张子恒,王新宇,佟诚,梅青,肖建*
关键字：Zynq,卷积神经网络,硬件加速,现场可编程逻辑门阵列,数据量化,CIFAR-10
DOI：10.3969/j.issn.1673-629X.2021.11.018
查看次数：571

如需要完整文档点击下方 "点击下载文档" 按钮

卷积神经网络是一种前馈神经网络,它的人工神经元可以响应部分覆盖范围内的临近单元,对于大型图像处理有出色表现。文中设计了一种基于 Zynq 芯片的 CNN 加速器,以期在资源和功耗受限的 FPGA 中实现运算性能加速。该加速器采用数据量化的方式将网络参数从 64 位双精度浮点数转化为 16 位定点数;针对 CNN 不同层的特性和要求,设计了不同的网络结构和优化策略。卷积层和全连接层采用循环分块、循环流水及循环展开等方法进一步改进,而池化层采用流水线的优化方式。亦设计了 FPGA 和外部存储器的缓存策略,减少 FPGA 和外部存储器的数据传输量。以 CIFAR-10 数据集下的图像识别为例,在 Zynq7020 实验平台上进行板级测试,实验结果表明,100 MHz 的工作频率下,平均识别时间为15. 5 ms,相对于单核 CPU 方案实现了 144 倍的加速。

如需要完整文档点击下方 "点击下载文档" 按钮

《一种基于 Zynq 的 CNN 加速器设计与实现》

将 完整文档 下载到本地，方便收藏和查阅

文件号：061397

点击下载文档

热门分类