【论文翻译】S4: a High-sparsity, High-performance AI Accelerator

S4: a High-sparsity, High-performance AI Accelerator

S4: 高稀疏、高性能的AI 加速器

论文链接

摘要

利用神经网络中的稀疏性已经成为减少内存占用、I/O成本和推理计算量的最具潜力的方法之一。

随着更大的模型的使用以及预训练的“巨大“模型,更高的稀疏度被采用 。

另一方面,与被广泛支持的量化相比,大多数计算平台不支持通过高度稀疏来加速。

在这个工作中,我们介绍了首个支持高度稀疏加速的商用硬件平台,支持32倍稀疏——S4。

结合最先进的稀疏剪枝技术,我们在S4上证明了相比超越主流的推理平台如Nvidia T4可实现几倍加速。

我们还在实践中证明了稀疏更大尺寸的模型相比一个稠密的小模型可以在S4上获得更高的精度和更高的吞吐量。

1 前言

深度神经网络模型显著提高了各种自然语言的性能处理(NLP)和计算机视觉(CV)的研究进展。有效的而且普遍存在的是,这些模型通常都非常大。一个新兴的分支领域研究深度神经网络模型中的冗余,利用了深度神经网络的稀疏性建模和寻找稀疏等价子网络。此外,随着预训练的大模型,如BERT,ViT和GPT-3,更大的模型尺寸被考虑,从而产生了稀疏程度较高的稀疏子网络。

然而,与量化相比(量化已被广泛采用作为一种标准选项加速)大多数计算平台通过高度稀疏性不支持加速。只有新发布的Nvidia A100开始支持稀疏张量操作作为加速选项(最多2x)。因此,现有的大多数稀疏性研究很难带来实际的加速高性能计算平台。

为了填补这一空白,我们推出了第一个支持高度的商用硬件平台——S4,稀疏性加速可达32倍。S4是一个硬件的数据中心推理平台,参数和Nvidia T4相似,但有额外的高度稀疏支持。结合最新的稀疏修剪技术,我们在S4上演示了几倍的实际推理加速基于Nvidia T4主流推理平台。我们还在实践中证明了一个更大的稀疏模型尺寸的模型在S4上的精度和吞吐量都比较小的稠密模型高。
在这里插入图片描述

Antoum处理器的架构概述:

(i) 稀疏处理单元(SPU)可以支持高达32倍的张量稀疏性线性加速。

(ii) 定制激活引擎直接支持复杂激活函数如GELU,以及基础数学算子如指数,对数,倒数算符。

(iii) 稀疏处理单元本身支持卷积以及矩阵乘法运算与融合运算如偏置加法,elementwise,运算,量化,和某些激活函数。

(iv) Antoum移动计算单元直接邻近大容量和大带宽的存储器。

2 S4平台

S4的架构概括如下:

•高速率稀疏张量核。S4卡是第一个支持AI推理加速卡。高速率(高达32倍稀疏度)稀疏张量操作。

•高性能多媒体处理能力。S4卡集成了专用视频编解码器引擎和JPEG解码器引擎。四个视频解码器引擎和

一个视频编码引擎可以处理多通道视频流(高达4K)和轻松将可扩展的深度学习集成到视频处理中。

•可伸缩性。S4卡通过自定义稀疏组成稀疏处理子系统处理单元和其他辅助加速单元,包括专用视频编解码器和JPEG解码器引擎,嵌入查找单元,内存重塑引擎,和向量处理器。四个稀疏处理子系统通过高带宽、片上环互连网络形成一个完整的芯片。

•S4硬件通过SparseRT开发工具包支持

现有的AI编程框架,如Tensorflow, PyTorch, ONNX和MXNet。

S4是为提高数据中心AI推理的效率而构建的,它提供了(稀疏的)等效功能 INT8的计算能力为944个TOPS, BF16的计算能力为472个TFLOPS, LPDDR4为20GB 在低70瓦的功率信封中,高达72 GB的内存带宽。合并后的Moffett原始稀疏算法和Antoum芯片结构的效果大大提高计算速度S4,从而降低总拥有成本(TCO)。

在Antoum体系结构如图1所示。硬件和软件都经过严格的设计,以创造高度高效的AI片上系统(SoC)处理器平台。稀疏处理器的组合单元(SPU)(用于本机稀疏卷积和矩阵乘法)和异质唯一功能加速器,为各种AI推理工作负载提供最大效率和最大所有用户的价值。例如,集成矢量处理器单元(VPU)可以提供灵活的可编程性,以跟上AI模型的快速发展。支持片上视频编解码器64路1080p视频解码,30帧/秒。JPEG解码器支持高达2320 FPS 1080p图像解码,为视频和图像推理工作量提供了完整的端到端解决方案。

3 Sparse Acceleration on S4

Moffett S4最重要的特征是它的张量核对稀疏张量表示原生支持,它只保留张量的非零部分,因此神经网络的稀疏程度直接影响到部署在S4内存占用的大小、I/O开销和计算时间。

图2显示了在运行两个基准测试时在S4上实现的实际加速在CV和NLP中广泛使用的模型分别是ResNet50和BERT。注意,加速几乎ResNet50的线性w.r.t稀疏性,BERT的次线性,因为它有大量的工作负载non-matrix-multiplication操作。

在实际应用中,稀疏模型修剪比结构化修剪取得了更好的精度-速度平衡模型修剪。最常见的减少模型大小的方法是减少层数(例如:

深度)或神经网络的通道数量(即宽度)。例如,图3显示了准确性Resnet50, Resnet152, BERT-base和BERT-large的速度,比较精度和

T4上密集模型和S4上稀疏模型的速度。从图3中可以看出较大的稀疏模型比较小的密集模型获得更高的精度和更高的吞吐量

模型,这意味着:无论目标是改进精度还是提高速度,都应该始终考虑一个稀疏模型。

4 稀疏方法

在本节中,我们将介绍与S4中与稀疏加速互补的常见稀疏剪枝技术。

有两种场景,分别关注稀疏修剪的不同挑战

(i)修剪从零开始训练的模型

(ii)修剪微调的pretrained模型。前者的风险是欠拟合,后者的风险是过拟合

从头开始训练:从头开始训练意味着它是一个训练数据定义的优化问题的直接解。修剪这样的模型基本上解决了几乎同样的优化问题,但增加了稀疏性约束,其中原来的密集模型只起到良好初始化的作用。因此,关键的挑战是如何设计一个较好的优化算法,对训练数据的拟合和稀疏约束下的密集模型一样好。目前已经提出了各种优化方法,其中稀疏修剪可以减少一个数量级的参数数量,而不显著损失精度,从而一个比密度小的模型更好的精度-效率的权衡。

预训练: finetune范式预训练模型,如BERT和ViT,已经成为在各种NLP和CV任务中提高效率的标准和有效的方法。这些

模型以自我监督的方式预先训练,然后为下游任务进行微调。在这种范式下的两种修剪方法是:

(i) 在训练前的修剪

(ii)下游任务微调期间的修剪。

然而,这两种方法都面临着来自不同的问题: 训练前的修剪会因为模型的需要而受到欠拟合的困扰。在预训练阶段,不仅要学习与任务相关的知识,还要学习与任务无关的知识;

另一方面对下游数据的修剪会受到过拟合的影响,因为下游训练数据可能不会包含在预训练阶段学到的知识。

最先进的方法通常设计修剪目标,不仅保留下游数据中的知识,而且还保留从训练前数据转移的知识。一个简单的方法是via中间层的知识蒸馏[17],既要保留数据的预测,又要保留预训练模型生成的中间特征图,需要进行修剪。我们采用了方法给出表1中两个GLUE数据集的修剪结果比较结构蒸馏方法:Bert-of-Theseus, MiniLM和TinyBERT,其中稀疏修剪不仅能减少模型的尺寸,而且能提高预测精度

清风幻影17
关注 关注
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习14:稀疏性-Sparsity
Jin_Kwok的博客
07-03 1858
现实世界中,问题的特征的数量往往是很大的,而其中起决定性作用的往往是很小的一部分,稀疏规则化算子的引入会学习去掉这些没有信息的特征,也就是把这些特征对应的权重置为 0。
探秘新一代序列模型S4,解锁无限可能!
gitblog_00078的博客
06-08 314
探秘新一代序列模型S4,解锁无限可能! 项目地址:https://gitcode.com/srush/annotated-s4 项目简介 S4 是一个创新的序列建模框架,基于 JAX 和 Flax 开发,旨在提供高效且易于使用的工具来处理各种序列数据任务。它的核心是一个全新的层结构,能够在保持高性能的同时,实现对复杂序列模式的学习。S4 已经在 MNIST 序列建模、QuickDraw 序列建...
论文阅读翻译笔记——雅虎S4
dz789989的博客
06-24 403
目录 2.6.1 简介... 1 2.6.2 设计目标... 1 2.6.3 设计... 2 2.6.3.1 处理单元(PE)... 2 2.6.3.2 处理节点(processing nodes)... 3 2.6.3.3 通讯层... 4 2.6.3.4 配置管理系统... 4 2.6.4 编程模型... 4 2.6.5 参考论文... 5 2.6.1 简介 S4是Simple Scalable Streaming System的简称,正如它的名字,这是一个简单易用、...
结构化状态空间序列模型S4)的图示解释
最新发布
m0_51200050的博客
07-15 922
在选择性状态空间模型中,状态转移矩阵AAA、输入矩阵BtB_tBt​、输出矩阵CtC_tCt​和离散化参数Δt\Delta_tΔt​共同作用,决定了系统的动态行为和输入输出关系。通过动态调整这些参数,模型能够高效地处理长序列数据,适应不同的输入特性,提高计算效率和预测准确性。3. 输入选择机制(Selection Mechanism)Project:这个部分负责将输入映射到适合状态空间模型处理的高维空间。:这是一个选择机制,根据当前输入动态调整状态空间模型的参数(如B。
Stream Processing: S4系统模型分析和关键源码读解
ChainingBlocks
12-17 981
S4(Simple Scalable Stream System) 流数据处理系统是Yahoo!公司提出的,在2011年的时候成为Apache软件基金下的一个孵化项目,可惜的是在2014年的时候该孵化项目“退休”了,具体原因未知!!从这里可以了解它当前的状态信息:link. 阅读了所发表的论文S4:Distributed Stream Computing Platform之后,发现该系统模型有其独...
场景文本检测&识别学习 day09(SSM、S4、Mamba、S6)
丿罗小黑的博客
05-14 930
ΔΔ。
Mamba详解
Willen_的博客
02-17 4629
此外,尽管这种改变使得模型不能使用高效的卷积计算,研究者设计了一种硬件感知的并行算法,以递归模式运行,使得Mamba在推理速度上比传统的Transformer快5倍,并且在序列长度上实现线性缩放。总的来说,这篇文章通过引入新的架构设计、硬件感知算法优化和输入依赖的动态,为提高结构化状态空间模型在序列数据处理和时间序列预测方面的性能和效率做出了贡献。但本介绍的工作的一个核心洞见是,LTI模型在模拟某些类型的数据时存在根本性限制,作者的技术贡献包括在克服效率瓶颈的同时移除LTI约束。)对所有时间步都是固定的。
PRUNING-DEEP-NEURAL-NETWORKS-FROM-A-SPARSITY全文翻译.pdf
08-24
【PRUNING DEEP NEURAL NETWORKS FROM A SPARSITY PERSPECTIVE】这篇论文探讨了深度神经网络的剪枝技术,旨在解决模型过大导致的计算、存储和能源消耗问题。剪枝是一种优化策略,通过删除冗余的权重、神经元或层来...
matlab贝叶斯阈值代码-Bayesian-Hierarchical-Varying-sparsity-Regression-Models-
05-28
matlab贝叶斯阈值代码贝叶斯层次可变稀疏回归模型及其在癌症蛋白质组学中的应用 作者贡献清单表 数据 抽象的 该数据集包含四种癌症(肾脏肾透明细胞癌,卵巢浆液性囊腺癌,皮肤皮肤黑色素瘤和头颈部鳞状细胞癌)的...
[论文笔记] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
Alexzhuan
08-16 1323
这篇是 Kaiming 大神在 ICCV15 上的工作,其主要工作是提出了 Parametric Rectified Linear Unit(PReLU)和一种新的参数初始化方式(在PyTorch等框架中称为 Kaiming 初始化)。 Approach Parametric Rectifiers 在 PReLU 之前就存在着一些尝试去改进 ReLU 的工作。比如 LReLU [1] 就将 ReLU 左侧的常数 0 改为斜率非常小的线性区域,而它的 motivation 是试图去避免 zero gradie
NM-sparsity
03-28
N:M细粒度结构的稀疏神经网络 , 为什么N:M稀疏? 深入研究了深度神经网络(DNN)中的稀疏性,以在资源受限的环境中压缩和加速模型。 通常可以将其归类为将整个神经网络中分布的多个单个权重归零的非结构化细...
Mamba 基础讲解【SSM,LSSL,S4,S5,Mamba】
zyw2002的博客
03-21 2万+
🐍 Mamba是一种状态空间模型(SSM)架构,它改进了S4架构。选择性扫描算法(selective scan algorithm),允许模型过滤相关或者不相关的信息硬件感知的算法(hardware-aware algorithm),允许通过并行扫描(parallel scan)、核融合(kernel fusion)和重计算(recomputation)有效地存储(中间)结果。
mamba笔记
hxyzs的博客
03-30 1320
S4 中,我们的离散参数是常数,但 Mamba 会根据输入使这些参数发生变化。
【IJCV】基于概率表征的半监督对比学习框架,FaceChain团队出品
孙佰贵的专栏
03-08 2393
本文提出了基于概率表征的对比学习框架(PRCL),用于半监督语义分割算法。文章中分别引入了概率表征,全局分布原型,虚拟负样本等模块。最终实验表明,提出的PRCL框架在半监督设定下模型的分割能力达到了state-of-the-art的性能。此外,大量的消融实验也表明我们提出的模块的有效性。
【论文笔记】——S4Net: Single Stage Salient-Instance Segmentation
jandyhan的博客
07-30 1826
介绍 这篇文主要讲的是显著实例分割(salient instance segmentation),输入一张图不仅能获得bounding box,还可以获得高质量的分割。显著实例分割只针对图像中最“突出”、最“感兴趣”的目标,而不是所有目标。标题的single stage是指边框回归只有一次。 上图就是本文模型的实现效果。 CNN最近几年在很多领域都取得了不错的效果,对于提取特征有着显著的成就,...
SM4算法原理
热门推荐
10点43的博客
10-11 5万+
前面的文章介绍了SM4算法的C语言实现,源码可见我的另一篇文章:https://blog.csdn.net/cg129054036/article/details/83012721;这篇文章介绍SM4算法原理,这部分可能会比较枯燥,但数学要求也不是太高。 目录 1.概述 2. 参数产生 3. 轮函数 4. 密钥扩展 5. 加密/解密过程 1.概述 2012年3月,国家密码管理...
S4分布式流计算引擎
agapple
06-20 402
背景   最近花了点时间研究了下分布式计算这一块的内容。领导给的第一个任务,就是学习下S4和GridGain。花了几天的时间把s4的源码看了下,把自己的理解和学习的内容做一个记录。 下一篇会是GridGain的分享 学习 s4的论文: S4: Distributed Stream Computing Platform s4的官网: http://s4.io/ s4是什么? 1....
稀疏度约束下SCIHTBB:Barzilai-Borwein步长的迭代硬阈值分析
本文主要介绍了一种名为SCIHTBB(Sparsity Constrained Iterative Hard Thresholding with Barzilai–Borwein step size)的新方法,它扩展了IHT方法并提供了理论保障。 Barzilai-Borwein步长(BB step size)是一...
写文章

热门文章

  • OCR调研报告 5181
  • python 结合 Flask 的html页面嵌入for 语句 4791
  • Yolov5 4401
  • tensorflow errors_impl.InvalidArgumentError 3929
  • 小白能看懂等Tacotron 中文语音合成实践 3803

最新评论

  • 【扩散模型系列3】DiT开源项目

    清风幻影17: 应该可以把自己的数据集整理成和imagesnet 一样的格式,然后就可以复用代码进行训练了,我这边也没有使用自己的数据集训练。

  • 【扩散模型系列3】DiT开源项目

    shuhai6260: 您好,我想请问,我应该怎么训练自己的数据集哪。恳请大佬指教,谢谢。

  • 【扩散模型系列2】DiT 《Scalable Diffusion Models with Transformers》论文阅读

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • OPT-IML:Scaling Language Model Instruction MetaLearning through the Lens of Generalization 论文阅读笔记

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • 小白能看懂等Tacotron 中文语音合成实践

    2301_77245551: 您好,我想问一下我在 数据预处理 python3 preprocess.py --dataset thchs30输入了却没有得到training data文件夹和train.txt。我是在windows下运行的。可以为我解惑吗。谢谢

最新文章

  • yolov5 json 和 txt数据格式关系
  • coco数据集格式计算mAP的python脚本
  • 硬件四舍五入模式
2024年12篇
2023年3篇
2022年10篇
2021年1篇
2020年3篇
2019年10篇
2018年3篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家东莞植物人景观玻璃钢雕塑玻璃钢雕塑定制厂家产品类别杭州鼎湖玻璃钢人物雕塑玻璃钢雕塑浮雕生产厂商场美陈看什么方面的书梅州玻璃钢人物雕塑造型贴金生产玻璃钢人物雕塑厂家玻璃钢与雕塑制作有什么区别广安玻璃钢雕塑摆件厂家石家庄知名玻璃钢雕塑畅销全国青海公园玻璃钢雕塑定制六安玻璃钢雕塑市场朝阳玻璃钢雕塑制作厂家新乡专业玻璃钢人物雕塑湖南抽象校园玻璃钢雕塑温州淄博玻璃钢人物雕塑玻璃钢雕塑设计方案临沧玻璃钢烤漆雕塑厂家庆阳玻璃钢雕塑定做桦甸玻璃钢雕塑玻璃钢花盆放室外玻璃钢花盆花箱玻璃钢玩偶雕塑直销附近校园玻璃钢雕塑报价哪里出玻璃钢雕塑衢州景区玻璃钢雕塑山西玻璃钢商城广场美陈雕塑昌平区商场美陈公司福建走廊商场美陈销售综合体商场开业美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化