您的位置:首页 >聚焦 >

比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤 天天快播报

2023-05-30 19:53:26    来源:创业邦

Transformer最近几年已然成为大模型的标配,而Meta团队开发的一款Megabyte模型声称能解决Transformer的硬伤,速度还要快四成。

编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:Joey,创业邦经授权转载,头图来源摄图网


(资料图片仅供参考)

Transformer无疑是过去几年内机器学习领域最流行的模型。

自2017年在论文「Attention is All You Need」中提出之后,这个新的网络结构,刷爆了各大翻译任务,同时创造了多项新的记录。

但Transformer在处理长字节序列时有个硬伤,就是算力损耗严重,而Meta的研究人员的最新成果则可以很好地解决这一缺陷。

他们推出了一种全新的模型架构,能跨多种格式生成超过100万个token,并超越GPT-4等模型背后的现有 Transformer架构的功能。

这个模型被称为「兆字节」(Megabyte),是一种多尺度解码器架构(Multi-scale Decoder Architecture),可以对超过一百万字节的序列进行端到端可微分建模。

论文链接:https://arxiv.org/abs/2305.07185

Megabyte为什么比Transformer强,就得先看看Transformer的不足之处在哪。

Transformer的不足

迄今为止几类高性能的生成式AI模型,如OpenAI的GPT-4、Google的Bard,都是基于Transformer架构的模型。

但Meta的研究团队认为,流行的Transformer架构可能正达到其阈值,其中主要理由是Transformer设计中固有的两个重要缺陷:

- 随着输入和输出字节长度的增加,自注意力的成本也迅速增加,如输入的音乐、图像或视频文件通常包含数兆字节,然而大型解码器 (LLM)通常只使用几千个上下文标记

- 前馈网络通过一系列数学运算和转换帮助语言模型理解和处理单词,但在每个位置的基础上难以实现可扩展性,这些网络独立地对字符组或位置进行操作,从而导致大量的计算开销

Megabyte强在哪

相比Transformer,Megabyte模型展示了一种独特的不同架构,将输入和输出序列划分为patch而不是单个token。

如下图,在每个patch中,本地AI模型生成结果,而全局模型管理和协调所有patch的最终输出。

首先,字节序列被分割成固定大小的patch,大致类似于token,这个模型由三部分组成:

(1) patch嵌入器:通过无损地连接每个字节的嵌入来简单地编码patch

(2) 一个全局模型:一个输入和输出patch表示的大型自回归变换器

(3) 一个本地模型:一个预测patch中字节的小型自回归模型

研究人员观察到,对于多数任务而言字节预测都相对容易(如完成给定前几个字符的单词),这意味着每个字节的大型网络是不必要的,并且可以使用更小的模型进行内部预测。

这种方法解决了当今AI模型中普遍存在的可扩展性挑战,Megabyte 模型的patch系统允许单个前馈网络在包含多个token的patch上运行,从而有效解决了自注意力缩放问题。

其中,Megabyte架构对长序列建模的Transformer进行了三项主要改进:

- 二次自注意力(Sub-quadratic self-attention)

大多数关于长序列模型的工作都集中在减轻自注意力的二次成本上,而Megabyte将长序列分解为两个较短的序列,即使对于长序列也仍然易于处理。

- patch前馈层(Per-patch feedforward layers)

在GPT-3大小的模型中,超过98%的FLOPS用于计算位置前馈层,Megabyte每个patch使用大型前馈层,以相同的成本实现更大、性能更强的模型。在patch大小为P的情况下,基线转换器将使用具有m个参数的相同前馈层P次,兆字节可以以相同的成本使用具有mP个参数的层一次。

- 解码中的并行性(Parallelism in Decoding)

Transformers必须在生成期间串行执行所有计算,因为每个时间步的输入是前一个时间步的输出,通过并行生成patch的表示,Megabyte允许在生成过程中实现更大的并行性。

例如,具有1.5B参数的Megabyte模型生成序列的速度比标准的350MTransformer快40%,同时在使用相同的计算量进行训练时还能改善困惑度。

Megabyte远远优于其他模型,并提供与在子词上训练的 sota 模型竞争的结果

相比之下,OpenAI 的GPT-4有32,000个token的限制,而Anthropic的Claude有100,000个token的限制。

此外,在运算效率方面,在固定模型大小和序列长度范围内,Megabyte比同等大小的Transformers和Linear Transformers使用更少的token,允许以相同的计算成本使用更大的模型。

总之,这些改进使我们能够在相同的计算预算下训练更大、性能更好的模型,扩展到非常长的序列,并提高部署期间的生成速度。

未来将会如何

随着AI军备竞赛进行地如火如荼,模型性能越来越强,参数也越来越高。

虽然GPT-3.5在175B个参数上进行了训练,但有人猜测功能更强大的GPT-4在1万亿个参数上进行了训练。

OpenAI的CEO Sam Altman最近也建议转变战略,他表示公司正在考虑舍弃对庞大模型的训练,而专注于其他性能的优化。

他将AI模型的未来等同于iPhone芯片,而大多数消费者对原始技术规格一无所知。

Meta的研究人员相信他们的创新架构来得正是时候,但也承认还有其他优化途径。

例如采用修补技术的更高效的编码器模型、将序列分解为更小块的解码模型以及将序列预处理为压缩token等,并且可以扩展现有Transformer架构的能力以构建新一代模型。

前特斯拉AI总监Andrej Karpathy也在这篇论文中发表了看法,他在推特上写道:

这是非常有希望的,每个人都应该希望我们能在大模型中扔掉标记化,也不需要那些过长字节的序列。

参考资料:

https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

标签:

相关推荐

全球热资讯!让所有人远离饥饿——袁隆平的故事

天天观焦点:外交部:美方应立即纠正错误做法,为中美两军对话创造必要条件

当前资讯!中央纪委国家监委第十三审查调查室一级调研员崔玉男被查

让所有人远离饥饿——袁隆平的故事 天天热文

全球快资讯丨外交部:中国“蓝盔”是联合国维护和平的关键力量

外交部:中方支持塞尔维亚维护主权和领土完整的努力

外交部:中方强烈谴责对索马里布罗马雷尔军事基地的恐怖袭击

房贷评估期将至:利率会上调吗?一文读懂关键问题 世界今日报

061期老刀大乐透预测奖号:连码分析 环球新要闻

惠州博罗罗浮山夜间开放吗?_热头条

江西萍乡:艺术点亮乡村 厚植文明新风_全球微资讯

以爱为名,护“雏鹰”振翅高飞|天天亮点

天天微动态丨文旅“出圈”关键在内容创新

A股房地产板块异动拉升 金科股份涨超9%、万通发展涨近8%

精选!燃油附加费年内第三次下调

五月天演唱会,荧光棒卖140元,不包邮!被割韭菜,还是一场青春纪念?

观速讯丨上海东航置业:暂停《云锦东方云筑》开盘销售摇号排序活动

天天新消息丨银行财眼|张莉被提名为江西省农村信联社主任人选

烈日下排队、摇中就赚2000万!“上海网红盘”后续:暂停销售摇号,可退钱_即时看

丰田全新皇冠轿车现身,将于10月正式上市,竞品奥迪A6L?_环球速看料

当前观点:金银花开幸福来

石泉县后柳镇:枕戈待旦 闻令而动 筑牢防汛责任“堤坝”_环球速讯

现行有效法律目录(295件) 世界速看

环球即时看!中国国家人才网专业人才库_中国国家人才网

如何建立微信群_怎样建立微信群步骤 今日快看

微信名字大全男励志霸气_微信名字大全男励志 天天热头条

国际观察:民进党当局企图抱“洋大腿”闯世卫――打错算盘!

通州梨园举办主题活动,中青年市民“以身适老”

国防部:敦促美方展现履约诚意 抓紧销毁库存化武

“文明巴士”进社区,副中心举行新时代文明实践推动日活动 环球即时看

丰台区检察院举行检察开放日活动

视焦点讯!刷爆的“信用卡”——起底美国债务危机

区块链国创能源领域中心成立

天天短讯!新北枪声不断 民进党“黑金”难绝

北京首个特色街区质量基础设施“一站式”服务站在簋街成立

成本太高,“美敌视中国适得其反” 天天速看

今日热文:山西会是下一个淄博吗?网友建言大家谈

03-环球通讯

百事通!寻找最美国门名片|守护新藏线 这群90后用青春捍卫边境安宁

游戏规则改变者!美国近50年来首家大型炼油厂要来了?

美债务协议今日迎来第一个关键考验,共和党人公开反对

房贷评估期将至:利率会上调吗?一文读懂关键问题

视讯!时隔3年,华为重返中国PC市场前三,戴尔为何“腰斩式”下滑?

银行财眼|违反反洗钱相关规定 山东两家农商行被罚123万_今日最新

银行财眼|信贷业务管理严重违规 农业银行双河兵团分行被罚35万

先进设备、新技术助力2023年珠峰科考

江苏公安:以“父母之心”守护青少年安全健康成长-世界关注

天天要闻:安东尼·姆法·梅苏伊

快讯:算了,不过是又一部没人看的国产片。

通勤班车走公交道规则公布:核载人数20人及以上 近一年内无重大交通事故记录

环球即时看!研发在北京,生产基地搬迁到天津!副中心市级高新企业落户“近邻”宝坻

北京首次在全市范围内允许外商独资办学!朝阳发出邀请_环球速看

【世界新要闻】中关村延庆园新添三条“智造”生产线!专门制造无人机

京雄城际铁路、京沪高铁丰台段完成环境整治提升!对比

多项举措促进制造业服务业融合发展

【在希望的田野上】全力保障“三夏”生产 筑牢粮食压舱石

世界今热点:瓜果香飘振兴路 小西瓜带来“甜蜜生活”

环球观点:超重耐力适应、水下出舱……神舟十六号航天员乘组地面训练画面公布

中国将适时发射扩展舱段 空间站基本构型升级为“十”字构型-全球最新

当前看点!中国星辰 | 发挥各自特长和优势 跨代组合新起点再出发

全球销量突破1200万,感恩回馈,江铃福顺官方降价,机不可失!!

守护母婴群体,赶快趁着618入手这些母婴家电吧!|资讯

财信证券:冠脉支架接续采购结果公布,中选价格有所提升 环球精选

断章取义读音_断章取义 焦点速递

美债务协议今日迎来第一个关键考验,共和党人公开反对! 世界报道

日本股市年内涨幅超过19%,日经ETF躁动,遭遇高溢价风险 天天速看料

紫光股份拟定增120亿元收购核心资产,或再增超百亿商誉

比亚迪在大连庄河成立销售新公司

环球最资讯丨易极:5.30原油多单继续持仓盈利!

朔州市市场监督管理局对3C产品生产企业开展“双随机、一公开”检查工作-全球新动态

5月30日江苏地区苯酐市场走势下滑

5月30日国内BDO市场行情弱势下行

山东 | “礼赞二十大·启航新征程” 2023 年济南市群众合唱比赛暨历下区第三届合唱展...

离岸人民币兑美元跌破7.1关口 为去年11月来首次|世界快看点

河南高发南阳分公司:关于收割机运输车无法下高速情况核查结果通报

每日时讯!恒久科技千万投资资金流向成迷:实探标的宁波红隼,注册地整栋楼无公司入驻

天天新消息丨什么情况?规模缩水也限购!业绩规模双降,出圈基金纷纷走下神坛

十八部门联合发文 中小学生科学素质提升有了行动指南

航天员戴眼镜飞天是否受影响?听专家庞之浩解读|焦点短讯

骁龙778g和骁龙865哪个好(骁龙778g和骁龙865这两款芯片都是目前热度很高的5G芯片)|全球微速讯

天天快消息!科创盛事 多方共享

中国星辰 | 270秒回顾“神十六”飞天激动时刻 世界播报

北京通勤班车如何申请走公交车道?核定规则公布|天天报资讯

欧盟威胁推特不守规矩就会被禁 官员警告推特履责“躲不了”-全球讯息

日本出台半导体制造设备出口管制措施,中国贸促会:坚决反对|环球视讯

青年女科学家毛方园:大胆做科研 对自己不设限

周末、午间业务照常办,怀柔这家政务服务站获点赞_消息

生态环境部:这起案件对环评造假再敲警钟 信息

为什么这几个运动功能品牌经常被仿冒?你有经历过吗?

锋尚文化(300860):5月30日技术指标出现看涨信号-“红三兵”_新要闻

星途凌云对比奔驰GLC260L,结果让人太意外!

全国首家商旅整合服务平台——箱服巴巴估值达到25个亿

天天关注:泸天化:公司采取的风控措施:对供应商和客户进行尽责调查;对供应商先货后款...

环球快播:天成自控:5月29日获融资买入150.90万元

全球今热点:今年重点铁路在建项目:1471公里在内蒙古

美日“大动作”在即,日本第三大银行开始撤退

全球速讯:日媒:日本东京圈房地产投资跃居世界第二,洛杉矶第一上海第四

总投资5亿元的田东县现代渔业产业园项目举行开工仪式

世界热资讯!千禾味业:5月29日融资净买入298.36万元,连续3日累计净买入1577.2万元

安徽高质量发展调研行 | 安徽创新馆走出“科技红娘” 为成果转化牵线搭桥 环球消息