国产精品毛片久久久久久久 I 欧美操穴 I 欧美成人一级 I 黄网址在线观看 I 美女激情网站 I 久久网av I 超污网站在线观看 I 曰本无码人妻丰满熟妇啪啪 I 国产欧美大片 I 天天草夜夜操 I 干美女少妇 I 日韩美女激情 I 亚洲女同在线 I 老司机激情影院 I 精品国产亚洲一区二区麻豆 I 亚洲天堂五码 I 亚洲产国偷v产偷v自拍涩爱 I 欧洲午夜精品 I 乱人伦精品 I 国产精品欧美一级免费 I 91精品论坛 I 日本视频专区 I 久久理论电影网 I 精品国产亚洲第一区二区三区 I 久久av在线看 I 亚洲综合精品四区 I 久久久国产乱子伦精品 I 午夜人妻久久久久久久久

首頁 區(qū)塊鏈 > 正文

比Hugging Face快24倍,伯克利神級(jí)LLM推理系統(tǒng)開源,碾壓SOTA,讓GPU砍半

小羊駝和排位賽的「幕后英雄」

編者按:本文來自微信公眾號(hào) 新智元(ID:AI_era),作者:桃子 好困 ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。


(相關(guān)資料圖)

過去2個(gè)月,來自UC伯克利的研究人員給大語言模型們安排了一個(gè)擂臺(tái)——Chatbot Arena。

GPT-4等大語言模型玩家打起了「排位賽」,通過隨機(jī)battle,根據(jù)Elo得分來排名。

這一過程中,每當(dāng)一個(gè)用戶訪問并使用網(wǎng)站,就需要同時(shí)讓兩個(gè)不同的模型跑起來。

他們是如何做到的?

這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務(wù)系統(tǒng)vLLM。

簡(jiǎn)之,vLLM是一個(gè)開源的LLM推理和服務(wù)引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。

配備全新算法的vLLM,重新定義了LLM服務(wù)的最新技術(shù)水平:

值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個(gè)集成。

正如研究者所稱,vLLM最大的優(yōu)勢(shì)在于——提供易用、快速、便宜的LLM服務(wù)。

這意味著,未來,即使對(duì)于像LMSYS這樣計(jì)算資源有限的小型研究團(tuán)隊(duì)也能輕松部署自己的LLM服務(wù)。

項(xiàng)目地址:https://github.com/vllm-project/vllm

現(xiàn)在,所有人可以在GitHub倉庫中使用一個(gè)命令嘗試vLLM了。論文隨后也會(huì)發(fā)布。

性能全面碾壓SOTA

今天,這個(gè)由UC伯克利創(chuàng)立的開放研究組織LMSYS介紹道:

「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數(shù)量減少了一半,同時(shí)每天平均提供3萬次請(qǐng)求。」

vLLM的性能具體如何?

UC伯克利團(tuán)隊(duì)將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術(shù)水平進(jìn)行了比較。

團(tuán)隊(duì)在兩個(gè)設(shè)置中進(jìn)行評(píng)估:在NVIDIA A10G GPU上運(yùn)行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運(yùn)行LLaMA-13B模型。

然后,研究人員從ShareGPT數(shù)據(jù)集中抽樣請(qǐng)求的輸入/輸出長度。

在實(shí)驗(yàn)中,vLLM的吞吐量比HF高達(dá)24倍,并且比TGI高達(dá)3.5倍。

在每個(gè)請(qǐng)求只需要一個(gè)輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍

在每個(gè)請(qǐng)求需要3個(gè)并行輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍

秘密武器:PagedAttention

在vLLM中,團(tuán)隊(duì)發(fā)現(xiàn)LLM服務(wù)的性能受到內(nèi)存的限制。

在自回歸解碼過程中,LLM的所有輸入token都會(huì)生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內(nèi)存中以生成下一個(gè)token。

這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點(diǎn):

1. 內(nèi)存占用大:在LLaMA-13B中,單個(gè)序列的KV緩存占用高達(dá)1.7GB的內(nèi)存。

2. 動(dòng)態(tài)化:其大小取決于序列長度,而序列長度高度易變,且不可預(yù)測(cè)。

因此,有效管理KV緩存是一個(gè)重大挑戰(zhàn)。對(duì)此,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于碎片化和過度保留而浪費(fèi)了60%至80%的內(nèi)存。

用團(tuán)隊(duì)的導(dǎo)師Joey Gonzalez的一句話來講:GPU內(nèi)存碎片化=慢。

為了解決這個(gè)問題,團(tuán)隊(duì)引入了PagedAttention,一種受到操作系統(tǒng)中虛擬內(nèi)存和分頁經(jīng)典概念啟發(fā)的注意力算法。

與傳統(tǒng)的注意力算法不同,PagedAttention允許在非連續(xù)的內(nèi)存空間中存儲(chǔ)連續(xù)的鍵和值。

具體來說,PagedAttention將每個(gè)序列的KV緩存分為若干塊,每個(gè)塊包含固定數(shù)量token的鍵和值。在注意力計(jì)算過程中,PagedAttention內(nèi)核能夠高效地識(shí)別和提取這些塊。

PagedAttention:KV緩存被分割成塊,這些塊在內(nèi)存中不需要連續(xù)

由于這些塊在內(nèi)存中不需要連續(xù),因此也就可以像操作系統(tǒng)的虛擬內(nèi)存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節(jié),序列看作進(jìn)程。

序列的連續(xù)邏輯塊通過塊表映射到非連續(xù)的物理塊。隨著生成新的token,物理塊會(huì)按需進(jìn)行分配。

使用PagedAttention的請(qǐng)求生成過程示例

PagedAttention將內(nèi)存浪費(fèi)控制在了序列的最后一個(gè)塊中。

在實(shí)踐中,這帶來了接近最優(yōu)的內(nèi)存使用——僅有不到4%的浪費(fèi)。

而這種內(nèi)存效率的提升,能讓系統(tǒng)將更多的序列進(jìn)行批處理,提高GPU利用率,從而顯著提高吞吐量。

此外,PagedAttention還具有另一個(gè)關(guān)鍵優(yōu)勢(shì):高效的內(nèi)存共享。

比如在并行采樣中,就能從相同的提示生成多個(gè)輸出序列。在這種情況下,提示的計(jì)算和內(nèi)存可以在輸出序列之間共享。

并行采樣的示例

PagedAttention通過塊表自然地實(shí)現(xiàn)了內(nèi)存共享。

類似于進(jìn)程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。

為了確保安全,PagedAttention會(huì)跟蹤物理塊的引用計(jì)數(shù),并實(shí)現(xiàn)了寫時(shí)復(fù)制機(jī)制。

采樣多個(gè)輸出的請(qǐng)求示例生成過程

PagedAttention的內(nèi)存共享極大減少了復(fù)雜采樣算法(如并行采樣和束搜索)的內(nèi)存開銷,將它們的內(nèi)存使用量減少了高達(dá)55%。這可以將吞吐量提高多達(dá)2.2倍。

總結(jié)而言,PagedAttention是vLLM的核心技術(shù),它是LLM推斷和服務(wù)的引擎,支持各種模型,具有高性能和易于使用的界面。

GitHub上,團(tuán)隊(duì)也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構(gòu):

- GPT-2(gpt2、gpt2-xl等)

- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)

- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)

- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

小羊駝和排位賽的「幕后英雄」

4月初,UC伯克利學(xué)者聯(lián)手UCSD、CMU等,最先推出了一個(gè)開源全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」。

從那時(shí)起,Vicuna已在Chatbot Arena為數(shù)百萬用戶提供服務(wù)。

最初,LMSYS的FastChat采用基于HF Transformers的服務(wù)后端來提供聊天demo。

但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個(gè)重大的瓶頸。

為了解決這一挑戰(zhàn),LMSYS與vLLM團(tuán)隊(duì)緊密合作,全力開發(fā)出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。

根據(jù)LMSYS內(nèi)部微基準(zhǔn)測(cè)試的結(jié)果,vLLM服務(wù)后端可以實(shí)現(xiàn)比初始HF后端高出30倍的吞吐量。

4月-5月期間,Chatbot Arena的后端已經(jīng)部落了FastChat-vLLM的集成。實(shí)際上,有超過一半的Chatbot Arena請(qǐng)求都使用FastChat-vLLM集成服務(wù)的

自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務(wù)。

FastChat作為多模型聊天服務(wù)前端,vLLM作為推理后端,LMSYS能夠利用有限數(shù)量的GPU(學(xué)校贊助的),以高吞吐量和低延遲為數(shù)百萬用戶提供Vicuna服務(wù)。

現(xiàn)在,LMSYS正在將vLLM的使用擴(kuò)展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):

vLLM可用于離線推理和在線服務(wù)。要使用vLLM進(jìn)行離線推理,你可以導(dǎo)入vLLM并在Python腳本中使用LLM類:

要使用vLLM進(jìn)行在線服務(wù),你可以通過以下方式啟動(dòng)與OpenAI API兼容的服務(wù)器:

你可以使用與OpenAI API相同的格式查詢服務(wù)器:

有關(guān)使用vLLM的更多方法,請(qǐng)查看快速入門指南:

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

團(tuán)隊(duì)介紹

Zhuohan Li

Zhuohan Li是加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)專業(yè)的博士生,研究興趣是機(jī)器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。

在此之前,他在北京大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是王立威和賀笛。

Woosuk Kwon

Woosuk Kwon是加州大學(xué)伯克利分校的博士生,研究興趣是為大語言模型等新興應(yīng)用建立實(shí)用、靈活和高性能的軟件系統(tǒng)。

團(tuán)隊(duì)其他成員包括莊思遠(yuǎn)、盛穎、鄭憐憫、Cody Yu。團(tuán)隊(duì)導(dǎo)師包括Joey Gonzalez,Ion Stoica和張昊。

其中,團(tuán)隊(duì)的大部分成員同時(shí)也是LMSYS成員。

參考資料

https://vllm.ai

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.zhigu.net.cn All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3

主站蜘蛛池模板: 欧洲成人一区二区三区 | 国产性生交xxxxx无码 | 丁香九月婷婷综合 | 欧美日韩视频无码一区二区三 | 久久久久综合成人免费 | 欧美婷婷六月丁香综合 | 国产精品特黄aaaa片在线观看 | 深夜在线网址 | 国产精品女主播主要上线 | 国产91丝袜在线播放九色 | 男女激情久久 | 欧美又粗大人妖一进一出 | 日本艹逼 | av福利片 | 国产精品女同久久久久电影院 | 天堂在/线中文在线资源 官网 | 成人午夜做爰高潮片免费吸气 | 国产视频你懂的 | 中文天堂在线播放 | 亚洲毛片av日韩av无码 | 亚洲无人区码一码二码三码的含义 | 女人夜夜春高潮爽av片 | 亚洲乱码视频在线观看 | 日韩高清不卡av | 色视频一区二区 | 久久综合色综合 | 天天摸天天碰天天添 | 隣の若妻さん 波多野结 | 国产精品久久中文字幕 | www.5588.com毛片 | 亚洲中文字幕在线第二页 | 久久久不卡国产精品一区二区 | 亚洲人a成www在线影院 | 久久精品99国产 | 永久免费无码日韩视频 | 日韩久久免费视频 | 手机在线成人av | 亚洲444kkkk在线观看 | 亚洲中文字幕日产乱码高清 | 美女少妇网站 | 亚洲第一se情网站 | 美女张开腿黄网站免费下载 | 撸av| aaa一级片 | 天天躁日日躁狠狠很躁 | 丰满岳乱妇一区二区 | 巨胸喷奶水www久久久免费动漫 | 国产av无码专区亚洲草草 | 国产精品无码a∨精品影院 精品少妇人妻av无码久久 | 日本三级香港三级人妇99 | 国产亚洲一区二区手机在线观看 | 秋霞av无码一区二区三区试看 | 丰满大乳少妇毛片视频 | 秋霞久久国产精品电影院 | 任我撸在线视频 | 日本免费一区二区三区四区五六区 | 婷婷开心深爱五月天播播 | 日韩69永久免费视频 | 国产成人久久av977小说 | 主站蜘蛛池模板: 蛛词}| 中文字幕成人 | 亚洲精品国产精品乱码不99按摩 | 日韩欧美中文字幕在线播放 | 狠狠色老熟妇老熟女 | 爱情岛论坛亚洲永久入口口 | 精品久久久99大香线蕉 | 奶大翘臀尤物np | 欧日韩在线观看 | 一区二区三区视频免费 | 鲁鲁夜夜天天综合视频 | 麻花传媒在线mv免费观看视频 | 一本一道人人妻人人妻αv 亚洲视频欧美视频 | 国产成人精品一区二区3 | 久久一精品 | 日韩电影久久久被窝网 | 精品深夜寂寞黄网站 | 日日干日日摸 | 色欲色欲久久综合网 | 国产一卡2卡三卡4卡 在线观看 | 亚洲伦理自拍 | 久久中文一区 | 18女毛片| 女人喷液抽搐高潮视频 | www312aⅴ欧美在线看 | 国产精品 高清 尿 小便 嘘嘘 | 日本亚洲欧美高清专区vr专区 | 日本熟妇大屁股人妻 | 北条麻妃一区二区三区在线 | 91国内精品野花午夜精品 | 亚洲人成网站精品片在线观看 | 色婷婷一区| 老子影院午夜伦不卡 | 中文字幕第7页 | 99国产超薄肉色丝袜交足的后果 | 好男人社区神马在线观看www | 国产日韩欧美中文字幕 | 噜啊噜在线| 丁香五月综合久久激情 | 午夜丁香 | 日本xxxx18 | 国产精品美女自拍视频 | 九九热线有精品视频86 | 国产精品亚洲а∨天堂2021 | 伊人久久爱| 日韩国产精品一区 | 国产美女视频免费观看网址 | 午夜男女刺激爽爽影院 | 亚洲高清成人 | 国产精品爱久久久久久久小说 | 天天综合久久综合 | 国产精品嫩草影院免费观看 | 又大又硬又黄又刺激的免费视频 | 偷拍大众浴池精品视频在线播放 | 护士奶头又大又软又好摸 | 成人国产1314www色视频 | av网站大全在线 | jzzijzzij亚洲成熟少妇18 久久久久日本精品毛片蜜桃成熟时 | 国产精品第9页 | 日韩视频在线免费播放 | 主站蜘蛛池模板: 蛛词}| 免费av在线 | 久久天天色综合 | 国内九一激情白浆发布 | 超碰人人91 | 一区二区精品国产 | 久久一二三区 | 亚洲 欧美 中文 日韩aⅴ综合视频 | 中国妇女做爰视频 | 高潮迭起av乳颜射后入 | 亚洲精品乱码久久久久久蜜桃动漫 | 久久精品免费国产大片 | 一级特黄aa大片免费播放 | 精品久久亚洲中文字幕 | 免费看无码自慰一区二区 | 又大又长粗又爽又黄少妇毛片 | 国产∨亚洲v天堂无码久久久 | 91pony九色丨交换 | 在线 偷窥 制服 另类 | 久久五月激情 | 国产xx视频 | 国产人妻精品久久久久久 | 四虎影视永久在线 | 日韩a人毛片精品无人区乱码 | 波多野结衣午夜 | 国产在线精品99一卡2卡 | 久久精品国产9久久综合 | 国产精品乡下勾搭老头1 | 91黄色免费视频 | 亚洲成无码电影在线观看 | 99日本精品永久免费久久 | 久黄色 | 噼里啪啦动漫 | 手机在线免费看片 | 亚洲欧美中文日韩在线v日本 | 亚洲人成人一区二区三区 | 国语憿情少妇无码av | 国产v片在线播放免费无码 国产第九页 | 亚洲综人 | 99久久国语露脸精品国产 | 亚洲人成毛片在线播放 | 国产无遮挡又黄又爽免费网站 | 无码少妇a片一区二区三区 成人福利在线 | 精品国产黄色 | 成人无码精品1区2区3区免费看 | 亚洲国产日韩欧美一区二区三区 | 久久精品国产第一区二区三区 | 国产另类ts人妖一区二区 | 日本v在线 | 日韩精品一区二区三区在线观看 | 亚洲精品国产字幕久久不卡 | 26uuu在线亚洲欧美 | 欧美日韩少妇精品 | 亚洲成aⅴ人片在线观看 | 日本国产亚洲 | 色欲天天婬色婬香视频综合网 | 色婷婷综合久久久久中文 | 欧美日韩中文字幕视频 | 超碰在线免费观看97 | 亚洲一区二区经典在线播放 | 主站蜘蛛池模板: 蛛词}| 福利在线免费观看 | 亚洲第一天堂久久 | 二区三区av | 国产精品久久人人做人人爽 | 天堂一区二区在线观看 | 久久久久久久久久久久久久久久久久久久 | 18禁美女黄网站色大片免费看 | 亚洲一级毛片免费看 | 国产iv一区二区三区 | 思思久思思 | 亚洲乱码国产乱码精品精98午夜 | 91久久久精品 | 中文国产成人精品久久久 | 日韩视频网址 | 亚洲自偷自偷图片自拍 | 国产99在线视频 | 久久日本三级韩国三级 | 午夜寂寞福利 | 中文av在线播放 | 国产麻豆剧果冻传媒星空视频 | 日韩乱码人妻无码中文视频 | 亚洲网址 | 最新欧美精品一区二区三区 | 99精品免视看| 能看av的网址 | 超碰在线人人97 | 成人短视频在线观看 | 老司机午夜精品 | 国产欧美日韩亚洲18禁在线 | 777爽死你无码免费看一二区 | 好男人社区神马在线观看www | 69做爰高潮全过程免 | 亚洲暴爽av人人爽日日碰 | 人人妻人人藻人人爽欧美一区 | 岛国av大片| 久久理论片| 日本曰又深又爽免费视频 | av黄色网页 | 久久精91久久88香蕉国产 | 国产下药迷倒白嫩美女网站 | 日本视频网| 亚洲女人的天堂 | 玖草视频在线 | 越南少妇bbb真爽 | 91在线一区 | 亚洲a级大片 | 国产精品久久久久久久不卡 | 青青草视频观看 | 国产性猛交xx乱老孕妇 | 久久成人一区二区三区 | 日本一级吃奶淫片免费 | 亚洲国产经典 | 午夜性生大片免费观看 | 欧美黑人粗大猛烈18p | 牲欲强的熟妇农村老妇女视频 | 色人阁在线视频 | 欧美亚洲熟妇一区二区三区 | 欧美人成精品网站播放 | 日本强好片久久久久久aaa | 主站蜘蛛池模板: 蛛词}| 1024在线| 国产丰满老女人hd | 久久久久国产一区二区 | 成年美女黄网站18禁免费 | 久草在线视频在线 | 天天艹日日艹 | 久久九九色 | 99热官网 | 秋霞国产精品一区二区 | 成片免费观看视频999 | 亚欧视频在线播放 | 欧美高清69hd | 男女做爰猛烈叫床视频免费 | 999在线观看精品免费不卡网站 | 日本熟妇乱子伦xxxx | 67194熟妇在线永久免费观看 | 欧美老少妇 | av成人午夜无码一区二区 | 美女扒开腿让男人桶爽app免费看 | 国产亚洲精品美女久久久m 色综合中文综合网 | wwwwww在线观看 | 亚洲日本va在线视频观看 | 极品尤物一区二区三区 | 免费高清av一区二区三区 | 欧美xoxoxo另类粗暴 | 亚洲国模77777人体模特 | 欧日韩在线视频 | www.91色.com | 色情无码www视频无码区澳门 | 无码天堂亚洲国产av麻豆 | 国产精自产拍在线看中文 | 亚洲一区二区无码偷拍 | 天堂资源网在线 | 欧美日韩操 | 久久99精品国产麻豆婷婷 | 在线观看不卡一区 | 欧美日韩一区二区综合 | 粉嫩av国产一区二区三区 | maomiav海外永久网址 | 国产一卡二卡在线播放 | 欧美激情老妇 | 国产精品久久久久久久久久久久久久 | 亚洲综合在线一区 | 国产精品亚洲片在线播放 | 黄视频网站在线 | 日韩精品一区二区三区久久 | 在线日韩欧美 | 国产精品久人妻精品 | 欧美一二三区在线观看 | 中文字幕亚洲日韩无线码 | 97精品久久久大香线焦 | 少妇精品高潮欲妇又嫩中文字幕 | 国产交换配乱淫视频a | 日韩精品无码一区二区忘忧草 | 国产精品亚洲成在人线 | 成人精品久久久 | 中日韩黄色大片 | 波多野结衣乳巨码无在线 | 可以直接看的毛片 |