国产精品毛片久久久久久久 I 欧美操穴 I 欧美成人一级 I 黄网址在线观看 I 美女激情网站 I 久久网av I 超污网站在线观看 I 曰本无码人妻丰满熟妇啪啪 I 国产欧美大片 I 天天草夜夜操 I 干美女少妇 I 日韩美女激情 I 亚洲女同在线 I 老司机激情影院 I 精品国产亚洲一区二区麻豆 I 亚洲天堂五码 I 亚洲产国偷v产偷v自拍涩爱 I 欧洲午夜精品 I 乱人伦精品 I 国产精品欧美一级免费 I 91精品论坛 I 日本视频专区 I 久久理论电影网 I 精品国产亚洲第一区二区三区 I 久久av在线看 I 亚洲综合精品四区 I 久久久国产乱子伦精品 I 午夜人妻久久久久久久久

首頁 區(qū)塊鏈 > 正文

比Hugging Face快24倍,伯克利神級(jí)LLM推理系統(tǒng)開源,碾壓SOTA,讓GPU砍半

小羊駝和排位賽的「幕后英雄」

編者按:本文來自微信公眾號(hào) 新智元(ID:AI_era),作者:桃子 好困 ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。


(相關(guān)資料圖)

過去2個(gè)月,來自UC伯克利的研究人員給大語言模型們安排了一個(gè)擂臺(tái)——Chatbot Arena。

GPT-4等大語言模型玩家打起了「排位賽」,通過隨機(jī)battle,根據(jù)Elo得分來排名。

這一過程中,每當(dāng)一個(gè)用戶訪問并使用網(wǎng)站,就需要同時(shí)讓兩個(gè)不同的模型跑起來。

他們是如何做到的?

這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務(wù)系統(tǒng)vLLM。

簡(jiǎn)之,vLLM是一個(gè)開源的LLM推理和服務(wù)引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。

配備全新算法的vLLM,重新定義了LLM服務(wù)的最新技術(shù)水平:

值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個(gè)集成。

正如研究者所稱,vLLM最大的優(yōu)勢(shì)在于——提供易用、快速、便宜的LLM服務(wù)。

這意味著,未來,即使對(duì)于像LMSYS這樣計(jì)算資源有限的小型研究團(tuán)隊(duì)也能輕松部署自己的LLM服務(wù)。

項(xiàng)目地址:https://github.com/vllm-project/vllm

現(xiàn)在,所有人可以在GitHub倉庫中使用一個(gè)命令嘗試vLLM了。論文隨后也會(huì)發(fā)布。

性能全面碾壓SOTA

今天,這個(gè)由UC伯克利創(chuàng)立的開放研究組織LMSYS介紹道:

「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數(shù)量減少了一半,同時(shí)每天平均提供3萬次請(qǐng)求。」

vLLM的性能具體如何?

UC伯克利團(tuán)隊(duì)將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術(shù)水平進(jìn)行了比較。

團(tuán)隊(duì)在兩個(gè)設(shè)置中進(jìn)行評(píng)估:在NVIDIA A10G GPU上運(yùn)行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運(yùn)行LLaMA-13B模型。

然后,研究人員從ShareGPT數(shù)據(jù)集中抽樣請(qǐng)求的輸入/輸出長度。

在實(shí)驗(yàn)中,vLLM的吞吐量比HF高達(dá)24倍,并且比TGI高達(dá)3.5倍。

在每個(gè)請(qǐng)求只需要一個(gè)輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍

在每個(gè)請(qǐng)求需要3個(gè)并行輸出完成時(shí)的服務(wù)吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍

秘密武器:PagedAttention

在vLLM中,團(tuán)隊(duì)發(fā)現(xiàn)LLM服務(wù)的性能受到內(nèi)存的限制。

在自回歸解碼過程中,LLM的所有輸入token都會(huì)生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內(nèi)存中以生成下一個(gè)token。

這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點(diǎn):

1. 內(nèi)存占用大:在LLaMA-13B中,單個(gè)序列的KV緩存占用高達(dá)1.7GB的內(nèi)存。

2. 動(dòng)態(tài)化:其大小取決于序列長度,而序列長度高度易變,且不可預(yù)測(cè)。

因此,有效管理KV緩存是一個(gè)重大挑戰(zhàn)。對(duì)此,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于碎片化和過度保留而浪費(fèi)了60%至80%的內(nèi)存。

用團(tuán)隊(duì)的導(dǎo)師Joey Gonzalez的一句話來講:GPU內(nèi)存碎片化=慢。

為了解決這個(gè)問題,團(tuán)隊(duì)引入了PagedAttention,一種受到操作系統(tǒng)中虛擬內(nèi)存和分頁經(jīng)典概念啟發(fā)的注意力算法。

與傳統(tǒng)的注意力算法不同,PagedAttention允許在非連續(xù)的內(nèi)存空間中存儲(chǔ)連續(xù)的鍵和值。

具體來說,PagedAttention將每個(gè)序列的KV緩存分為若干塊,每個(gè)塊包含固定數(shù)量token的鍵和值。在注意力計(jì)算過程中,PagedAttention內(nèi)核能夠高效地識(shí)別和提取這些塊。

PagedAttention:KV緩存被分割成塊,這些塊在內(nèi)存中不需要連續(xù)

由于這些塊在內(nèi)存中不需要連續(xù),因此也就可以像操作系統(tǒng)的虛擬內(nèi)存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節(jié),序列看作進(jìn)程。

序列的連續(xù)邏輯塊通過塊表映射到非連續(xù)的物理塊。隨著生成新的token,物理塊會(huì)按需進(jìn)行分配。

使用PagedAttention的請(qǐng)求生成過程示例

PagedAttention將內(nèi)存浪費(fèi)控制在了序列的最后一個(gè)塊中。

在實(shí)踐中,這帶來了接近最優(yōu)的內(nèi)存使用——僅有不到4%的浪費(fèi)。

而這種內(nèi)存效率的提升,能讓系統(tǒng)將更多的序列進(jìn)行批處理,提高GPU利用率,從而顯著提高吞吐量。

此外,PagedAttention還具有另一個(gè)關(guān)鍵優(yōu)勢(shì):高效的內(nèi)存共享。

比如在并行采樣中,就能從相同的提示生成多個(gè)輸出序列。在這種情況下,提示的計(jì)算和內(nèi)存可以在輸出序列之間共享。

并行采樣的示例

PagedAttention通過塊表自然地實(shí)現(xiàn)了內(nèi)存共享。

類似于進(jìn)程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。

為了確保安全,PagedAttention會(huì)跟蹤物理塊的引用計(jì)數(shù),并實(shí)現(xiàn)了寫時(shí)復(fù)制機(jī)制。

采樣多個(gè)輸出的請(qǐng)求示例生成過程

PagedAttention的內(nèi)存共享極大減少了復(fù)雜采樣算法(如并行采樣和束搜索)的內(nèi)存開銷,將它們的內(nèi)存使用量減少了高達(dá)55%。這可以將吞吐量提高多達(dá)2.2倍。

總結(jié)而言,PagedAttention是vLLM的核心技術(shù),它是LLM推斷和服務(wù)的引擎,支持各種模型,具有高性能和易于使用的界面。

GitHub上,團(tuán)隊(duì)也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構(gòu):

- GPT-2(gpt2、gpt2-xl等)

- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)

- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)

- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

小羊駝和排位賽的「幕后英雄」

4月初,UC伯克利學(xué)者聯(lián)手UCSD、CMU等,最先推出了一個(gè)開源全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」。

從那時(shí)起,Vicuna已在Chatbot Arena為數(shù)百萬用戶提供服務(wù)。

最初,LMSYS的FastChat采用基于HF Transformers的服務(wù)后端來提供聊天demo。

但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個(gè)重大的瓶頸。

為了解決這一挑戰(zhàn),LMSYS與vLLM團(tuán)隊(duì)緊密合作,全力開發(fā)出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。

根據(jù)LMSYS內(nèi)部微基準(zhǔn)測(cè)試的結(jié)果,vLLM服務(wù)后端可以實(shí)現(xiàn)比初始HF后端高出30倍的吞吐量。

4月-5月期間,Chatbot Arena的后端已經(jīng)部落了FastChat-vLLM的集成。實(shí)際上,有超過一半的Chatbot Arena請(qǐng)求都使用FastChat-vLLM集成服務(wù)的

自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務(wù)。

FastChat作為多模型聊天服務(wù)前端,vLLM作為推理后端,LMSYS能夠利用有限數(shù)量的GPU(學(xué)校贊助的),以高吞吐量和低延遲為數(shù)百萬用戶提供Vicuna服務(wù)。

現(xiàn)在,LMSYS正在將vLLM的使用擴(kuò)展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):

vLLM可用于離線推理和在線服務(wù)。要使用vLLM進(jìn)行離線推理,你可以導(dǎo)入vLLM并在Python腳本中使用LLM類:

要使用vLLM進(jìn)行在線服務(wù),你可以通過以下方式啟動(dòng)與OpenAI API兼容的服務(wù)器:

你可以使用與OpenAI API相同的格式查詢服務(wù)器:

有關(guān)使用vLLM的更多方法,請(qǐng)查看快速入門指南:

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

團(tuán)隊(duì)介紹

Zhuohan Li

Zhuohan Li是加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)專業(yè)的博士生,研究興趣是機(jī)器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。

在此之前,他在北京大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是王立威和賀笛。

Woosuk Kwon

Woosuk Kwon是加州大學(xué)伯克利分校的博士生,研究興趣是為大語言模型等新興應(yīng)用建立實(shí)用、靈活和高性能的軟件系統(tǒng)。

團(tuán)隊(duì)其他成員包括莊思遠(yuǎn)、盛穎、鄭憐憫、Cody Yu。團(tuán)隊(duì)導(dǎo)師包括Joey Gonzalez,Ion Stoica和張昊。

其中,團(tuán)隊(duì)的大部分成員同時(shí)也是LMSYS成員。

參考資料

https://vllm.ai

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.zhigu.net.cn All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3

主站蜘蛛池模板: 14萝自慰专用网站 | 韩国三级做爰高潮 | 欧美色图激情 | 93久久精品日日躁夜夜躁欧美 | 亚洲色大成网站www在线观看 | 亚洲国产中文曰韩丝袜 | 亚洲精品乱码久久久久久写真 | 欧美日韩精品一区二区三区高清视频 | 99精品网站 | 无码超乳爆乳中文字幕 | 欧美肥臀大屁股magnet | 免费看亚洲 | 粉嫩呦福利视频导航大全 | 一区二区三区黄色 | 亚洲永久视频 | 亚洲一片黄 | 噜噜噜久久亚洲精品国产品小说 | 亚洲va欧美va | 国外亚洲成av人片在线观看 | 成人a大片| 亚洲伊人中文字幕 | 亚洲三级在线中文字幕 | 日本三级网站在线 | 中文字幕无码乱码人妻系列蜜桃 | 国产真实自在自线免费精品 | 色妞www精品视频7777 | 国产精品第二页 | 欧美暖暖视频 | 婷婷激情在线视频 | 国产精品一区2区 | 一品二品三品中文字幕 | 中文字幕日韩在线播放 | 日韩精品成人av在线观看 | 天天干干干干干 | 欧美成人免费大片 | 国产真实乱子伦清晰对白 | 国产综合内射日韩久 | 国产在线精品成人一区二区 | 国产成人精品综合久久久 | 成人欧美视频 | 国产女人高潮视频在线观看 | 国产性夜夜春夜夜爽1a片 | 色女人在线| 久久av无码精品人妻系列试探 | 又大又长又粗又爽又黄少妇视频 | 精品国产理论 | www.av小说| 含羞草免费视频入口96视频 | 日本在线免费观看 | 国产成人精品日本亚洲专区 | 真人毛毛片 | 我要色综合网 | 农村少妇无套内谢免费 | 亚洲综合色婷婷在线观看 | 久久亚洲成人网 | 日韩中文字幕在线免费观看 | 性av免费| 午夜精品久久久久久99热小说 | 成人a视频在线观看 | 主站蜘蛛池模板: 蛛词}| 国产精品一区二区人人爽79欧美 | 亚洲精品国偷拍自产在线观看蜜桃 | 秋霞鲁丝片av无码中文字幕 | 好紧好湿好爽免费视频 | 久久久免费精品re6 精品国产福利在线 | 啪一啪射一射插一插 | 欧美亚洲国产成人一区二区三区 | 久久麻豆成人精品 | 99久久免费看精品 | 中文日韩v日本国产 | 在线播放午夜理论片 | a级国产视频| 午夜久久久久久久久久久 | 亚洲国产精品ⅴa在线观看 亚洲国产长腿丝袜av天堂 | 蜜臀色欲av在线播放国产日韩 | 国产香蕉国产精品偷在线 | 高清黄色一级片 | 人与动人物xxxx毛片 | 日韩.com| 天天看片中文字幕 | 欧美日韩在线成人 | 天天碰天天爽 | 欧美手机在线观看 | 亚洲精品久久久一区二区三区 | 国产成人欧美一区二区三区一色天 | 久久综合狠狠综合久久综 | 国产美女裸体无遮挡免费视频高潮 | 精品久久国产综合婷婷五月 | 色婷婷激情一区二区三区 | 44382亚洲最大成人网 | 久久久久久国产精品免费免费男同 | 久久99热只有频精品6国语 | 亚洲欧洲自拍 | 激情网五月天 | 国产亚洲精品线观看动态图 | 国产乱理伦片在线观看 | 亚洲熟妇久久国内精品 | 国产又黄又大又爽 | 下面一进一出好爽视频 | 国产另类自拍 | 久久精品无码人妻无码av | 国内精品一区二区福利视频 | 日本大香伊一区二区三区 | 国产精品欧美综合亚洲 | 夜夜高潮 | 一曲二曲三曲在线观看中文字幕动漫 | 菠萝菠萝蜜午夜视频在线播放观看 | 亚洲熟妇无码爱v在线观看 97精品一区 | 97精品久久 | 爱爱视频一区 | www四虎| 自拍黄色片 | 久久综合无码中文字幕无码ts | 亚洲第一页综合图片自拍 | 丰满多毛少妇做爰视频爽爽和 | 久久人人做人人妻人人玩精品hd | 青娱乐99| 51永久免费观看国产nbamba | 欧美成人精品一区二区三区在线观看 | 主站蜘蛛池模板: 蛛词}| 日本精品视频在线播放 | 天海翼精品久久中文字幕 | 日本强好片久久久久久aaa | 乱老年女人伦免费视频 | 伊人久久大香线蕉av波多野结衣 | 久久久久久国产精品无码超碰动画 | 日夜夜操 | 欧美乱大交xxxxx春色视频 | 日韩视频欧美视频 | 欧美jizz18性欧美视频 | 国产成人精品永久免费视频 | 国产乱对白刺激在线视频 | 午夜成人影片av | 精品久久久久久无码中文字幕漫画 | 强乱中文字幕亚洲精品 | 欧美成人免费一区二区 | 真实乱子伦露脸自拍 | 中文字幕妇伦久久 | 老司机精品无码免费视频 | 日韩小视频在线观看 | 黄色一级片在线 | 狠狠视频 | 免费人妻无码不卡中文视频 | 亚洲区激情区无码区日韩区 | 免费丰满少妇毛片高清视频 | 一级视频在线免费观看 | 久久久二区| 久久婷婷五月综合中文字幕 | 国产麻豆剧传媒精品av | 欧美中文视频 | 国产白丝精品91爽爽久 | 国产一区二区在线播放视频 | 99网曝精品视频久草 | 奇米影视狠狠干 | 99精品偷拍视频一区二区三区 | 国产精品自产拍在线观看 | 国产aⅴ无码久久丝袜美腿 国模gogo无码人体啪啪 | 国产欧美精品国产国产专区 | 婷婷色香五月综合缴缴情香蕉 | 囯产精品久久久久久久久久妞妞 | 四虎在线永久免费观看 | 2021久久最新国产精品 | 强侵犯の奶水授乳羞羞漫虐 | 日本japanese极品少妇 | 亚洲成熟女人毛毛耸耸多 | 欧美经典片免费观看大全 | 绯色av一区 | 久久国产乱子伦精品免费台湾 | 中文乱码字幕 | 亚洲激情免费视频 | 色窝窝无码一区二区三区色欲 | 国产人成视频在线视频 | 小泽玛利亚一区二区免费 | 午夜小视频在线播放 | 九一精品国产 | 亚洲高清免费看 | 国产成人a∨激情视频厨房 久久精品国产曰本波多野结衣 | 少妇无码一区二区三区 | 国产黄色自拍视频 | 主站蜘蛛池模板: 蛛词}| 欧美不卡视频在线 | 99久久人妻精品免费二区 | 成人综合激情网 | 免费无码无遮挡裸体视频 | 国产69堂免费视频 | 在线观看人成视频免费不卡 | 国产成人精品s8视频 | 麻豆精品一区二区综合av | 男人扒开女人双腿猛进免费视频 | 国产无遮挡又爽又刺激的视频老师 | 国产一级视频在线 | 日本一二三不卡视频 | 中文字幕乱码人妻二区三区 | 69综合精品国产二区无码 | 亚洲а∨天堂男人色无码 | 少妇影院在线观看 | 影音先锋中文字幕在线播放 | 亚洲区日韩精品中文字幕 | 精品国产一区二区三区京东影业 | 国产精品日韩一区二区三区 | 国产精品99久久久久的智能播放 | 久久九九看黄一片 | 国产亚洲精品久久久久久彩霞 | 国产原创视频 | 亚洲国产综合无码一区 | 亚洲午夜高清国产拍 | 久久精品在线 | 色多多成视频人在线观看 | 国产九一视频 | 婷婷开心中文字幕 | 大黑人交xxxx18视频 | 国产亚洲视频在线观看 | 亚洲色欲综合一区二区三区 | 人人插人人 | 亚洲精品玖玖玖av在线看 | 久久国产精品-国产精品 | 国产a国产片国产 | 国产一级片a | 亚洲综合国产一区二区三区 | 亚洲一卡2卡新区国色天香 狠狠综合久久久久综合网站 | 91av在| 国产精品秘 | 国产免费一级淫片a级中文 大香蕉毛片 | 日韩av无码一区二区三区 | 波多野结衣一区二区三区高清 | 日本中文不卡 | 欧美大胆丰满熟妇xxbb | 日本特黄特色大片免费视频网站 | 亚洲精品中文字幕无码蜜桃 | 日韩经典中文字幕 | 日本人吃奶玩奶虐乳视频 | 嫩草懂你的影院 | 高潮爽死抽搐白浆gif视频 | 久久无码精品一区二区三区 | 亚洲午夜av久久久精品影院 | 午夜福利不卡在线视频 | 亚洲精品国产成人精品软件 | 人妻免费久久久久久久了 | 久久av色 | 主站蜘蛛池模板: 蛛词}| 涩涩久久| 久久日韩国产精品免费 | 少妇性荡欲午夜性开放视频剧场 | 亚洲国产精品久久久久网站 | 啪啪后入内射日韩 | 亚洲精品偷拍视频 | 中文在线a√在线8 | 日韩艹逼视频 | 中文字幕播放 | 蜜臀av免费一区二区三区久久乐 | 麻豆果冻传媒2021精品传媒一区下载 | 无码一区二区波多野结衣播放搜索 | 色呦呦视频网站在线观看h污 | 亚洲操操 | 99精品国产成人一区二区 | 亚洲欧美日韩成人 | 在线观看视频一区二区三区 | 超碰97人人草 | 天天天色 | 国产成人精品人人做人人爽 | 小明看欧美日韩免费视频 | 99久久精品国产欧美主题曲 | 人操人人爽 | 亚洲综合色在线观看一区二区 | 国产性猛交 | 一二三区精品视频 | 久久婷婷五月综合尤物色国产 | 亚洲精品无码av专区最新 | 国产成人亚洲综合网站 | 亚洲成人精品久久 | 体内排精日本人 | 亚洲精品在线看 | 熟妇高潮喷沈阳45熟妇高潮喷 | 不卡av电影在线 | 国产一区二区三区久久久久久久 | 久久精品夜色噜噜亚洲a∨ 深夜av在线播放 | 九色亚洲 | 久久久久久九九九九 | 韩日精品视频 | 男人天堂视频在线 | 久久99精品国产麻豆不卡 | 国产女人水真多18毛片18精品 | 精品国产乱码久久久久久鸭王1 | 欧美性久久 | 亚洲字幕在线观看 | www.日本黄 | 91欧美一区二区三区 | 91九色porn | 成人欧美视频 | 国产高清精品福利私拍国产写真 | 91国内产香蕉 | 亚洲99影视一区二区三区 | 免费无遮挡无码h肉动漫在线观看 | 黄av在线 | 理论片中文 | 在线a视频网站 | 日韩欧美在线免费观看 | 天天做天天躁天天躁 | 国产精品大尺度 |