不妨一試！這六種在智能手機(jī)上運(yùn)行的開源LLM

沃卡惠
行業(yè)資訊
2024-07-10 09:34:08
129

您可以在不使用互聯(lián)網(wǎng)的情況下，利用智能手機(jī)上LLM 的強(qiáng)大功能，最大限度地加強(qiáng)隱私和控制。

大語(yǔ)言模型(LLM)需要大量的計(jì)算資源，這些資源通常局限于功能強(qiáng)大的服務(wù)器。然而，新一代的緊湊模型讓您可以直接在智能手機(jī)上運(yùn)行這些強(qiáng)大的語(yǔ)言模型。有意思的是，您不需要互聯(lián)網(wǎng)就可以在智能手機(jī)上使用LLM。

智能手機(jī)

下面這六種開源LLM經(jīng)訓(xùn)練和優(yōu)化后，可以在智能手機(jī)上使用。

Gemma 2B：谷歌針對(duì)移動(dòng)語(yǔ)言任務(wù)的緊湊型高性能LLM。

Phi-2：微軟的小型模型比規(guī)模大25倍的大型模型表現(xiàn)得還好。

Falcon-RW- 1B：面向資源受限的移動(dòng)設(shè)備的高效1B參數(shù)模型。

StableLM-3B：Stability AI兼顧性能和效率的模型，用于處理手機(jī)上的各種語(yǔ)言任務(wù)。

TinyLlama：緊湊版Llama模型，在手機(jī)上提供出色的結(jié)果。

LLaMA-2-7B：Meta功能強(qiáng)大的7B模型，用于處理高端智能手機(jī)上的高級(jí)任務(wù)。

1. Gemma 2B

谷歌的Gemma 2B是一種緊湊型語(yǔ)言模型，盡管小巧，卻提供了出色的性能。它利用多查詢注意力機(jī)制，有助于減少推理期間對(duì)內(nèi)存帶寬的需求。

這尤其有利于內(nèi)存帶寬通常有限的設(shè)備端場(chǎng)景。僅用20億個(gè)參數(shù)，Gemma 2B在語(yǔ)言理解、推理和安全等方面的學(xué)術(shù)基準(zhǔn)測(cè)試上取得了出色的成績(jī)。

在18項(xiàng)基于文本的任務(wù)中，它在11項(xiàng)上的表現(xiàn)勝過大小相似的開放模型。

2. Phi-2

Phi-2有27億個(gè)參數(shù)，在某些基準(zhǔn)測(cè)試中，其性能比大25倍的模型更勝一籌。它擅長(zhǎng)處理涉及常識(shí)推理、語(yǔ)言理解和邏輯推理的任務(wù)。

Phi-2可以量化到更低的位寬，比如4位或3位精度，從而將模型大小顯著縮小到1.17GB-1.48 GB，以便在內(nèi)存和計(jì)算資源有限的移動(dòng)設(shè)備上高效運(yùn)行。

Phi-2的主要優(yōu)點(diǎn)之一是它能夠執(zhí)行常識(shí)推理。該模型已使用龐大的互聯(lián)網(wǎng)數(shù)據(jù)語(yǔ)料庫(kù)進(jìn)行了訓(xùn)練，因而能夠理解并推理日常概念和關(guān)系。

3. Falcon-RW-1B

Falcon-RW-1B是Falcon語(yǔ)言模型系列的一部分，以高效和性能出名。RW代表“精煉的Web”，表示篩選的訓(xùn)練數(shù)據(jù)集注重質(zhì)量而非數(shù)量。

Falcon-RW-1B的架構(gòu)改編自GPT-3，但結(jié)合了ALiBi(具有線性偏差的注意力)和FlashAttention等技術(shù)來提高計(jì)算效率。這些優(yōu)化機(jī)制使得Falcon-RW-1B非常適合在智能手機(jī)等資源受限的設(shè)備上進(jìn)行設(shè)備端推理。

Falcon-RW-1B-Chat模型旨在為Falcon-RW-1B-Instruct-OpenOrca模型增加會(huì)話功能，以提高用戶參與度、擴(kuò)大使用范圍，并為智能手機(jī)等資源受限的環(huán)境提供可訪問性。

4. StableLM-3B

StableLM-3B由Stability AI開發(fā)，有30億個(gè)參數(shù)的模型，兼顧了性能和效率。StableLM-3B最大的優(yōu)點(diǎn)在于，盡管使用較少的token進(jìn)行訓(xùn)練，但在一些基準(zhǔn)測(cè)試中，其表現(xiàn)勝過使用70億個(gè)參數(shù)進(jìn)行訓(xùn)練的模型。

StableLM-3B可以量化到更低的位寬，如4位精度，將模型大大顯著縮小到3.6 GB左右，使其可以在智能手機(jī)上高效運(yùn)行。有用戶提到，StableLM-3B的性能超過了Stable自己的7B StableLM-Base-Alpha-v2。

5. TinyLlama

TinyLlama利用FlashAttention和RoPE位置嵌入等優(yōu)化機(jī)制來提高計(jì)算效率，同時(shí)保持強(qiáng)大的性能。它與Llama架構(gòu)兼容，可以整合到基于Llama的現(xiàn)有移動(dòng)應(yīng)用程序中，基本上不需要改動(dòng)。

TinyLlama可以量化到更低的位寬，比如4位或5位精度，將模型大小顯著縮小到550MB-637 MB左右。一位用戶在分享使用TinyLlama方面的經(jīng)驗(yàn)時(shí)提到，在華碩ROG之類的中端手機(jī)上，TinyLlama每秒可以生成6-7個(gè)token。

6. LLaMA-2-7B

LLaMA-2-7B模型量化到4位寬和16位激活，使其適用于智能手機(jī)上的設(shè)備端部署。這種量化將模型大小縮小到3.6GB，從而可以在內(nèi)存充足的移動(dòng)設(shè)備上加載和運(yùn)行。

移動(dòng)端的LLaMA-2-7B模型需要設(shè)備至少有6GB內(nèi)存。在推理過程中，三星Galaxy S23 Ultra上的峰值內(nèi)存使用量在316MB到4785MB。這表明，雖然該模型可以在6GB以上內(nèi)存的設(shè)備上運(yùn)行，但擁有更大的內(nèi)存可以獲得更好的性能，并降低內(nèi)存不足錯(cuò)誤的風(fēng)險(xiǎn)。

雖然LLaMA-2-7B模型需要設(shè)備有足夠的內(nèi)存，其速度可能無法與基于云的模型相匹配，但它為希望創(chuàng)建直接在智能手機(jī)上運(yùn)行的基于語(yǔ)言的智能功能的開發(fā)人員提供了一個(gè)誘人的選擇。

上一篇：防止影子AI災(zāi)難的十種方法

下一篇：人工智能工程師的日常工作是什么樣的？