家用电脑也能轻松玩转大模型

  1. Ollama 简介
  2. 支持的模型
  3. 安装和使用
    1. 1.本地方式安装
    2. 2.Docker 方式安装
      1. CPU(默认)方式运行 ollama 容器
      2. GPU 方式运行 ollama 容器

2022 年底 OpenAI 发布 ChatGPT,随后 2023 年大模型进入了有史以来发展最快速的时候,在这一年中,相继涌现了很多商业闭源或开源的大模型,本文就是通过 Ollama 开源应用程序将开源的大模型运行在家用电脑之上。

Ollama 简介

Ollama 是一款开源应用程序,可让你通过命令行界面运行、创建和共享大型语言模型。

支持的模型

Ollama 支持的可用开源模型列表网址:ollama.ai/library

下面是一些可下载的示例开源模型:

Model Parameters Size Download
Llama 2 7B 3.8GB ollama run llama2
Mistral 7B 4.1GB ollama run mistral
Dolphin Phi 2.7B 1.6GB ollama run dolphin-phi
Phi-2 2.7B 1.7GB ollama run phi
Neural Chat 7B 4.1GB ollama run neural-chat
Starling 7B 4.1GB ollama run starling-lm
Code Llama 7B 3.8GB ollama run codellama
Llama 2 Uncensored 7B 3.8GB ollama run llama2-uncensored
Llama 2 13B 13B 7.3GB ollama run llama2:13b
Llama 2 70B 70B 39GB ollama run llama2:70b
Orca Mini 3B 1.9GB ollama run orca-mini
Vicuna 7B 3.8GB ollama run vicuna
LLaVA 7B 4.5GB ollama run llava

注意:本地运行 7B 模型至少需要 8GB 的 RAM,运行 13B 模型至少需要 16GB 的 RAM,如果运行 33B 模型,则至少需要 32GB 的 RAM。

安装和使用

1.本地方式安装

使用一键安装脚本进行安装:

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>curl https://ollama.ai/install.sh | sh </pre></td></tr></tbody></table>

以服务方式重启:

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>systemctl restart ollama </pre></td></tr></tbody></table>

查看服务状态:

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>systemctl status ollama </pre></td></tr></tbody></table>

查看服务日志:

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>journalctl <span class="nt">-u</span> ollama </pre></td></tr></tbody></table>

使用脚本更新:

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>curl https://ollama.ai/install.sh | sh </pre></td></tr></tbody></table>

运行大模型:

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>ollama run codellama:7b-instruct pulling manifest pulling 3a43f93b78ec... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 3.8 GB pulling 8c17c2ebb0ea... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 7.0 KB pulling 590d74a5569b... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 4.8 KB pulling 2e0493f67d0c... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 59 B pulling 7f6a57943a88... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 120 B pulling 316526ac7323... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 529 B verifying sha256 digest writing manifest removing any unused layers success <span class="o">>>></span> Send a message <span class="o">(</span>/? <span class="k">for </span><span class="nb">help</span><span class="o">)</span> </pre></td></tr></tbody></table>

Ollama 会判别正在运行的硬件并在可行的情况下调用 GPU 加速,不妨在推理时打开活动监视器或任务管理器观察以验证。

运行到这里,你本地的模型已经运行成功了,下面来简单使用下这个模型,输入“请使用Java编写一个冒泡排序方法”,让其写一个冒泡排序:

2.Docker 方式安装

安装 docker 后,我们可通过 CPU 和 GPU 两种方式运行 ollama 容器。

CPU(默认)方式运行 ollama 容器

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>docker run <span class="nt">-d</span> <span class="nt">-v</span> ollama:/root/.ollama <span class="nt">-p</span> 11434:11434 <span class="se">\</span> <span class="nt">--name</span> ollama ollama/ollama </pre></td></tr></tbody></table>

GPU 方式运行 ollama 容器

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<table class="rouge-table"><tbody><tr><td class="rouge-code"><pre><span class="nv">$ </span>docker run <span class="nt">-d</span> <span class="nt">--gpus</span><span class="o">=</span>all <span class="nt">-v</span> ollama:/root/.ollama <span class="nt">-p</span> 11434:11434 <span class="se">\</span> <span class="nt">--name</span> ollama ollama/ollama </pre></td></tr></tbody></table>

运行大模型:

<table class="rouge-table"><tbody><tr><td class="rouge-gutter gl"></td></tr></tbody></table>``<pre> <span class="nv">$ </span>docker <span class="nb">exec</span> <span class="nt">-it</span> ollama ollama run llama2 </pre>


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 3400639399@qq.com

×

喜欢就点赞,疼爱就打赏

github