Ollama - 老司机 Mac

本地大语言模型（LLM）运行工具

Ollama 是目前全球最流行的本地大语言模型（LLM）运行工具。

它的核心理念可以用一句话概括：“让在本地运行大模型像运行 Docker 容器一样简单”。你不需要懂复杂的 Python 环境配置、不需要手动下载几十 GB 的模型权重文件，只需一行命令，就能在你的笔记本电脑或服务器上跑起 Llama 3、DeepSeek、Qwen 等顶级开源模型。

截至 2026 年，Ollama 已经从一个极客工具进化为拥有官方桌面应用、完善生态系统的成熟平台。以下是关于它的详细介绍：

🚀 核心亮点：为什么选择 Ollama？

极简安装与运行
- 传统方式：配置 CUDA、安装 PyTorch、下载 HuggingFace 模型、写 Python 脚本加载。
- Ollama 方式：
```
ollama run llama3.3
```
  就这么简单。它会自动下载模型、配置量化版本（通常是 4-bit 量化，节省显存），并启动一个交互界面。
模型库丰富 (Model Library)
- 内置了庞大的模型库，涵盖：
  - 通用对话：Llama 3/3.1/3.3, Mistral, Gemma 2
  - 中文优化：Qwen2.5 (通义千问), DeepSeek-V3/R1 (深度求索), Yi (零一万物)
  - 代码专用：Codellama, Starcoder2
  - 多模态：Llava (能看图说话)
- 支持自定义模型（通过 Modelfile 类似 Dockerfile 的方式定义）。
跨平台与硬件加速
- 系统：完美支持 macOS (Apple Silicon 优化极佳), Linux, Windows (2024 年底正式推出原生 Windows 版)。
- 硬件：自动检测并利用 GPU 加速 (NVIDIA CUDA, AMD ROCm, Apple Metal)。如果没有独显，也能高效利用 CPU 运行。
开发者友好的 API
- 启动后，它会在本地开启一个 HTTP 服务 (localhost:11434)。
- 任何程序（Python, Node.js, Go 等）都可以通过标准的 REST API 调用它，完全兼容 OpenAI 的 API 格式（通过第三方代理或直接配置），方便集成到现有应用中。
2025-2026 新特性
- 官方桌面应用：推出了 macOS 和 Windows 的图形界面客户端，不再依赖命令行，普通用户也能轻松聊天、管理模型。
- 多模态支持：原生支持上传图片进行分析（如 ollama run llava "描述这张图片"）。
- 工具调用 (Function Calling)：新版模型支持定义工具，让 AI 能执行代码或调用外部 API。
- 嵌入式支持：AMD 驱动包已集成 Ollama，TaiXu-Admin 等系统原生适配。

🛠️ 基本使用流程

1. 安装

macOS / Windows: 去官网 ollama.com 下载安装包，一键安装。

Linux:

curl -fsSL https://ollama.com/install.sh | sh

2. 运行模型

在终端输入：

# 运行最新的 Llama 3.3 (70B 或 8B 自动根据显存选择)
ollama run llama3.3

# 运行中文最强的 Qwen2.5
ollama run qwen2.5

# 运行深度思考模型 DeepSeek-R1
ollama run deepseek-r1

第一次运行会自动下载模型，之后秒开。

3. 常用命令

命令	说明
`ollama list`	查看本地已下载的模型
`ollama pull <模型名>`	下载指定模型
`ollama rm <模型名>`	删除模型以释放空间
`ollama cp <源> <目标>`	复制/重命名模型
`ollama show <模型名>`	查看模型的详细信息（参数、许可证等）

4. 作为 API 服务使用

Ollama 默认在后台运行服务。你可以用 curl 测试：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "你好，请介绍一下你自己"
}'

这也意味着你可以将 OpenClaw、Dify、Chatbox 等软件的模型地址设置为 http://localhost:11434，即可实现本地化 AI 应用。

⚠️ 重要安全警示 (2025-2026 重点)

根据 2025 年 3 月国家网络安全通报中心 的警告，Ollama 在默认配置下存在严重安全风险：

风险点：默认监听 0.0.0.0:11434，且无身份验证。
后果：
- 如果你的服务器暴露在公网，黑客可以直接连接你的 Ollama。
- 模型窃取：下载你私有微调的模型。
- 算力盗取：利用你的 GPU 跑他们的任务，导致你电脑卡顿。
- 数据泄露：诱导 AI 输出敏感信息，或通过 Prompt 注入攻击。
- 服务中断：直接杀掉进程或占满显存。

✅ 安全加固方案：

方案 A (推荐)：只监听本地回环地址。
修改环境变量 OLLAMA_HOST=127.0.0.1 (macOS/Linux 在 launchd 或 systemd 配置中；Windows 在环境变量设置中)。这样只有本机可以访问。
方案 B (防火墙)：如果必须局域网访问，请在防火墙中仅允许受信任的 IP 段访问 11434 端口，严禁对公网开放。
方案 C (反向代理)：使用 Nginx 前置，添加 Basic Auth 或 Token 验证。

🆚 Ollama vs vLLM (2026 年选型建议)

很多开发者会纠结选哪个：

特性	Ollama	vLLM
定位	个人/小团队本地推理	企业级高并发生产部署
易用性	⭐⭐⭐⭐⭐ (一行命令)	⭐⭐ (需配置 Python 环境、参数复杂)
性能	优秀 (针对单用户优化)	极致 (针对高吞吐量、多用户并发优化)
功能	全功能 (含 CLI, API, 桌面端)	专注推理引擎 (通常需配合前端)
适用场景	开发测试、个人助手、小型应用	大规模 SaaS 服务、高负载 API 网关

结论：

如果你是在自己电脑上玩，或者给小团队内部用 👉 选 Ollama。
如果你要搭建一个对外服务的 API 平台，每天处理成千上万次请求 👉 选 vLLM。

总结

Ollama 是本地 AI 时代的“瑞士军刀”。它降低了大模型的使用门槛，让每个人都能在离线、隐私安全的环境下拥有自己的 AI 大脑。只要注意做好网络隔离，它就是目前最棒的本地模型运行方案。