本地大语言模型(LLM)运行工具
Ollama 是目前全球最流行的本地大语言模型(LLM)运行工具。
它的核心理念可以用一句话概括:“让在本地运行大模型像运行 Docker 容器一样简单”。你不需要懂复杂的 Python 环境配置、不需要手动下载几十 GB 的模型权重文件,只需一行命令,就能在你的笔记本电脑或服务器上跑起 Llama 3、DeepSeek、Qwen 等顶级开源模型。
截至 2026 年,Ollama 已经从一个极客工具进化为拥有官方桌面应用、完善生态系统的成熟平台。以下是关于它的详细介绍:
🚀 核心亮点:为什么选择 Ollama?
极简安装与运行
- 传统方式:配置 CUDA、安装 PyTorch、下载 HuggingFace 模型、写 Python 脚本加载。
- Ollama 方式:
就这么简单。它会自动下载模型、配置量化版本(通常是 4-bit 量化,节省显存),并启动一个交互界面。ollama run llama3.3
模型库丰富 (Model Library)
- 内置了庞大的模型库,涵盖:
- 通用对话:Llama 3/3.1/3.3, Mistral, Gemma 2
- 中文优化:Qwen2.5 (通义千问), DeepSeek-V3/R1 (深度求索), Yi (零一万物)
- 代码专用:Codellama, Starcoder2
- 多模态:Llava (能看图说话)
- 支持自定义模型(通过
Modelfile类似 Dockerfile 的方式定义)。
- 内置了庞大的模型库,涵盖:
跨平台与硬件加速
- 系统:完美支持 macOS (Apple Silicon 优化极佳), Linux, Windows (2024 年底正式推出原生 Windows 版)。
- 硬件:自动检测并利用 GPU 加速 (NVIDIA CUDA, AMD ROCm, Apple Metal)。如果没有独显,也能高效利用 CPU 运行。
开发者友好的 API
- 启动后,它会在本地开启一个 HTTP 服务 (
localhost:11434)。 - 任何程序(Python, Node.js, Go 等)都可以通过标准的 REST API 调用它,完全兼容 OpenAI 的 API 格式(通过第三方代理或直接配置),方便集成到现有应用中。
- 启动后,它会在本地开启一个 HTTP 服务 (
2025-2026 新特性
- 官方桌面应用:推出了 macOS 和 Windows 的图形界面客户端,不再依赖命令行,普通用户也能轻松聊天、管理模型。
- 多模态支持:原生支持上传图片进行分析(如
ollama run llava "描述这张图片")。 - 工具调用 (Function Calling):新版模型支持定义工具,让 AI 能执行代码或调用外部 API。
- 嵌入式支持:AMD 驱动包已集成 Ollama,TaiXu-Admin 等系统原生适配。
🛠️ 基本使用流程
1. 安装
- macOS / Windows: 去官网 ollama.com 下载安装包,一键安装。
- Linux:
curl -fsSL https://ollama.com/install.sh | sh
2. 运行模型
在终端输入:
# 运行最新的 Llama 3.3 (70B 或 8B 自动根据显存选择)
ollama run llama3.3
# 运行中文最强的 Qwen2.5
ollama run qwen2.5
# 运行深度思考模型 DeepSeek-R1
ollama run deepseek-r1
第一次运行会自动下载模型,之后秒开。
3. 常用命令
| 命令 | 说明 |
|---|---|
ollama list |
查看本地已下载的模型 |
ollama pull <模型名> |
下载指定模型 |
ollama rm <模型名> |
删除模型以释放空间 |
ollama cp <源> <目标> |
复制/重命名模型 |
ollama show <模型名> |
查看模型的详细信息(参数、许可证等) |
4. 作为 API 服务使用
Ollama 默认在后台运行服务。你可以用 curl 测试:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.3",
"prompt": "你好,请介绍一下你自己"
}'
这也意味着你可以将 OpenClaw、Dify、Chatbox 等软件的模型地址设置为 http://localhost:11434,即可实现本地化 AI 应用。
⚠️ 重要安全警示 (2025-2026 重点)
根据 2025 年 3 月国家网络安全通报中心 的警告,Ollama 在默认配置下存在严重安全风险:
- 风险点:默认监听
0.0.0.0:11434,且无身份验证。 - 后果:
- 如果你的服务器暴露在公网,黑客可以直接连接你的 Ollama。
- 模型窃取:下载你私有微调的模型。
- 算力盗取:利用你的 GPU 跑他们的任务,导致你电脑卡顿。
- 数据泄露:诱导 AI 输出敏感信息,或通过 Prompt 注入攻击。
- 服务中断:直接杀掉进程或占满显存。
✅ 安全加固方案:
- 方案 A (推荐):只监听本地回环地址。
修改环境变量OLLAMA_HOST=127.0.0.1(macOS/Linux 在 launchd 或 systemd 配置中;Windows 在环境变量设置中)。这样只有本机可以访问。 - 方案 B (防火墙):如果必须局域网访问,请在防火墙中仅允许受信任的 IP 段访问 11434 端口,严禁对公网开放。
- 方案 C (反向代理):使用 Nginx 前置,添加 Basic Auth 或 Token 验证。
🆚 Ollama vs vLLM (2026 年选型建议)
很多开发者会纠结选哪个:
| 特性 | Ollama | vLLM |
|---|---|---|
| 定位 | 个人/小团队本地推理 | 企业级高并发生产部署 |
| 易用性 | ⭐⭐⭐⭐⭐ (一行命令) | ⭐⭐ (需配置 Python 环境、参数复杂) |
| 性能 | 优秀 (针对单用户优化) | 极致 (针对高吞吐量、多用户并发优化) |
| 功能 | 全功能 (含 CLI, API, 桌面端) | 专注推理引擎 (通常需配合前端) |
| 适用场景 | 开发测试、个人助手、小型应用 | 大规模 SaaS 服务、高负载 API 网关 |
结论:
- 如果你是在自己电脑上玩,或者给小团队内部用 👉 选 Ollama。
- 如果你要搭建一个对外服务的 API 平台,每天处理成千上万次请求 👉 选 vLLM。
总结
Ollama 是本地 AI 时代的“瑞士军刀”。它降低了大模型的使用门槛,让每个人都能在离线、隐私安全的环境下拥有自己的 AI 大脑。只要注意做好网络隔离,它就是目前最棒的本地模型运行方案。

