Ollama API 入门指南从零开始掌握本地大模型调用技巧

什么是 Ollama？

Ollama 是一个开源的本地大语言模型（LLM）运行框架，它允许用户在本地计算机上轻松部署和运行各种开源大模型，如 Llama 2、Mistral、Code Llama 等。Ollama 的核心优势在于：

本地运行：所有计算都在本地完成，数据隐私得到保障
简单易用：提供简洁的命令行工具和 REST API
模型管理：支持模型的下载、更新和版本管理
跨平台：支持 macOS、Linux 和 Windows

环境准备

系统要求

操作系统：macOS 10.15+、Linux（Ubuntu 20.04+、CentOS 7+）、Windows ¹⁰⁄₁₁
内存：至少 8GB RAM（推荐 16GB+）
存储空间：至少 20GB 可用空间（模型文件较大）
CPU：x86_64 或 ARM64 架构
GPU（可选）：NVIDIA GPU（CUDA 支持）可显著提升性能

安装 Ollama

macOS

# 使用 Homebrew 安装
brew install ollama

# 或者直接下载安装包
curl -fsSL https://ollama.ai/install.sh | sh

Linux (Ubuntu/Debian)

# 使用官方安装脚本
curl -fsSL https://ollama.ai/install.sh | sh

# 或者使用包管理器
sudo apt update
sudo apt install ollama

Windows

# 下载安装程序
# 访问 https://ollama.ai/download 下载 Windows 安装程序
# 或者使用 Winget
winget install Ollama.Ollama

验证安装

安装完成后，打开终端并运行：

ollama --version

如果看到版本号输出，说明安装成功。

模型管理

查看可用模型

Ollama 提供了一个模型库，包含各种预训练模型：

ollama list

这将列出已安装的模型。

下载模型

Ollama 支持多种模型，以下是一些常用模型：

1. Llama 2 系列

# 7B 参数版本（较小，适合普通电脑）
ollama pull llama2:7b

# 13B 参数版本
ollama pull llama2:13b

# 70B 参数版本（需要强大硬件）
ollama pull llama2:70b

2. Mistral 系列

# Mistral 7B
ollama pull mistral:7b

# Mistral 8x7B（混合专家模型）
ollama pull mixtral:8x7b

3. Code Llama（代码生成专用）

# 7B 版本
ollama pull codellama:7b

# 13B 版本
ollama pull codellama:13b

4. 其他流行模型

# Phi-2（微软的小型模型）
ollama pull phi:2.7b

# Gemma（Google 的模型）
ollama pull gemma:2b
ollama pull gemma:7b

模型管理命令

# 查看已安装模型
ollama list

# 查看模型详情
ollama show <model_name>

# 删除模型
ollama rm <model_name>

# 更新模型
ollama pull <model_name>

Ollama API 基础使用

启动 Ollama 服务

Ollama 默认在安装后会自动启动服务。如果需要手动启动：

ollama serve

服务默认在 http://localhost:11434 上运行。

基本 API 调用

1. 使用 curl 调用 API

# 简单的文本生成
curl http://localhost:11434/api/generate -d '{
  "model": "llama2:7b",
  "prompt": "为什么天空是蓝色的？",
  "stream": false
}'

2. 使用 Python 调用 API

首先安装 requests 库：

pip install requests

然后创建 Python 脚本：

import requests
import json

def generate_text(model, prompt, stream=False):
    """
    调用 Ollama API 生成文本
    
    Args:
        model (str): 模型名称
        prompt (str): 输入提示
        stream (bool): 是否流式输出
    
    Returns:
        dict: API 响应
    """
    url = "http://localhost:11434/api/generate"
    
    payload = {
        "model": model,
        "prompt": prompt,
        "stream": stream
    }
    
    try:
        response = requests.post(url, json=payload)
        response.raise_for_status()  # 检查请求是否成功
        
        if stream:
            # 流式响应处理
            for line in response.iter_lines():
                if line:
                    data = json.loads(line)
                    print(data.get('response', ''), end='', flush=True)
            print()
            return None
        else:
            # 非流式响应
            return response.json()
            
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return None

# 使用示例
if __name__ == "__main__":
    # 非流式调用
    result = generate_text("llama2:7b", "解释一下什么是量子计算")
    if result:
        print("完整响应:", result.get('response', ''))
    
    # 流式调用
    print("\n流式输出示例:")
    generate_text("llama2:7b", "写一个简单的Python函数计算斐波那契数列", stream=True)

API 参数详解

生成参数

# 完整的参数示例
payload = {
    "model": "llama2:7b",
    "prompt": "你的问题或指令",
    "system": "你是一个专业的助手",  # 系统提示词
    "template": "{{ .Prompt }}",  # 自定义模板
    "context": [1, 2, 3, 4],  # 上下文ID（用于对话记忆）
    "stream": False,  # 是否流式输出
    "raw": False,  # 是否原始输出（不经过模板处理）
    "format": "json",  # 输出格式（json 或 text）
    "options": {
        "temperature": 0.7,  # 温度参数（0-2，越高越随机）
        "top_k": 40,  # top-k 采样
        "top_p": 0.9,  # top-p 采样
        "num_predict": 128,  # 生成的最大token数
        "num_ctx": 2048,  # 上下文窗口大小
        "num_gpu": 1,  # 使用的GPU数量
        "main_gpu": 0,  # 主GPU索引
        "low_vram": False,  # 低显存模式
        "f16_kv": True,  # 使用16位浮点数存储KV缓存
        "use_mmap": True,  # 使用内存映射
        "use_mlock": False,  # 锁定内存
        "num_thread": 0,  # CPU线程数（0为自动）
        "repeat_penalty": 1.1,  # 重复惩罚
        "tfs_z": 1.0,  # 尾部自由采样
        "typical_p": 1.0,  # 典型性采样
        "keep_alive": 5,  # 保持模型在内存中的时间（分钟）
    }
}

参数说明表

参数	类型	默认值	说明
temperature	float	0.8	控制输出随机性，0为确定性，2为高度随机
top_k	int	40	限制候选词数量
top_p	float	0.9	核采样，累积概率阈值
num_predict	int	128	最大生成token数
num_ctx	int	2048	上下文窗口大小
repeat_penalty	float	1.1	重复惩罚，>1减少重复

高级功能

1. 对话历史管理

import requests
import json

class OllamaChat:
    def __init__(self, model="llama2:7b"):
        self.model = model
        self.context = []  # 存储对话上下文
        self.url = "http://localhost:11434/api/generate"
    
    def chat(self, prompt, system=None, stream=False):
        """
        带上下文的对话
        
        Args:
            prompt (str): 用户输入
            system (str): 系统提示词
            stream (bool): 是否流式输出
        """
        payload = {
            "model": self.model,
            "prompt": prompt,
            "context": self.context,
            "stream": stream
        }
        
        if system:
            payload["system"] = system
        
        response = requests.post(self.url, json=payload)
        
        if stream:
            # 流式处理
            full_response = ""
            for line in response.iter_lines():
                if line:
                    data = json.loads(line)
                    chunk = data.get('response', '')
                    print(chunk, end='', flush=True)
                    full_response += chunk
                    # 更新上下文
                    if 'context' in data:
                        self.context = data['context']
            print()
            return full_response
        else:
            # 非流式处理
            data = response.json()
            self.context = data.get('context', [])
            return data.get('response', '')

# 使用示例
chat = OllamaChat("llama2:7b")

# 第一轮对话
print("用户: 你好，我叫小明")
response1 = chat.chat("你好，我叫小明", system="你是一个友好的助手")
print(f"助手: {response1}")

# 第二轮对话（记住上下文）
print("\n用户: 你还记得我的名字吗？")
response2 = chat.chat("你还记得我的名字吗？")
print(f"助手: {response2}")

2. 嵌入向量生成

Ollama 还支持生成文本嵌入向量，用于语义搜索、RAG（检索增强生成）等应用：

def generate_embedding(text, model="nomic-embed-text"):
    """
    生成文本嵌入向量
    
    Args:
        text (str): 输入文本
        model (str): 嵌入模型名称
    
    Returns:
        list: 嵌入向量
    """
    url = "http://localhost:11434/api/embed"
    
    payload = {
        "model": model,
        "input": text
    }
    
    response = requests.post(url, json=payload)
    data = response.json()
    
    # 返回嵌入向量
    return data['embeddings'][0]

# 使用示例
embedding = generate_embedding("这是一个测试文本")
print(f"嵌入向量维度: {len(embedding)}")
print(f"前5个值: {embedding[:5]}")

3. 模型自定义与微调

Ollama 支持自定义模型配置，你可以创建自己的模型文件：

创建 Modelfile

# 创建一个名为 MyModel 的模型
cat > MyModel.modelfile << 'EOF'
FROM llama2:7b
# 系统提示词
SYSTEM """你是一个专业的Python编程助手，专门帮助解决Python编程问题。"""

# 模板
TEMPLATE """{{ if .System }}{{ .System }}{{ end }}
{{ if .Prompt }}{{ .Prompt }}{{ end }}"""

# 参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_predict 256
EOF

创建自定义模型

# 创建模型
ollama create my-model -f MyModel.modelfile

# 使用自定义模型
ollama run my-model "写一个Python函数"

4. 批量处理与性能优化

批量生成

def batch_generate(prompts, model="llama2:7b", max_concurrent=3):
    """
    批量生成文本
    
    Args:
        prompts (list): 提示词列表
        model (str): 模型名称
        max_concurrent (int): 最大并发数
    
    Returns:
        list: 生成结果列表
    """
    import concurrent.futures
    
    def generate_single(prompt):
        try:
            response = requests.post(
                "http://localhost:11434/api/generate",
                json={
                    "model": model,
                    "prompt": prompt,
                    "stream": False,
                    "options": {
                        "temperature": 0.7,
                        "num_predict": 128
                    }
                },
                timeout=30
            )
            return response.json().get('response', '')
        except Exception as e:
            print(f"生成失败: {e}")
            return ""
    
    results = []
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_concurrent) as executor:
        future_to_prompt = {
            executor.submit(generate_single, prompt): prompt 
            for prompt in prompts
        }
        
        for future in concurrent.futures.as_completed(future_to_prompt):
            prompt = future_to_prompt[future]
            try:
                result = future.result()
                results.append(result)
            except Exception as e:
                print(f"处理失败: {e}")
                results.append("")
    
    return results

# 使用示例
prompts = [
    "解释什么是机器学习",
    "Python中如何处理异常",
    "什么是REST API"
]

results = batch_generate(prompts)
for i, (prompt, result) in enumerate(zip(prompts, results)):
    print(f"问题 {i+1}: {prompt}")
    print(f"回答: {result}\n")

性能优化技巧

使用 GPU 加速：确保安装了 CUDA 驱动
调整上下文窗口：根据需求调整 num_ctx 参数
使用低显存模式：对于显存有限的设备，启用 low_vram: true
模型量化：使用量化版本的模型（如 llama2:7b-q4_0）
预热模型：在应用启动时预加载模型

实际应用案例

案例1：构建本地聊天机器人

from flask import Flask, request, jsonify
import requests
import json

app = Flask(__name__)

class LocalChatBot:
    def __init__(self, model="llama2:7b"):
        self.model = model
        self.conversations = {}  # 存储不同用户的对话
    
    def get_response(self, user_id, message):
        if user_id not in self.conversations:
            self.conversations[user_id] = {
                "context": [],
                "history": []
            }
        
        # 获取当前对话上下文
        context = self.conversations[user_id]["context"]
        
        # 调用 Ollama API
        url = "http://localhost:11434/api/generate"
        payload = {
            "model": self.model,
            "prompt": message,
            "context": context,
            "system": "你是一个友好的助手，用中文回答问题",
            "stream": False,
            "options": {
                "temperature": 0.7,
                "num_predict": 256
            }
        }
        
        try:
            response = requests.post(url, json=payload, timeout=30)
            data = response.json()
            
            # 更新上下文
            self.conversations[user_id]["context"] = data.get('context', [])
            self.conversations[user_id]["history"].append({
                "user": message,
                "assistant": data.get('response', '')
            })
            
            return data.get('response', '')
            
        except Exception as e:
            return f"抱歉，我遇到了问题: {str(e)}"

# 初始化聊天机器人
chat_bot = LocalChatBot()

@app.route('/chat', methods=['POST'])
def chat():
    data = request.json
    user_id = data.get('user_id', 'default')
    message = data.get('message', '')
    
    if not message:
        return jsonify({"error": "消息不能为空"}), 400
    
    response = chat_bot.get_response(user_id, message)
    return jsonify({"response": response})

@app.route('/history/<user_id>', methods=['GET'])
def get_history(user_id):
    if user_id in chat_bot.conversations:
        return jsonify(chat_bot.conversations[user_id]["history"])
    else:
        return jsonify({"error": "用户不存在"}), 404

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000, debug=True)

案例2：本地文档问答系统

import requests
import json
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

class LocalRAGSystem:
    def __init__(self, embedding_model="nomic-embed-text", llm_model="llama2:7b"):
        self.embedding_model = embedding_model
        self.llm_model = llm_model
        self.documents = []  # 存储文档和嵌入向量
    
    def add_document(self, text, metadata=None):
        """添加文档到知识库"""
        # 生成嵌入向量
        embedding = self.generate_embedding(text)
        
        self.documents.append({
            "text": text,
            "embedding": embedding,
            "metadata": metadata or {}
        })
    
    def generate_embedding(self, text):
        """生成文本嵌入"""
        url = "http://localhost:11434/api/embed"
        payload = {
            "model": self.embedding_model,
            "input": text
        }
        
        response = requests.post(url, json=payload)
        data = response.json()
        return data['embeddings'][0]
    
    def retrieve_documents(self, query, top_k=3):
        """检索相关文档"""
        query_embedding = self.generate_embedding(query)
        
        # 计算相似度
        similarities = []
        for doc in self.documents:
            sim = cosine_similarity(
                [query_embedding],
                [doc['embedding']]
            )[0][0]
            similarities.append((sim, doc))
        
        # 排序并返回top_k
        similarities.sort(reverse=True, key=lambda x: x[0])
        return similarities[:top_k]
    
    def answer_question(self, query):
        """回答问题"""
        # 检索相关文档
        relevant_docs = self.retrieve_documents(query)
        
        # 构建上下文
        context = "\n\n".join([doc['text'] for _, doc in relevant_docs])
        
        # 构建提示词
        prompt = f"""基于以下上下文信息回答问题。如果上下文没有相关信息，请说"我不知道"。

上下文:
{context}

问题: {query}

回答:"""
        
        # 调用LLM
        url = "http://localhost:11434/api/generate"
        payload = {
            "model": self.llm_model,
            "prompt": prompt,
            "stream": False,
            "options": {
                "temperature": 0.3,
                "num_predict": 512
            }
        }
        
        response = requests.post(url, json=payload)
        data = response.json()
        
        return {
            "answer": data.get('response', ''),
            "relevant_docs": [doc['text'] for _, doc in relevant_docs],
            "similarities": [sim for sim, _ in relevant_docs]
        }

# 使用示例
rag_system = LocalRAGSystem()

# 添加文档
documents = [
    "Python是一种高级编程语言，由Guido van Rossum于1991年创建。",
    "Python支持多种编程范式，包括面向对象、函数式和过程式编程。",
    "Python的语法简洁易读，适合初学者学习。",
    "Python有丰富的标准库和第三方库，广泛应用于Web开发、数据分析、人工智能等领域。",
    "Python是解释型语言，代码在运行时逐行解释执行。"
]

for doc in documents:
    rag_system.add_document(doc)

# 问答测试
questions = [
    "Python是什么时候创建的？",
    "Python适合初学者吗？",
    "Python主要用于哪些领域？"
]

for question in questions:
    print(f"问题: {question}")
    result = rag_system.answer_question(question)
    print(f"回答: {result['answer']}")
    print(f"相关文档: {result['relevant_docs']}")
    print("-" * 50)

常见问题与解决方案

1. 模型下载失败

# 解决方案1：检查网络连接
ping ollama.ai

# 解决方案2：使用镜像源（中国用户）
export OLLAMA_HOST="https://ollama.cn"
ollama pull llama2:7b

# 解决方案3：手动下载模型文件
# 访问 https://huggingface.co/ 下载模型文件
# 然后使用 ollama create 命令创建模型

2. 内存不足错误

# 解决方案1：使用更小的模型
ollama pull llama2:7b-q4_0  # 4位量化版本

# 解决方案2：调整运行参数
ollama run llama2:7b --options '{"low_vram": true}'

# 解决方案3：关闭其他占用内存的应用

3. API 调用超时

# 增加超时时间
response = requests.post(url, json=payload, timeout=60)

# 或者使用异步调用
import asyncio
import aiohttp

async def async_generate(prompt):
    async with aiohttp.ClientSession() as session:
        async with session.post(url, json=payload) as response:
            return await response.json()

4. 模型响应质量不佳

# 调整参数
options = {
    "temperature": 0.5,  # 降低温度，使输出更确定
    "top_p": 0.95,       # 提高top_p，增加多样性
    "num_predict": 512,  # 增加生成长度
    "repeat_penalty": 1.2,  # 增加重复惩罚
}

# 使用更好的提示词工程
prompt = """你是一个专业的助手。请用清晰、简洁、准确的方式回答问题。
问题: {question}
回答:"""

性能监控与调试

监控 Ollama 服务状态

# 查看服务状态
ollama ps

# 查看运行日志
ollama logs

# 查看系统资源使用
# macOS/Linux
top -o %CPU | grep ollama
htop

# Windows
tasklist | findstr ollama

Python 监控脚本

import psutil
import time
import requests

def monitor_ollama():
    """监控 Ollama 服务状态"""
    while True:
        try:
            # 检查服务是否响应
            response = requests.get("http://localhost:11434/api/tags", timeout=5)
            status = "运行中" if response.status_code == 200 else "异常"
            
            # 获取系统资源
            cpu_percent = psutil.cpu_percent(interval=1)
            memory = psutil.virtual_memory()
            
            print(f"时间: {time.strftime('%Y-%m-%d %H:%M:%S')}")
            print(f"Ollama 状态: {status}")
            print(f"CPU 使用率: {cpu_percent}%")
            print(f"内存使用: {memory.percent}% ({memory.used / 1024**3:.2f} GB / {memory.total / 1024**3:.2f} GB)")
            print("-" * 50)
            
        except Exception as e:
            print(f"监控失败: {e}")
        
        time.sleep(5)

if __name__ == "__main__":
    monitor_ollama()

最佳实践

1. 安全考虑

本地运行：确保 Ollama 服务只在本地运行，不要暴露到公网
防火墙设置：如果需要远程访问，使用 SSH 隧道
模型验证：只使用可信来源的模型文件

2. 性能优化

使用量化模型：4位或8位量化模型可以显著减少内存占用
批处理：对于大量请求，使用批处理提高效率
缓存机制：对常见问题实现缓存，减少重复计算

3. 开发建议

错误处理：始终处理网络错误和超时
日志记录：记录 API 调用和错误信息
版本控制：记录使用的模型版本和参数配置

4. 资源管理

定期清理：删除不再使用的模型
监控资源：定期检查内存和CPU使用情况
备份配置：备份自定义的 Modelfile

总结

Ollama 提供了一个强大而简单的框架，让本地大模型的使用变得触手可及。通过本指南，你已经掌握了：

基础安装与配置：如何在不同平台安装 Ollama
模型管理：下载、管理和使用各种开源模型
API 调用：使用 curl 和 Python 调用 Ollama API
高级功能：对话历史、嵌入向量、自定义模型
实际应用：构建聊天机器人和文档问答系统
问题解决：常见问题的诊断和解决方法

随着你对 Ollama 的深入使用，可以探索更多高级功能，如模型微调、分布式推理、与其他工具的集成等。本地大模型为隐私敏感的应用场景提供了理想的解决方案，同时也在不断降低使用门槛，让 AI 技术更加普惠。

下一步建议：

尝试不同的模型，找到最适合你需求的模型
将 Ollama 集成到你的现有应用中
探索 Ollama 社区，获取更多使用技巧和案例
关注 Ollama 的更新，获取最新功能和改进

Ollama API 入门指南 从零开始掌握本地大模型调用技巧