智能体demo本地化

性凉薄 發表於 2026-2-24 11:51:00

上次开发的智能体demo向量数据库和模型都是使用的huggingface的，需要上网才能正常使用，这次都改成本地，实现离线智能体应用开发，更加安全方便。
也是通过cursor完成的。
首先需要1安装ollama，然后是2拉取模型，3运行模型，最后4修改程序，5运行程序即可。
1、参照官网https://docs.ollama.com/
2、ollama pull qwen2.5:7b
3、ollama run qwen2.5:7b
4、修改如下：
<div class="cnblogs_code">
<pre># agent.py
import os
import requests
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
# from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.embeddings import OllamaEmbeddings
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# 1. 加载并切分文档
loader = TextLoader("password-cn.txt", encoding="utf-8")
docs = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(docs)

# 2. 创建向量数据库（首次运行会自动 embedding）
# vectorstore = Chroma.from_documents(
# documents=splits,
# embedding=HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
# )
# 替换顶部 import

# 替换创建 vectorstore 的地方
embedding = OllamaEmbeddings(
model="qwen2.5:7b"# 这里填你在 Ollama 里实际安装的模型名，比如 "qwen2.5:7b"
)

vectorstore = Chroma.from_documents(
documents=splits,
embedding=embedding
)
retriever = vectorstore.as_retriever()

# 3. 设置本地大模型
# 优先使用 Ollama，如果不可用则提示用户安装
try:
# 检查 Ollama 服务是否可用
response = requests.get("http://localhost:11434/api/tags", timeout=2)
if response.status_code == 200:
 # 获取已安装的模型列表
 models_data = response.json()
 available_models = )]

 if not available_models:
 raise RuntimeError("Ollama 中没有安装任何模型")

 # 优先使用的模型列表（按优先级排序）
 preferred_models = ["qwen2.5:7b", "qwen2.5:14b", "llama3.2:3b", "llama3:latest", "mistral:7b"]

 # 选择模型：优先使用 preferred_models 中已安装的，否则使用第一个可用模型
 selected_model = None
 for preferred in preferred_models:
 # 检查精确匹配
 if preferred in available_models:
 selected_model = preferred
 break
 # 检查部分匹配（如 preferred="llama3:latest" 匹配 available="llama3"）
 preferred_base = preferred.split(":")
 for available in available_models:
 if available.startswith(preferred_base + ":") or available == preferred_base:
 selected_model = available
 break
 if selected_model:
 break

 if not selected_model:
 selected_model = available_models

 from langchain_community.chat_models import ChatOllama
 llm = ChatOllama(
 model=selected_model,
 base_url="http://localhost:11434",# Ollama 默认地址
 )
 print(f"✓ 使用 Ollama 本地模型: {selected_model}")
 if selected_model not in preferred_models[:3]:# 如果不是前3个推荐模型
 print(f"💡 提示: 推荐安装 qwen2.5:7b 以获得更好的中文支持")
 print(f" 运行: ollama pull qwen2.5:7b")
else:
 raise ConnectionError("Ollama 服务未响应")
except requests.exceptions.ConnectionError as e:
# Ollama 服务不可用
error_msg = """
╔═══════════════════════════════════════════════════════════════╗
║❌ Ollama 服务未运行或未安装！ ║
╚═══════════════════════════════════════════════════════════════╝

请按以下步骤操作：

1️⃣安装 Ollama：
• 访问 https://ollama.ai 下载安装
• 或使用 Homebrew: brew install ollama

2️⃣启动 Ollama 服务（安装后通常会自动启动）：
ollama serve

3️⃣下载模型（选择一个）：
ollama pull qwen2.5:7b # 推荐：中文支持好（约 4.7GB）
# 或
ollama pull llama3.2:3b # 更小更快（约 2GB）

4️⃣重新运行应用

═══════════════════════════════════════════════════════════════
"""
print(error_msg)
raise RuntimeError("Ollama 服务不可用。请先安装并启动 Ollama。")
except requests.exceptions.Timeout as e:
error_msg = "❌ 连接 Ollama 服务超时，请确保 Ollama 正在运行"
print(error_msg)
raise RuntimeError(error_msg)
except Exception as e:
# 其他错误（如模型不存在）
error_msg = f"""
╔═══════════════════════════════════════════════════════════════╗
║❌ 初始化 Ollama 模型时出错 ║
╚═══════════════════════════════════════════════════════════════╝

错误信息: {str(e)}

请确保：
1. Ollama 服务正在运行
2. 至少安装了一个模型（运行: ollama pull <模型名>）

═══════════════════════════════════════════════════════════════
"""
print(error_msg)
raise

# 4. 构建 RAG 链（Retrieval-Augmented Generation）
template = """
你是一个私人顾问，请根据以下上下文回答问题。
如果不知道答案，请说“根据现有文档无法回答”，不要编造。

上下文：
{context}

问题：
{question}
"""
prompt = ChatPromptTemplate.from_template(template)

rag_chain = (
{"context": retriever, "question": RunnablePassthrough()}
| prompt
| llm
| StrOutputParser()
)

# 5. 提供调用函数
# Gradio ChatInterface 默认会把 (message, history) 作为两个参数传进来
def ask_question(message: str, history=None) -> str:
# 我们这里只关心当前用户问题 message，忽略 history
return rag_chain.invoke(message)</pre>
</div>
5、python app.py
想要查看app.py完整代码，可以看上一篇随笔
  
来源：https://www.cnblogs.com/jicing/p/19632993

頁: [1]

圆梦公社's Archiver

智能体demo本地化