制作 Python Docker 镜像的最佳实践
<p><img src="https://img2023.cnblogs.com/other/3034537/202212/3034537-20221215103330357-2027299824.png"></p><h2 id="概述">概述</h2>
<blockquote>
<p>📚️<strong>Reference</strong>:</p>
<p>制作容器镜像的最佳实践</p>
</blockquote>
<p>这篇文章是关于制作 Python Docker 容器镜像的最佳实践。(2022 年 12 月更新)<br>
最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性。希望对各位有所帮助。</p>
<h2 id="通用-docker-容器镜像最佳实践">通用 Docker 容器镜像最佳实践</h2>
<p>这里也再次罗列一下对 Python Docker 镜像也适用的一些通用最佳实践。</p>
<ul>
<li>使用 <code>LABEL maintainer</code></li>
<li>标记重要端口</li>
<li>设置环境变量</li>
<li>使用非 root 用户运行容器进程</li>
<li>使用 <code>.dockerignore</code> 排除无关文件</li>
</ul>
<h3 id="python-镜像推荐设置的环境变量">Python 镜像推荐设置的环境变量</h3>
<p>Python 中推荐的常见环境变量如下:</p>
<pre><code class="language-Dockerfile"># 设置环境变量
ENV PYTHONDONTWRITEBYTECODE 1
ENV PYTHONUNBUFFERED 1
</code></pre>
<ol>
<li><code>ENV PYTHONDONTWRITEBYTECODE 1</code>: 建议构建 Docker 镜像时一直为 <code>1</code>, 防止 python 将 pyc 文件写入硬盘</li>
<li><code>ENV PYTHONUNBUFFERED 1</code>: 建议构建 Docker 镜像时一直为 <code>1</code>, 防止 python 缓冲 (buffering) stdout 和 stderr, 以便更容易地进行容器日志记录</li>
<li>❌不再建议使用 <code>ENV DEBUG 0</code> 环境变量,没必要。</li>
</ol>
<h3 id="使用非-root-用户运行容器进程">使用非 root 用户运行容器进程</h3>
<p>出于安全考虑,推荐运行 Python 程序前,创建 非 root 用户并切换到该用户。</p>
<pre><code class="language-Dockerfile"># 创建一个具有明确 UID 的非 root 用户,并增加访问 /app 文件夹的权限。
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser
</code></pre>
<h3 id="使用-dockerignore-排除无关文件">使用 <code>.dockerignore</code> 排除无关文件</h3>
<p>需要排除的无关文件一般如下:</p>
<pre><code class="language-.dockerignore">**/__pycache__
**/*venv
**/.classpath
**/.dockerignore
**/.env
**/.git
**/.gitignore
**/.project
**/.settings
**/.toolstarget
**/.vs
**/.vscode
**/*.*proj.user
**/*.dbmdl
**/*.jfm
**/bin
**/charts
**/docker-compose*
**/compose*
**/Dockerfile*
**/node_modules
**/npm-debug.log
**/obj
**/secrets.dev.yaml
**/values.dev.yaml
*.db
.python-version
LICENSE
README.md
</code></pre>
<p>这里选择几个说明下:</p>
<ol>
<li><code>**/__pycache__</code>: python 缓存目录</li>
<li><code>**/*venv</code>: Python 虚拟环境目录。很多 Python 开发习惯将虚拟环境目录创建在项目下,一般命名为:<code>.venv</code> 或 <code>venv</code></li>
<li><code>**/.env</code>: Python 环境变量文件</li>
<li><code>**/.git</code> <code>**/.gitignore</code>: git 相关目录和文件</li>
<li><code>**/.vscode</code>: 编辑器、IDE 相关目录</li>
<li><code>**/charts</code>: Helm Chart 相关文件</li>
<li><code>**/docker-compose*</code>: docker compose 相关文件</li>
<li><code>*.db</code>: 如果使用 sqllite 的相关数据库文件</li>
<li><code>.python-version</code>: pyenv 的 .python-version 文件</li>
</ol>
<h2 id="不建议使用-alpine-作为-python-的基础镜像">不建议使用 Alpine 作为 Python 的基础镜像</h2>
<p>为什么呢?大多数 Linux 发行版使用 GNU 版本(glibc)的标准 C 库,几乎每个 C 程序都需要这个库,包括 Python。但是 Alpine Linux 使用 musl, Alpine 禁用了 Linux wheel 支持。</p>
<p>理由如下:</p>
<ul>
<li>缺少大量依赖
<ul>
<li>CPython 语言运行时的相关依赖</li>
<li>openssl 相关依赖</li>
<li>libffi 相关依赖</li>
<li>gcc 相关依赖</li>
<li>数据库驱动相关依赖</li>
<li>pip 相关依赖</li>
</ul>
</li>
<li>构建可能更耗时
<ul>
<li>Alpine Linux 使用 musl,一些二进制 wheel 是针对 glibc 编译的,但是 Alpine 禁用了 Linux wheel 支持。现在大多数 Python 包都包括 PyPI 上的二进制 wheel,大大加快了安装时间。但是如果你使用 Alpine Linux,你可能需要编译你使用的每个 Python 包中的所有 C 代码。</li>
</ul>
</li>
<li>基于 Alpine 构建的 Python 镜像反而可能更大
<ul>
<li>乍一听似乎违反常识,但是仔细一想,因为上面罗列的原因,确实会导致镜像更大的情况。</li>
</ul>
</li>
</ul>
<blockquote>
<p>📚️<strong>Reference:</strong></p>
<p>Using Alpine can make Python Docker builds 50× slower (pythonspeed.com)</p>
</blockquote>
<p>这里以这个 Demo FastAPI Python 程序 为例,其基于 Alpine 的 Dockerfile 地址是这个:https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.alpine</p>
<p>因为缺少很多依赖,所以在用 pip 安装之前,就需要尽可能全地安装相关依赖:</p>
<pre><code class="language-Dockerfile">RUN set -eux \
&& apk add --no-cache --virtual .build-deps build-base \
openssl-dev libffi-dev gcc musl-dev python3-dev \
&& pip install --upgrade pip setuptools wheel \
&& pip install --upgrade -r /app/requirements.txt \
&& rm -rf /root/.cache/pip
</code></pre>
<p>这里也展示一下基于 Alpine 构建完成后的 镜像未压缩大小:</p>
<p><img src="https://img2023.cnblogs.com/other/3034537/202212/3034537-20221215103330835-1103341190.png"></p>
<p>△ 基于 Alpine 的 Python Demo 镜像大小:472 MB; 相比之下,基于 slim 的只有 189 MB</p>
<p>在上面代码的这一步,就占用了太多空间:</p>
<blockquote>
<p>🤔<strong>思考</strong>:</p>
<p>可能上面一段可以精简,但是要判断对于哪个 Python 项目,可以精简哪些包,实在是太难了。</p>
</blockquote>
<pre><code>+ apk add --no-cache --virtual .build-deps build-base openssl-dev libffi-dev gcc musl-dev python3-dev
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/main/x86_64/APKINDEX.tar.gz
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/community/x86_64/APKINDEX.tar.gz
(1/28) Installing libgcc (12.2.1_git20220924-r4)
(2/28) Installing libstdc++ (12.2.1_git20220924-r4)
(3/28) Installing binutils (2.39-r2)
(4/28) Installing libmagic (5.43-r0)
(5/28) Installing file (5.43-r0)
(6/28) Installing libgomp (12.2.1_git20220924-r4)
(7/28) Installing libatomic (12.2.1_git20220924-r4)
(8/28) Installing gmp (6.2.1-r2)
(9/28) Installing isl25 (0.25-r0)
(10/28) Installing mpfr4 (4.1.0-r0)
(11/28) Installing mpc1 (1.2.1-r1)
(12/28) Installing gcc (12.2.1_git20220924-r4)
(13/28) Installing libstdc++-dev (12.2.1_git20220924-r4)
(14/28) Installing musl-dev (1.2.3-r4)
(15/28) Installing libc-dev (0.7.2-r3)
(16/28) Installing g++ (12.2.1_git20220924-r4)
(17/28) Installing make (4.3-r1)
(18/28) Installing fortify-headers (1.1-r1)
(19/28) Installing patch (2.7.6-r8)
(20/28) Installing build-base (0.5-r3)
(21/28) Installing pkgconf (1.9.3-r0)
(22/28) Installing openssl-dev (3.0.7-r0)
(23/28) Installing linux-headers (5.19.5-r0)
(24/28) Installing libffi-dev (3.4.4-r0)
(25/28) Installing mpdecimal (2.5.1-r1)
(26/28) Installing python3 (3.10.9-r1)
(27/28) Installing python3-dev (3.10.9-r1)
(28/28) Installing .build-deps (20221214.074929)
Executing busybox-1.35.0-r29.trigger
OK: 358 MiB in 65 packages
...
</code></pre>
<h2 id="建议使用官方的-python-slim-镜像作为基础镜像">建议使用官方的 python slim 镜像作为基础镜像</h2>
<p>继续上面,所以我是建议:使用官方的 python slim 镜像作为基础镜像</p>
<p>镜像库是这个:https://hub.docker.com/_/python</p>
<p>并且使用 <code>python:<version>-slim</code> 作为基础镜像,能用 <code>python:<version>-slim-bullseye</code> 作为基础镜像更好(因为更新,相对就更安全一些).</p>
<p>这个镜像不包含默认标签中的常用包,只包含运行 python 所需的最小包。这个镜像是基于 Debian 的。</p>
<p>使用官方 python slim 的理由还包括:</p>
<ul>
<li>稳定性</li>
<li>安全升级更及时</li>
<li>依赖更新更及时</li>
<li>依赖更全</li>
<li>Python 版本升级更及时</li>
<li>镜像更小</li>
</ul>
<blockquote>
<p>📚️<strong>Reference:</strong></p>
<p>The best Docker base image for your Python application (Sep 2022) (pythonspeed.com)</p>
</blockquote>
<h2 id="一般情况下python-镜像构建不需要使用多阶段构建">一般情况下,Python 镜像构建不需要使用"多阶段构建"</h2>
<p>一般情况下,Python 镜像构建不需要使用"多阶段构建".</p>
<p>理由如下:</p>
<ul>
<li>Python 没有像 Golang 一样,可以把所有依赖打成一个单一的二进制包</li>
<li>Python 也没有像 Java 一样,可以在 JDK 上构建,在 JRE 上运行</li>
<li>Python 复杂而散落的依赖关系,在"多阶段构建"时会增加复杂度</li>
<li>...</li>
</ul>
<p>如果有一些特殊情况,可以尝试使用"多阶段构建"压缩镜像体积:</p>
<ul>
<li>构建阶段需要安装编译器</li>
<li>Python 项目复杂,用到了其他语言代码(如 C/C++/Rust)</li>
</ul>
<h2 id="pip-小技巧">pip 小技巧</h2>
<p>使用 pip 安装依赖时,可以添加 <code>--no-cache-dir</code> 减少镜像体积:</p>
<pre><code class="language-Dockerfile"># 安装 pip 依赖
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt
</code></pre>
<h2 id="python-dockerfile-最佳实践样例">Python Dockerfile 最佳实践样例</h2>
<p>最后, 就是基于以上最佳实践的完整样例, 也可以在这里找到: https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.slim</p>
<pre><code class="language-Dockerfile">FROM python:3.10-slim
LABEL maintainer="cuikaidong@foxmail.com"
EXPOSE 8000
# Keeps Python from generating .pyc files in the container
ENV PYTHONDONTWRITEBYTECODE=1
# Turns off buffering for easier container logging
ENV PYTHONUNBUFFERED=1
# Install pip requirements
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt
WORKDIR /app
COPY . /app
# Creates a non-root user with an explicit UID and adds permission to access the /app folder
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser
CMD ["uvicorn", "shortener_app.main:app", "--host", "0.0.0.0"]
</code></pre>
<h2 id="总结">总结</h2>
<p>制作 Python Docker 容器镜像的最佳实践。最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性.</p>
<p>最佳实践如下:</p>
<ul>
<li>推荐 2 个 Python 的环境变量
<ul>
<li><code>ENV PYTHONDONTWRITEBYTECODE 1</code></li>
<li><code>ENV PYTHONUNBUFFERED 1</code></li>
</ul>
</li>
<li>使用非 root 用户运行容器进程</li>
<li>使用 <code>.dockerignore</code> 排除无关文件</li>
<li>不建议使用 Alpine 作为 Python 的基础镜像</li>
<li>建议使用官方的 python slim 镜像作为基础镜像</li>
<li>一般情况下, Python 镜像构建不需要使用"多阶段构建"</li>
<li>pip 小技巧: <code>--no-cache-dir</code></li>
</ul>
<p>希望对大家有所帮助.</p>
<p>最后也感叹一下, 在云原生时代, python 在分发这块, 特别是镜像构建这块, 确实体验、效率、镜像大小等方面差 golang 太多了。😭😭😭</p>
<h2 id="️参考文档">📚️参考文档</h2>
<ul>
<li>Using Alpine can make Python Docker builds 50× slower (pythonspeed.com)</li>
<li>The best Docker base image for your Python application (Sep 2022) (pythonspeed.com)</li>
<li>Multi-stage builds #2: Python specifics (pythonspeed.com)</li>
<li>制作容器镜像的最佳实践 - 东风微鸣技术博客 (ewhisper.cn)</li>
</ul>
<blockquote>
<p><em>三人行, 必有我师; 知识共享, 天下为公.</em>本文由东风微鸣技术博客 EWhisper.cn 编写.</p>
</blockquote><br><br>
来源:https://www.cnblogs.com/east4ming/p/16984437.html
頁:
[1]