【python】字典数据结构的设计原理学习

游历發表於 2025-12-2 23:52:00

【python】字典数据结构的设计原理学习

<h1>先说结论：</h1>
python的dict，底层是哈希表（hash table）与开放寻址方案（二次探测 + 伪随机跳跃）
其中，
<h3>核心结构：哈希表是一个“数组”</h3>
每个 dict 底层对应一块数组（table），数组每个槽位（slot）可能存一个 key-value。
<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">index: 0 1 2 3 4 5 6 7
value:[ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ]</pre>
</div>
任何输入的key 会被哈希（hash(key)）
<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">d["abc"] = 123

# python会计算

h = hash("abc") →得到一个整数，如 918273645
slot = h % table_size →如 918273645 % 8 = 5
</pre>
</div>
于是 key 放到 槽位 5
<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">index: 0 1 2 3 4 5 6 7
value:[ ] [ ] [ ] [ ] [ ] [('abc',123)] [ ] [ ]</pre>
</div>
如果计算出的槽位已经被占用，dict 不会链表化存储，而是继续找下一个空槽位，其中会使用开放寻址（Open Addressing）
<div class="cnblogs_Highlighter">
<pre class="brush:python;gutter:true;">slot 6 空？ → 放这里
slot 6 也有人？ → 看 slot 7
</pre>
</div>
　　
dict 会控制“负载因子”（使用率），比如如果槽位使用率超过 ~2/3，自动扩容。扩容后空间很大，冲突变少，因此 dict 的性能保持 O(1)。
扩容操作：
<ul>
<li data-start="1085" data-end="1090">table 大小扩成原来的 2 倍</li>
<li data-start="1112" data-end="1143">
所有 key 重新哈希并放入新 table（rehash）
</li>
</ul>
 
看具体的应用场景：使用dict进行查找、插入操作，时间复杂度是O(1)
1. 查找过程
查找 <code data-start="1340" data-end="1348">d</code>：
<ol data-start="1351" data-end="1455">
<li data-start="1351" data-end="1366">
计算 hash(key)
</li>
<li data-start="1367" data-end="1399">
定位槽位 slot = hash % table_size
</li>
<li data-start="1400" data-end="1455">
看到槽位里是不是这个 key
<ul data-start="1423" data-end="1455">
<li data-start="1423" data-end="1433">
是 → 找到
</li>
<li data-start="1437" data-end="1455">
否 → 使用开放寻址规则继续探测
</li>
</ul>
</li>
</ol>
那么影响时间长短的，就要看hash算法的底层原理了，hash函数大致是位运算+随机化
<div class="cnblogs_code">
<pre>1 adict = {}
2 adict=value
3 if i not in adict: # i是否属于adict的key</pre>
</div>
 
 
 
 
 
　
  
来源：https://www.cnblogs.com/xiaojp65536/p/19299732

頁: [1]

圆梦公社's Archiver

【python】字典数据结构的设计原理学习