肚肚 發表於 2022-12-2 09:42:00

使用.NET7和C#11打造最快的序列化程序-以MemoryPack为例

<h2 id="译者注">译者注</h2>
<p>本文是一篇不可多得的好文,MemoryPack 的作者 neuecc 大佬通过本文解释了他是如何将序列化程序性能提升到极致的;其中从很多方面(可变长度、字符串、集合等)解释了一些性能优化的技巧,值得每一个开发人员学习,特别是框架的开发人员的学习,一定能让大家获益匪浅。</p>
<h2 id="简介">简介</h2>
<p>我发布了一个名为MemoryPack 的新序列化程序,这是一种特定于 C# 的新序列化程序,其执行速度比其他序列化程序快得多。</p>
<p><img src="https://incerry-blog-imgs.oss-cn-hangzhou.aliyuncs.com/1669820104-1f058f2ff8837cc915449f2068fbbc24.png" alt="" loading="lazy"></p>
<p>与MessagePack for C# (一个快速的二进制序列化程序)相比标准对象的序列化库性能快几倍,当数据最优时,性能甚至快 50~100 倍。最好的支持是.NET 7,但现在支持.NET Standard 2.1(.NET 5,6),Unity 甚至 TypeScript。它还支持多态性(Union),完整版本容错,循环引用和最新的现代 I/O API(IBufferWriter,ReadOnlySeqeunce,Pipelines)。</p>
<p>序列化程序的性能基于“数据格式规范”和“每种语言的实现”。例如,虽然二进制格式通常比文本格式(如 JSON)具有优势,但 JSON 序列化程序可能比二进制序列化程序更快(如Utf8Json 所示)。那么最快的序列化程序是什么?当你同时了解规范和实现时,真正最快的序列化程序就诞生了。</p>
<p>多年来,我一直在开发和维护 MessagePack for C#,而 MessagePack for C# 是 .NET 世界中非常成功的序列化程序,拥有超过 4000 颗 GitHub 星。它也已被微软标准产品采用,如 Visual Studio 2022,SignalR MessagePack Hub协议和 Blazor Server 协议(blazorpack)。</p>
<p>在过去的 5 年里,我还处理了近 1000 个问题。自 5 年前以来,我一直在使用 Roslyn 的代码生成器进行 AOT 支持,并对其进行了演示,尤其是在 Unity、AOT 环境 (IL2CPP) 以及许多使用它的 Unity 手机游戏中。</p>
<p>除了 MessagePack for C# 之外,我还创建了ZeroFormatter(自己的格式)和Utf8Json(JSON)等序列化程序,它们获得了许多 GitHub Star,所以我对不同格式的性能特征有深刻的理解。此外,我还参与了 RPC 框架MagicOnion,内存数据库MasterMemory,PubSub 客户端AlterNats以及几个游戏的客户端(Unity)/服务器实现的创建。</p>
<p>MemoryPack 的目标是成为终极的快速,实用和多功能的序列化程序。我想我做到了。</p>
<h2 id="增量源生成器">增量源生成器</h2>
<p>MemoryPack 完全采用 .NET 6 中增强的增量源生成器。在用法方面,它与 C# 版 MessagePack 没有太大区别,只是将目标类型更改为部分类型。</p>
<pre><code class="language-cs">using MemoryPack;

// Source Generator makes serialize/deserialize code

public partial class Person
{
    public int Age { get; set; }
    public string Name { get; set; }
}

// usage
var v = new Person { Age = 40, Name = "John" };

var bin = MemoryPackSerializer.Serialize(v);
var val = MemoryPackSerializer.Deserialize&lt;Person&gt;(bin);
</code></pre>
<p>源生成器的最大优点是它对 AOT 友好,无需反射即可为每种类型自动生成优化的序列化程序代码,而无需由 IL.Emit 动态生成代码,这是常规做法。这使得使用 Unity 的 IL2CPP 等可以安全地工作。初始启动速度也很快。</p>
<p><img src="https://incerry-blog-imgs.oss-cn-hangzhou.aliyuncs.com/1669820104-e0b9a413057470a0d6785c8340f6b837.png" alt="" loading="lazy"></p>
<p>源生成器还用作分析器,因此它可以通过在编辑时发出编译错误来检测它是否可安全序列化。</p>
<p>请注意,由于语言/编译器版本原因,Unity 版本使用旧的源生成器而不是增量源生成器。</p>
<h2 id="c-的二进制规范">C# 的二进制规范</h2>
<p>MemoryPack 的标语是“零编码”。这不是一个特例,例如,Rust 的主要二进制序列化器bincode 也有类似的规范。FlatBuffers还可以读取和写入类似于内存数据的内容,而无需解析实现。</p>
<p>但是,与 FlatBuffers 和其他产品不同,MemoryPack 是一种通用的序列化程序,不需要特殊类型,并且可以针对 POCO 进行序列化/反序列化。它还具有对架构成员添加和多态性支持 (Union) 的高容忍度的版本控制。</p>
<h2 id="可变编码与固定编码">可变编码与固定编码</h2>
<p>Int32 是 4 个字节,但在 JSON 中,例如,数字被编码为字符串,可变长度编码为 1~11 个字节(例如,1 或 -2147483648)。许多二进制格式还具有 1 到 5 字节的可变长度编码规范以节省大小。例如,Protocol-buffers 数字类型具有可变长度整数编码,该编码以 7 位存储值,并以 1 位 (varint) 存储是否存在以下的标志。这意味着数字越小,所需的字节就越少。相反,在最坏的情况下,该数字将增长到 5 个字节,大于原来的 4 个字节。MessagePack和CBOR类似地使用可变长度编码进行处理,小数字最小为 1 字节,大数字最大为 5 字节。</p>
<p>这意味着 varint 运行比固定长度情况额外的处理。让我们在具体代码中比较两者。可变长度是 protobuf 中使用的可变 + 之字折线编码(负数和正数组合)。</p>
<pre><code class="language-cs">// Fixed encoding
static void WriteFixedInt32(Span&lt;byte&gt; buffer, int value)
{
    ref byte p = ref MemoryMarshal.GetReference(buffer);
    Unsafe.WriteUnaligned(ref p, value);
}

// Varint encoding
static void WriteVarInt32(Span&lt;byte&gt; buffer, int value) =&gt; WriteVarInt64(buffer, (long)value);

static void WriteVarInt64(Span&lt;byte&gt; buffer, long value)
{
    ref byte p = ref MemoryMarshal.GetReference(buffer);

    ulong n = (ulong)((value &lt;&lt; 1) ^ (value &gt;&gt; 63));
    while ((n &amp; ~0x7FUL) != 0)
    {
      Unsafe.WriteUnaligned(ref p, (byte)((n &amp; 0x7f) | 0x80));
      p = ref Unsafe.Add(ref p, 1);
      n &gt;&gt;= 7;
    }
    Unsafe.WriteUnaligned(ref p, (byte)n);
}
</code></pre>
<p>换句话说,固定长度是按原样写出 C# 内存(零编码),很明显,固定长度更快。</p>
<p>当应用于数组时,这一点更加明显。</p>
<pre><code class="language-cs">// https://sharplab.io/
Inspect.Heap(new int[]{ 1, 2, 3, 4, 5 });
</code></pre>
<p><img src="https://incerry-blog-imgs.oss-cn-hangzhou.aliyuncs.com/1669820104-4953f21cd129c54f5733f413f9666365.png" alt="" loading="lazy"></p>
<p>在 C# 中的结构数组中,数据按顺序排列。如果结构没有引用类型(非托管类型)则数据在内存中完全对齐;让我们将代码中的序列化过程与 MessagePack 和 MemoryPack 进行比较。</p>
<pre><code class="language-cs">// Fixed-length(MemoryPack)
void Serialize(int[] value)
{
    // Size can be calculated and allocate in advance
    var size = (sizeof(int) * value.Length) + 4;
    EnsureCapacity(size);

    // MemoryCopy once
    MemoryMarshal.AsBytes(value.AsSpan()).CopyTo(buffer);
}

// Variable-length(MessagePack)合
void Serialize(int[] value)
{
    foreach (var item in value)
    {
      // Unknown size, so check size each times
      EnsureCapacity(); // if (buffer.Length &lt; writeLength) Resize();
      // Variable length encoding per element
      WriteVarInt32(item);
    }
}
</code></pre>
<p>在固定长度的情况下,可以消除许多方法调用并且只有一个内存副本。</p>
<p>C# 中的数组不仅是像 int 这样的基元类型,对于具有多个基元的结构也是如此,例如,具有 (float x, float y, float z) 的 Vector3 数组将具有以下内存布局。</p>
<p><img src="https://incerry-blog-imgs.oss-cn-hangzhou.aliyuncs.com/1669820104-d571737c28b14f27a7c2ed7680abaab2.png" alt="" loading="lazy"></p>
<p>浮点数(4 字节)是 MessagePack 中 5 个字节的固定长度。额外的 1 个字节以标识符为前缀,指示值的类型(整数、浮点数、字符串...)。具体来说,.MemoryPack 格式没有标识符,因此 4 个字节按原样写入。</p>
<p>以 Vector3 为例,它比基准测试好 50 倍。</p>
<pre><code class="language-cs">// these fields exists in type
// byte[] buffer
// int offset

void SerializeMemoryPack(Vector3[] value)
{
    // only do copy once
    var size = Unsafe.SizeOf&lt;Vector3&gt;() * value.Length;
    if ((buffer.Length - offset) &lt; size)
    {
      Array.Resize(ref buffer, buffer.Length * 2);
    }
    MemoryMarshal.AsBytes(value.AsSpan()).CopyTo(buffer.AsSpan(0, offset))
}

void SerializeMessagePack(Vector3[] value)
{
    // Repeat for array length x number of fields
    foreach (var item in value)
    {
      // X
      {
            // EnsureCapacity
            // (Actually, create buffer-linked-list with bufferWriter.Advance, not Resize)
            if ((buffer.Length - offset) &lt; 5)
            {
                Array.Resize(ref buffer, buffer.Length * 2);
            }
            var p = MemoryMarshal.GetArrayDataReference(buffer);
            Unsafe.WriteUnaligned(ref Unsafe.Add(ref p, offset), (byte)0xca);
            Unsafe.WriteUnaligned(ref Unsafe.Add(ref p, offset + 1), item.X);
            offset += 5;
      }
      // Y
      {
            if ((buffer.Length - offset) &lt; 5)
            {
                Array.Resize(ref buffer, buffer.Length * 2);
            }
            var p = MemoryMarshal.GetArrayDataReference(buffer);
            Unsafe.WriteUnaligned(ref Unsafe.Add(ref p, offset), (byte)0xca);
            Unsafe.WriteUnaligned(ref Unsafe.Add(ref p, offset + 1), item.Y);
            offset += 5;
      }
      // Z
      {
            if ((buffer.Length - offset) &lt; 5)
            {
                Array.Resize(ref buffer, buffer.Length * 2);
            }
            var p = MemoryMarshal.GetArrayDataReference(buffer);
            Unsafe.WriteUnaligned(ref Unsafe.Add(ref p, offset), (byte)0xca);
            Unsafe.WriteUnaligned(ref Unsafe.Add(ref p, offset + 1), item.Z);
            offset += 5;
      }
    }
}
</code></pre>
<p>使用 MessagePack,它需要 30000 次方法调用。在该方法中,它会检查是否有足够的内存进行写入,并在每次完成写入时添加偏移量。</p>
<p>使用 MemoryPack,只有一个内存副本。这实际上会使处理时间改变一个数量级,这也是本文开头图中 50 倍~100 倍加速的原因。</p>
<p>当然,反序列化过程也是单个副本。</p>
<pre><code class="language-cs">// Deserialize of MemoryPack, only copy
Vector3[] DeserializeMemoryPack(ReadOnlySpan&lt;byte&gt; buffer, int size)
{
    var dest = new Vector3;
    MemoryMarshal.Cast&lt;byte, Vector3&gt;(buffer).CopyTo(dest);
    return dest;
}

// Require read float many times in loop
Vector3[] DeserializeMessagePack(ReadOnlySpan&lt;byte&gt; buffer, int size)
{
    var dest = new Vector3;
    for (int i = 0; i &lt; size; i++)
    {
      var x = ReadSingle(buffer);
      buffer = buffer.Slice(5);
      var y = ReadSingle(buffer);
      buffer = buffer.Slice(5);
      var z = ReadSingle(buffer);
      buffer = buffer.Slice(5);
      dest = new Vector3(x, y, z);
    }
    return dest;
}
</code></pre>
<p>这是 MessagePack 格式本身的限制,只要遵循规范,速度的巨大差异就无法以任何方式逆转。但是,MessagePack 有一个名为“ext 格式系列”的规范,它允许将这些数组作为其自身规范的一部分进行特殊处理。事实上,MessagePack for C# 有一个特殊的 Unity 扩展选项,称为 UnsafeBlitResolver,它可以执行上述操作。</p>
<p>但是,大多数人可能不会使用它,也没有人会使用会使 MessagePack 不兼容的专有选项。</p>
<p>因此,对于 MemoryPack,我想要一个默认情况下能提供最佳性能的规范 C#。</p>
<h2 id="字符串优化">字符串优化</h2>
<p>MemoryPack 有两个字符串规范:UTF8 或 UTF16。由于 C# 字符串是 UTF16,因此将其序列化为 UTF16 可以节省编码/解码为 UTF8 的成本。</p>
<pre><code class="language-cs">void EncodeUtf16(string value)
{
    var size = value.Length * 2;
    EnsureCapacity(size);

    // Span&lt;char&gt; -&gt; Span&lt;byte&gt; -&gt; Copy
    MemoryMarshal.AsBytes(value.AsSpan()).CopyTo(buffer);
}

string DecodeUtf16(ReadOnlySpan&lt;byte&gt; buffer, int length)
{
    ReadOnlySpan&lt;char&gt; src = MemoryMarshal.Cast&lt;byte, char&gt;(buffer).Slice(0, length);
    return new string(src);
}
</code></pre>
<p>但是,MemoryPack 默认为 UTF8。这是因为有效负载大小问题;对于 UTF16,ASCII 字符的大小将是原来的两倍,因此选择了 UTF8。</p>
<p>但是,即使使用 UTF8,MemoryPack 也具有其他序列化程序所没有的一些优化。</p>
<pre><code class="language-cs">// fast
void WriteUtf8MemoryPack(string value)
{
    var source = value.AsSpan();
    var maxByteCount = (source.Length + 1) * 3;
    EnsureCapacity(maxByteCount);
    Utf8.FromUtf16(source, dest, out var _, out var bytesWritten, replaceInvalidSequences: false);
}

// slow
void WriteUtf8StandardSerializer(string value)
{
    var maxByteCount = Encoding.UTF8.GetByteCount(value);
    EnsureCapacity(maxByteCount);
    Encoding.UTF8.GetBytes(value, dest);
}
</code></pre>
<p><code>var bytes = Encoding.UTF8.GetBytes(value)</code>是绝对的不允许的,字符串写入中不允许 byte[] 分配。许多序列化程序使用 Encoding.UTF8.GetByteCount,但也应该避免它,因为 UTF8 是一种可变长度编码,GetByteCount 完全遍历字符串以计算确切的编码后大小。也就是说,GetByteCount -&gt; GetBytes 遍历字符串两次。</p>
<p>通常,允许序列化程序保留大量缓冲区。因此,MemoryPack 分配三倍的字符串长度,这是 UTF8 编码的最坏情况,以避免双重遍历。在解码的情况下,应用了进一步的特殊优化。</p>
<pre><code class="language-cs">// fast
string ReadUtf8MemoryPack(int utf16Length, int utf8Length)
{
    unsafe
    {
      fixed (byte* p = &amp;buffer)
      {
            return string.Create(utf16Length, ((IntPtr)p, utf8Length), static (dest, state) =&gt;
            {
                var src = MemoryMarshal.CreateSpan(ref Unsafe.AsRef&lt;byte&gt;((byte*)state.Item1), state.Item2);
                Utf8.ToUtf16(src, dest, out var bytesRead, out var charsWritten, replaceInvalidSequences: false);
            });
      }
    }
}

// slow
string ReadStandardSerialzier(int utf8Length)
{
    return Encoding.UTF8.GetString(buffer.AsSpan(0, utf8Length));
}
</code></pre>
<p>通常,要从 byte[] 中获取字符串,我们使用<code>Encoding.UTF8.GetString(buffer)</code>。但同样,UTF8 是一种可变长度编码,我们不知道 UTF16 的长度。UTF8 也是如此。<code>GetString</code>我们需要计算长度为 UTF16 以将其转换为字符串,因此我们在内部扫描字符串两次。在伪代码中,它是这样的:</p>
<pre><code class="language-cs">var length = CalcUtf16Length(utf8data);
var str = String.Create(length);
Encoding.Utf8.DecodeToString(utf8data, str);
</code></pre>
<p>典型序列化程序的字符串格式为 UTF8,它不能解码为 UTF16,因此即使您想要长度为 UTF16 以便作为 C# 字符串进行高效解码,它也不在数据中。</p>
<p>但是,MemoryPack 在标头中记录 UTF16 长度和 UTF8 长度。因此,<code>String.Create&lt;TState&gt;(Int32, TState, SpanAction&lt;Char,TState&gt;)</code> 和 <code>Utf8.ToUtf16</code>的组合为 C# String 提供了最有效的解码。</p>
<h2 id="关于有效负载大小">关于有效负载大小</h2>
<p>与可变长度编码相比,整数的固定长度编码的大小可能会膨胀。然而,在现代,使用可变长度编码只是为了减小整数的小尺寸是一个缺点。</p>
<p>由于数据不仅仅是整数,如果真的想减小大小,应该考虑压缩(LZ4,ZStandard,Brotli等),如果压缩数据,可变长度编码几乎没有意义。如果你想更专业和更小,面向列的压缩会给你更大的结果(例如,Apache Parquet)。为了与 MemoryPack 实现集成的高效压缩,我目前有 BrotliEncode/Decode 的辅助类作为标准。我还有几个属性,可将特殊压缩应用于某些原始列,例如列压缩。</p>
<pre><code class="language-cs">
public partial class Sample
{
    public int Id { get; set; }

   
    public bool[] Data { get; set; }

   
    public byte[] Payload { get; set; }
}
</code></pre>
<p><code>BitPackFormatter</code>表示 <code>bool[]</code>,bool 通常为 1 个字节,但由于它被视为 1 位,因此在一个字节中存储八个布尔值。因此,序列化后的大小为 1/8。<code>BrotliFormatter</code>直接应用压缩算法。这实际上比压缩整个文件的性能更好。</p>
<p><img src="https://incerry-blog-imgs.oss-cn-hangzhou.aliyuncs.com/1669820104-e33552d291b7659983be6dcccbc2a301.png" alt="" loading="lazy"></p>
<p>这是因为不需要中间副本,压缩过程可以直接应用于序列化数据。Uber 工程博客上的使用CLP 将日志记录成本降低两个数量级一文中详细介绍了通过根据数据以自定义方式应用处理而不是简单的整体压缩来提取性能和压缩率的方法。</p>
<h2 id="使用-net7-和-c11-新功能">使用 .NET7 和 C#11 新功能</h2>
<p>MemoryPack 在 .NET Standard 2.1 的实现和 .NET 7 的实现中具有略有不同的方法签名。.NET 7 是一种更积极、面向性能的实现,它利用了最新的语言功能。</p>
<p>首先,序列化程序接口利用静态抽象成员,如下所示:</p>
<pre><code class="language-cs">public interface IMemoryPackable&lt;T&gt;
{
    // note: serialize parameter should be `ref readonly` but current lang spec can not.
    // see proposal https://github.com/dotnet/csharplang/issues/6010
    static abstract void Serialize&lt;TBufferWriter&gt;(ref MemoryPackWriter&lt;TBufferWriter&gt; writer, scoped ref T? value)
      where TBufferWriter : IBufferWriter&lt;byte&gt;;
    static abstract void Deserialize(ref MemoryPackReader reader, scoped ref T? value);
}
</code></pre>
<p>MemoryPack 采用源生成器,并要求目标类型为<code>public partial class Foo</code>,因此最终的目标类型为</p>
<pre><code class="language-cs">
partial class Foo : IMemoryPackable
{
    static void IMemoryPackable&lt;Foo&gt;.Serialize&lt;TBufferWriter&gt;(ref MemoryPackWriter&lt;TBufferWriter&gt; writer, scoped ref Foo? value)
    {
    }

    static void IMemoryPackable&lt;Foo&gt;.Deserialize(ref MemoryPackReader reader, scoped ref Foo? value)
    {
    }
}
</code></pre>
<p>这避免了通过虚拟方法调用的成本。</p>
<pre><code class="language-cs">public void WritePackable&lt;T&gt;(scoped in T? value)
    where T : IMemoryPackable&lt;T&gt;
{
    // If T is IMemoryPackable, call static method directly
    T.Serialize(ref this, ref Unsafe.AsRef(value));
}

//
public void WriteValue&lt;T&gt;(scoped in T? value)
{
    // call Serialize from interface virtual method
    IMemoryPackFormatter&lt;T&gt; formatter = MemoryPackFormatterProvider.GetFormatter&lt;T&gt;();
    formatter.Serialize(ref this, ref Unsafe.AsRef(value));
}
</code></pre>
<p><code>MemoryPackWriter</code>/<code>MemoryPackReader</code>使用 <code>ref</code>字段。</p>
<pre><code class="language-cs">public ref struct MemoryPackWriter&lt;TBufferWriter&gt;
    where TBufferWriter : IBufferWriter&lt;byte&gt;
{
    ref TBufferWriter bufferWriter;
    ref byte bufferReference;
    int bufferLength;
</code></pre>
<p>换句话说,<code>ref byte bufferReference</code>,<code>int bufferLength</code>的组合是<code>Span&lt;byte&gt;</code>的内联。此外,通过接受 <code>TBufferWriter</code> 作为 <code>ref TBufferWriter</code>,现在可以安全地接受和调用可变结构 <code>TBufferWriter:IBufferWrite&lt;byte&gt;</code>。</p>
<pre><code class="language-cs">// internally MemoryPack uses some struct buffer-writers
struct BrotliCompressor : IBufferWriter&lt;byte&gt;
struct FixedArrayBufferWriter : IBufferWriter&lt;byte&gt;
</code></pre>
<h2 id="针对所有类型的类型进行优化">针对所有类型的类型进行优化</h2>
<p>例如,对于通用实现,集合可以序列化/反序列化为 <code>IEnumerable&lt;T&gt;</code>,但 MemoryPack 为所有类型的提供单独的实现。为简单起见,<code>List&lt;T&gt;</code> 可以处理为:</p>
<pre><code class="language-cs">public void Serialize(ref MemoryPackWriter writer, IEnumerable&lt;T&gt; value)
{
    foreach(var item in source)
    {
      writer.WriteValue(item);
    }
}

public void Serialize(ref MemoryPackWriter writer, List&lt;T&gt; value)
{
    foreach(var item in source)
    {
      writer.WriteValue(item);
    }
}
</code></pre>
<p>这两个代码看起来相同,但执行完全不同:<code>foreach to IEnumerable&lt;T&gt;</code> 检索<code>IEnumerator&lt;T&gt;</code>,而 <code>foreach to List&lt;T&gt;</code>检索结构<code>List&lt;T&gt;.Enumerator</code>,y 一个优化的专用结构。</p>
<p>但是,MemoryPack 进一步优化了它。</p>
<pre><code class="language-cs">public sealed class ListFormatter&lt;T&gt; : MemoryPackFormatter&lt;List&lt;T?&gt;&gt;
{
    public override void Serialize&lt;TBufferWriter&gt;(ref MemoryPackWriter&lt;TBufferWriter&gt; writer, scoped ref List&lt;T?&gt;? value)
    {
      if (value == null)
      {
            writer.WriteNullCollectionHeader();
            return;
      }

      writer.WriteSpan(CollectionsMarshal.AsSpan(value));
    }
}

// MemoryPackWriter.WriteSpan

public void WriteSpan&lt;T&gt;(scoped Span&lt;T?&gt; value)
{
    if (!RuntimeHelpers.IsReferenceOrContainsReferences&lt;T&gt;())
    {
      DangerousWriteUnmanagedSpan(value);
      return;
    }

    var formatter = GetFormatter&lt;T&gt;();
    WriteCollectionHeader(value.Length);
    for (int i = 0; i &lt; value.Length; i++)
    {
      formatter.Serialize(ref this, ref value);
    }
}

// MemoryPackWriter.DangerousWriteUnmanagedSpan

public void DangerousWriteUnmanagedSpan&lt;T&gt;(scoped Span&lt;T&gt; value)
{
    if (value.Length == 0)
    {
      WriteCollectionHeader(0);
      return;
    }

    var srcLength = Unsafe.SizeOf&lt;T&gt;() * value.Length;
    var allocSize = srcLength + 4;

    ref var dest = ref GetSpanReference(allocSize);
    ref var src = ref Unsafe.As&lt;T, byte&gt;(ref MemoryMarshal.GetReference(value));

    Unsafe.WriteUnaligned(ref dest, value.Length);
    Unsafe.CopyBlockUnaligned(ref Unsafe.Add(ref dest, 4), ref src, (uint)srcLength);

    Advance(allocSize);
}
</code></pre>
<p>来自 .NET 5 的 CollectionsMarshal.AsSpan 是枚举 <code>List&lt;T&gt;</code> 的最佳方式。此外,如果可以获得 <code>Span&lt;T&gt;</code>,则只能在 <code>List&lt;int&gt;</code>或 <code>List&lt;Vector3&gt;</code>的情况下通过复制来处理。</p>
<p>在反序列化的情况下,也有一些有趣的优化。首先,MemoryPack 的反序列化接受引用 T?值,如果值为 null,则如果传递该值,它将覆盖内部生成的对象(就像普通序列化程序一样)。这允许在反序列化期间零分配新对象创建。在<code>List&lt;T&gt;</code> 的情况下,也可以通过调用 <code>Clear()</code> 来重用集合。</p>
<p>然后,通过进行特殊的 Span 调用,它全部作为 Span 处理,避免了<code>List&lt;T&gt;.Add</code>的额外开销。</p>
<pre><code class="language-cs">public sealed class ListFormatter&lt;T&gt; : MemoryPackFormatter&lt;List&lt;T?&gt;&gt;
{
    public override void Deserialize(ref MemoryPackReader reader, scoped ref List&lt;T?&gt;? value)
    {
      if (!reader.TryReadCollectionHeader(out var length))
      {
            value = null;
            return;
      }

      if (value == null)
      {
            value = new List&lt;T?&gt;(length);
      }
      else if (value.Count == length)
      {
            value.Clear();
      }

      var span = CollectionsMarshalEx.CreateSpan(value, length);
      reader.ReadSpanWithoutReadLengthHeader(length, ref span);
    }
}

internal static class CollectionsMarshalEx
{
    /// &lt;summary&gt;
    /// similar as AsSpan but modify size to create fixed-size span.
    /// &lt;/summary&gt;
    public static Span&lt;T?&gt; CreateSpan&lt;T&gt;(List&lt;T?&gt; list, int length)
    {
      list.EnsureCapacity(length);

      ref var view = ref Unsafe.As&lt;List&lt;T?&gt;, ListView&lt;T?&gt;&gt;(ref list);
      view._size = length;
      return view._items.AsSpan(0, length);
    }

    // NOTE: These structure depndent on .NET 7, if changed, require to keep same structure.

    internal sealed class ListView&lt;T&gt;
    {
      public T[] _items;
      public int _size;
      public int _version;
    }
}

// MemoryPackReader.ReadSpanWithoutReadLengthHeader
public void ReadSpanWithoutReadLengthHeader&lt;T&gt;(int length, scoped ref Span&lt;T?&gt; value)
{
    if (length == 0)
    {
      value = Array.Empty&lt;T&gt;();
      return;
    }

    if (!RuntimeHelpers.IsReferenceOrContainsReferences&lt;T&gt;())
    {
      if (value.Length != length)
      {
            value = AllocateUninitializedArray&lt;T&gt;(length);
      }

      var byteCount = length * Unsafe.SizeOf&lt;T&gt;();
      ref var src = ref GetSpanReference(byteCount);
      ref var dest = ref Unsafe.As&lt;T, byte&gt;(ref MemoryMarshal.GetReference(value)!);
      Unsafe.CopyBlockUnaligned(ref dest, ref src, (uint)byteCount);

      Advance(byteCount);
    }
    else
    {
      if (value.Length != length)
      {
            value = new T;
      }

      var formatter = GetFormatter&lt;T&gt;();
      for (int i = 0; i &lt; length; i++)
      {
            formatter.Deserialize(ref this, ref value);
      }
    }
}
</code></pre>
<p><code>EnsurceCapacity(capacity)</code>,可以预先扩展保存 <code>List&lt;T&gt;</code> 的内部数组的大小。这避免了每次都需要内部放大/复制。</p>
<p>但是 CollectionsMarshal.AsSpan,您将获得长度为 0 的 Span,因为内部大小不会更改。如果我们有 CollectionMarshals.AsMemory,我们可以使用 MemoryMarshal.TryGetArray 组合从那里获取原始数组,但不幸的是,没有办法从 Span 获取原始数组。因此,我强制类型结构与 Unsafe.As 匹配并更改<code>List&lt;T&gt;._size</code>,我能够获得扩展的内部数组。</p>
<p>这样,我们可以以仅复制的方式优化非托管类型,并避免 <code>List&lt;T&gt;.Add(每次检查数组大小)</code>,并通过<code>Span&lt;T&gt;</code> 打包值,这比传统序列化、反序列化程序性能要高得多。。</p>
<p>虽然对<code>List&lt;T&gt;</code>的优化具有代表性,但要介绍的还有太多其他类型,所有类型都经过仔细审查,并且对每种类型都应用了最佳优化。</p>
<p>Serialize 接受 <code>IBufferWriter&lt;byte&gt;</code> 作为其本机结构,反序列化接受 <code>ReadOnlySpan&lt;byte&gt;</code> 和 <code>ReadOnlySequence&lt;byte&gt;</code>。</p>
<p>这是因为System.IO.Pipelines 需要这些类型。换句话说,由于它是 ASP .NET Core 的服务器 (Kestrel) 的基础,因此通过直接连接到它,您可以期待更高性能的序列化。</p>
<p><code>IBufferWriter&lt;byte&gt;</code> 特别重要,因为它可以直接写入缓冲区,从而在序列化过程中实现零拷贝。对 <code>IBufferWriter&lt;byte&gt;</code> 的支持是现代序列化程序的先决条件,因为它提供比使用 <code>byte[]</code> 或 Stream 更高的性能。开头图表中的序列化程序(System.Text.Json,protobuf-net,Microsoft.Orleans.Serialization,MessagePack for C#和 MemoryPack)支持它。</p>
<h2 id="messagepack-与-memorypack">MessagePack 与 MemoryPack</h2>
<p>MessagePack for C# 非常易于使用,并且具有出色的性能。特别是,以下几点比 MemoryPack 更好</p>
<ul>
<li>出色的跨语言兼容性</li>
<li>JSON 兼容性(尤其是字符串键)和人类可读性</li>
<li>默认完美版本容错</li>
<li>对象和匿名类型的序列化</li>
<li>动态反序列化</li>
<li>嵌入式 LZ4 压缩</li>
<li>久经考验的稳定性</li>
</ul>
<p>MemoryPack 默认为有限版本容错,完整版容错选项的性能略低。此外,因为它是原始格式,所以唯一支持的其他语言是 TypeScript。此外,二进制文件本身不会告诉它是什么数据,因为它需要 C# 架构。</p>
<p>但是,它在以下方面优于 MessagePack。</p>
<ul>
<li>性能,尤其是对于非托管类型数组</li>
<li>易于使用的 AOT 支持</li>
<li>扩展多态性(联合)构造方法</li>
<li>支持循环引用</li>
<li>覆盖反序列化</li>
<li>打字稿代码生成</li>
<li>灵活的基于属性的自定义格式化程序</li>
</ul>
<p>在我个人看来,如果你在只有 C#的环境中,我会选择 MemoryPack。但是,有限版本容错有其怪癖,应该事先理解它。MessagePack for C# 仍然是一个不错的选择,因为它简单易用。</p>
<p>MemoryPack 不是一个只关注性能的实验性序列化程序,而且还旨在成为一个实用的序列化程序。为此,我还以 MessagePack for C# 的经验为基础,提供了许多功能。</p>
<ul>
<li>支持现代 I/O API(<code>IBufferWriter&lt;byte&gt;</code>,<code>ReadOnlySpan&lt;byte&gt;</code>, <code>ReadOnlySequence&lt;byte&gt;</code>)</li>
<li>基于本机 AOT 友好的源生成器的代码生成,没有动态代码生成(IL.Emit)</li>
<li>无反射非泛型 API</li>
<li>反序列化到现有实例</li>
<li>多态性(联合)序列化</li>
<li>有限的版本容限(快速/默认)和完整的版本容错支持</li>
<li>循环引用序列化</li>
<li>基于管道写入器/读取器的流式序列化</li>
<li>TypeScript 代码生成和核心格式化程序 ASP.NET</li>
<li>Unity(2021.3) 通过 .NET 源生成器支持 IL2CPP</li>
</ul>
<p>我们计划进一步扩展可用功能的范围,例如对MasterMemory 的 MemoryPack支持和对 MagicOnion的序列化程序更改支持等。我们将自己定位为Cysharp C# 库生态系统的核心。我们将付出很多努力来种下这一棵树,所以对于初学者来说,请尝试一下我们的库!</p>
<h2 id="版权信息">版权信息</h2>
<p><strong>已获得原作者授权</strong><br>
原文版权:neuecc<br>
翻译版权:InCerry</p>
<p>原文链接: https://neuecc.medium.com/how-to-make-the-fastest-net-serializer-with-net-7-c-11-case-of-memorypack-ad28c0366516</p>
<h2 id="net性能优化交流群">.NET性能优化交流群</h2>
<p>相信大家在开发中经常会遇到一些性能问题,苦于没有有效的工具去发现性能瓶颈,或者是发现瓶颈以后不知道该如何优化。之前一直有读者朋友询问有没有技术交流群,但是由于各种原因一直都没创建,现在很高兴的在这里宣布,我创建了一个专门交流.NET性能优化经验的群组,主题包括但不限于:</p>
<ul>
<li>如何找到.NET性能瓶颈,如使用APM、dotnet tools等工具</li>
<li>.NET框架底层原理的实现,如垃圾回收器、JIT等等</li>
<li>如何编写高性能的.NET代码,哪些地方存在性能陷阱</li>
</ul>
<p>希望能有更多志同道合朋友加入,分享一些工作中遇到的.NET性能问题和宝贵的性能分析优化经验。由于已经达到200人,可以加我微信,我拉你进群: <strong>ls1075</strong></p><br><br>
来源:https://www.cnblogs.com/InCerry/p/how-to-make-the-fastest-net-serializer-with-net-7-c-11-case-of-memorypack.html
頁: [1]
查看完整版本: 使用.NET7和C#11打造最快的序列化程序-以MemoryPack为例