基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量

铁钢铜 發表於 2024-3-25 09:38:00

基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量

本文介绍基于R语言中的<code>GD</code>包，依据栅格影像数据，实现自变量最优离散化方法选取与执行，并进行地理探测器（Geodetector）操作的方法。
 首先，在R语言中进行地理探测器操作，可通过<code>geodetector</code>包、<code>GD</code>包等<code>2</code>个包实现。其中，<code>geodetector</code>包是地理探测器模型的原作者团队开发的，其需要保证输入的自变量数据已经全部为类别数据；其具体操作方法大家可以参考地理探测器R语言实现：geodetector。而<code>GD</code>包则是另一位学者开发的，其可自动实现自变量数据的最优离散化方法选取与执行；本文介绍的就是基于<code>GD</code>包实现地理探测器的具体操作。此外，如果希望基于Excel实现地理探测器，大家可以参考地理探测器Geodetector下载、使用、结果分析方法。
<h1 id="1-包的安装与导入">1 包的安装与导入</h1>
 首先，我们可以先到<code>GD</code>包在R语言中的官方网站，大致了解一下该包的简要介绍、开发团队等基本信息。
 随后，我们开始<code>GD</code>包的下载与安装。输入如下所示的代码，即可开始包的下载与安装过程。
<pre><code class="language-r">install.packages("GD")
</code></pre>
 输入代码后，按下<code>回车</code>键，运行代码；如下图所示。在安装<code>GD</code>包时，会自动将其所需依赖的其他包（如果在此之前没有配置过）都一并配置好，非常方便。
<img src="https://img2024.cnblogs.com/blog/3080295/202403/3080295-20240325092408810-291045765.png">
 接下来，输入如下的代码，将<code>GD</code>包导入。
<pre><code class="language-r">library("GD")
</code></pre>
 输入代码后，按下<code>回车</code>键，运行代码；如下图所示。
<img src="https://img2024.cnblogs.com/blog/3080295/202403/3080295-20240325092342004-842886467.png">
<h1 id="2-数据读取与预处理">2 数据读取与预处理</h1>
 接下来，我们需要读取栅格图像数据，并将其转为<code>GD</code>包可以识别的数据框（<code>Data Frames</code>）格式。
 其中，读取栅格数据的方法，大家参考基于R语言的raster包读取遥感影像即可；关于数据格式的转换，大家参考地理探测器R语言实现：geodetector即可。这一部分的内容本文就不再赘述。
<h1 id="3-地理探测器执行">3 地理探测器执行</h1>
 接下来，我们就可以开始地理探测器的具体分析；强烈建议大家基于<code>GD</code>包中的<code>gdm()</code>函数，实现一步到位的地理探测器分析操作。
 首先，如果大家输入数据中的自变量数据具有连续变量，需要将其转换为类别变量；<code>gdm()</code>函数可以实现连续变量的离散化方式寻优与自动执行。其中，我们可以选择的离散化方式包括相等间隔法、自然间断点法、分位数分类法、几何间隔法与标准差法等<code>5</code>种不同的方法，分别对应以下第一句代码中的<code>"equal"</code>、<code>"natural"</code>、<code>"quantile"</code>、<code>"geometric"</code>与<code>"sd"</code>等<code>5</code>个选项。此外，我们还可以依据数据的特征，对自变量离散化的类别数量加以限定，具体代码如下所示。
<pre><code class="language-r">discmethod <- c("equal", "natural", "quantile", "geometric", "sd")
discitv <- c(4:10)
</code></pre>
 其中，上述第一句代码表示，我们后续将从相等间隔法、自然间断点法、分位数分类法、几何间隔法与标准差法等<code>5</code>种不同的方法中，找到每一个连续变量对应的最优离散化方法；第二句代码则表示，在后续寻找最优离散化方法的同时，还需要对每一个变量的分类数量加以寻优——<code>c(4:10)</code>就表示我们分别将每一个连续变量分为<code>4</code>类、<code>5</code>类、<code>6</code>类，以此类推，一直到<code>10</code>类，从其中找到最优结果对应的类别数量。
 接下来，我们即可调用<code>gdm()</code>函数，执行地理探测器分析的具体操作；其中，<code>my_gd</code>为保存地理探测器结果的变量；函数的第一个参数，表示因变量与自变量的关系，<code>~</code>前的变量即为因变量，<code>~</code>后的变量即为自变量，多个自变量之间通过<code>+</code>相连接；第二个参数表示自变量中的连续变量，程序将自动对这些连续变量加以离散化方法寻优与执行；第三个参数表示存储自变量与因变量数据的数据框（<code>Data Frames</code>）格式的变量；最后两个变量，即为前面我们选择的离散化方法与类别数量。
<pre><code class="language-r">my_gd <- gdm(A_LCCS0 ~ C_SlopeS0 + D_AspectS0 + DEM_Reclass + F_LCS0,
 continuous_variable = c("C_SlopeS0", "D_AspectS0"),
 data = tif_frame,
 discmethod = discmethod,
 discitv = discitv)
</code></pre>
 这里需要注意，如果大家不是通过脚本运行的R语言，而是每次写一句代码然后按下<code>回车</code>键运行一下，那么上述代码中的换行就需要通过同时按下<code>Shift</code>键与<code>回车</code>键实现。输入上述代码后，如下图所示。
<img src="https://img2024.cnblogs.com/blog/3080295/202403/3080295-20240325092342108-1743858422.png">
 随后，即可运行代码。稍等片刻（具体时长与数据量有关），即可得到地理探测器的结果<code>my_gd</code>。这一变量的具体结构、内容如下图所示。
<img src="https://img2024.cnblogs.com/blog/3080295/202403/3080295-20240325092341988-851147321.png">
 我们可以输入如下的代码，将变量<code>my_gd</code>打印出来。
<pre><code class="language-r">my_gd
</code></pre>
 所得结果如下图所示。
<img src="https://img2024.cnblogs.com/blog/3080295/202403/3080295-20240325092342126-1792196158.png">
 可以看到，<code>my_gd</code>变量包含了每一个连续变量在离散化后，对应的最优离散化方法与类别数量，以及地理探测器的各个分析结果。具体结果的含义与研读方法，大家参考地理探测器Geodetector下载、使用、结果分析方法，以及地理探测器R语言实现：geodetector这两篇文章即可，这里就不再赘述。
 此外，我们可以通过如下的代码，将上述结果加以可视化。
<pre><code class="language-r">plot(my_gd)
</code></pre>
 运行上述代码，结果如下图所示。
<img src="https://img2024.cnblogs.com/blog/3080295/202403/3080295-20240325092342078-330732584.png">
 此时，在RStudio软件的右下方“Plots”中，即可看到可视化结果，如下图所示。其中，我们可以通过下图中红色方框内的箭头，实现不同图片的切换显示。
<img src="https://img2024.cnblogs.com/blog/3080295/202403/3080295-20240325092342171-1560419479.png">
 上述结果包含<code>7</code>张图像，其分别与上上图中的<code>7</code>项输出内容对应——第一张图是最优离散化方法的选取过程，第二张图则是所选出的最优离散化方法对应的分类情况；后<code>5</code>张图就是地理探测器的分析结果图，即上上图中最后<code>5</code>个<code>plot</code>分别对应的结果。
 至此，我们就完成了基于R语言中的<code>GD</code>包，依据多张栅格图像数据，实现类别变量的自动离散化，并进行地理探测器（Geodetector）操作的完整流程。 
来源：https://www.cnblogs.com/fkxxgis/p/18093713

頁: [1]

圆梦公社's Archiver

基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量