DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业?
<p>DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统,能高效地执行和管理大数据流程。用户可以在DolphinScheduler Web界面轻松创建、编辑和调度云原生数据仓库 AnalyticDB MySQL 版的Spark作业。</p><h3 id="前提条件">前提条件</h3>
<ul>
<li>
<p>AnalyticDB for MySQL集群的产品系列为企业版、基础版或湖仓版。</p>
</li>
<li>
<p>AnalyticDB for MySQL集群中已创建Job型资源组或Spark引擎的Interactive型资源组。</p>
</li>
<li>
<p>已安装JDK,且JDK的版本为1.8及以上版本。</p>
</li>
<li>
<p>已安装DolphinScheduler。</p>
</li>
<li>
<p>已将运行DolphinScheduler的服务器IP地址添加至AnalyticDB for MySQL集群的白名单中。</p>
</li>
</ul>
<h2 id="调度spark-sql作业">调度Spark SQL作业</h2>
<p>AnalyticDB for MySQL支持使用批处理和交互式两种方法执行Spark SQL。选择的执行方式不同,调度的操作步骤也有所不同。详细步骤如下:</p>
<h3 id="批处理">批处理</h3>
<ol>
<li>安装Spark-Submit命令行工具并配置相关参数。</li>
</ol>
<blockquote>
<p>说明:您只需要配置keyId、secretId、regionId、clusterId和rgName这些必填参数。</p>
</blockquote>
<ol start="2">
<li>
<p>创建项目。</p>
<ol>
<li>
<p>访问DolphinScheduler Web界面,在顶部导航栏单击项目管理。</p>
</li>
<li>
<p>单击创建项目。</p>
</li>
<li>
<p>在弹出的创建项目对话框中配置项目名称、所属用户等参数。</p>
</li>
</ol>
</li>
<li>
<p>创建工作流。</p>
<ul>
<li>
<p>单击已创建的项目名称,进入工作流定义页面。</p>
</li>
<li>
<p>单击创建工作流,进入工作流DAG编辑页面。</p>
</li>
<li>
<p>在页面左侧选择SHELL,并将其拖拽到右侧空白画布中。</p>
</li>
<li>
<p>在弹出的当前节点设置对话框中配置如下参数:<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524572543456.jpg" class="lazyload"></p>
</li>
<li>
<p>单击确认。</p>
</li>
<li>
<p>单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。</p>
</li>
</ul>
</li>
</ol>
<blockquote>
<p>说明:其他参数说明请参见DolphinScheduler任务参数。</p>
</blockquote>
<ol start="4">
<li>运行工作流。</li>
</ol>
<ul>
<li>
<p>单击工作流操作列的<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524635814664.jpg" class="lazyload">按钮,上线工作流。</p>
</li>
<li>
<p>单击工作流操作列的<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524636071379.jpg" class="lazyload">按钮。</p>
</li>
<li>
<p>在弹出的启动前请先设置参数对话框中,配置对应参数。</p>
</li>
<li>
<p>单击确定,运行工作流。</p>
</li>
</ul>
<ol start="5">
<li>查看工作流详细信息。</li>
</ol>
<ul>
<li>
<p>在左侧导航栏单击任务实例。</p>
</li>
<li>
<p>在操作列,单击<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524636285282.jpg" class="lazyload">按钮,查看工作流执行结果和日志信息。</p>
</li>
</ul>
<h3 id="交互式">交互式</h3>
<ol>
<li>
<p>获取Spark Interactive型资源组的连接地址。</p>
<ol>
<li>
<p>登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在企业版、基础版或湖仓版页签下,单击目标集群ID。</p>
</li>
<li>
<p>在左侧导航栏,单击集群管理 > 资源管理,单击资源组管理页签。</p>
</li>
<li>
<p>单击对应资源组操作列的详情,查看内网连接地址和公网连接地址。您可单击端口号括号内的image按钮,复制连接地址。</p>
</li>
</ol>
<p>以下两种情况,您需要单击公网地址后的申请网络,手动申请公网连接地址。</p>
<ul>
<li>
<p>提交Spark SQL作业的客户端工具部署在本地。</p>
</li>
<li>
<p>提交Spark SQL作业的客户端工具部署在ECS上,且ECS与AnalyticDB for MySQL不属于同一VPC。</p>
</li>
</ul>
</li>
<li>
<p>创建数据源。</p>
<ol>
<li>
<p>访问DolphinScheduler Web界面,在顶部导航栏单击数据源中心。</p>
</li>
<li>
<p>单击创建数据源,选择数据源类型为Spark。</p>
</li>
<li>
<p>在弹出的创建数据源对话框中配置如下参数:<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524641895185.jpg" class="lazyload"></p>
</li>
<li>
<p>单击测试连接,测试成功后,单击确定。</p>
</li>
</ol>
</li>
</ol>
<blockquote>
<p>说明:其他参数为选填参数,详情请参见MySQL数据源。</p>
</blockquote>
<ol start="3">
<li>
<p>创建项目。</p>
<ol>
<li>
<p>访问DolphinScheduler Web界面,在顶部导航栏单击项目管理。</p>
</li>
<li>
<p>单击创建项目。</p>
</li>
<li>
<p>在弹出的创建项目对话框中配置项目名称、所属用户等参数。</p>
</li>
</ol>
</li>
<li>
<p>创建工作流。</p>
<ol>
<li>
<p>单击已创建的项目名称,进入工作流定义页面。</p>
</li>
<li>
<p>单击创建工作流,进入工作流DAG编辑页面。</p>
</li>
<li>
<p>在页面左侧选择SQL,并将其拖拽到右侧空白画布中。</p>
</li>
<li>
<p>在弹出的当前节点设置对话框中配置如下参数:<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524642909413.jpg" class="lazyload"></p>
</li>
<li>
<p>单击确认。</p>
</li>
<li>
<p>单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。</p>
</li>
</ol>
</li>
<li>
<p>运行工作流。</p>
<ol>
<li>
<p>单击工作流操作列的<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524635814664.jpg" class="lazyload">按钮,上线工作流。</p>
</li>
<li>
<p>单击工作流操作列的<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524636071379.jpg" class="lazyload">按钮。</p>
</li>
<li>
<p>在弹出的启动前请先设置参数对话框中,配置对应参数。</p>
</li>
<li>
<p>单击确定,运行工作流。</p>
</li>
</ol>
</li>
<li>
<p>查看工作流详细信息。</p>
<ol>
<li>
<p>在左侧导航栏单击任务实例。</p>
</li>
<li>
<p>在操作列,单击<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/16/17526311653338.jpg" class="lazyload">按钮,查看工作流执行结果和日志信息。</p>
</li>
</ol>
</li>
</ol>
<h2 id="调度spark-jar作业">调度Spark Jar作业</h2>
<ol>
<li>安装Spark-Submit命令行工具并配置相关参数。</li>
</ol>
<blockquote>
<p>说明:您只需要配置keyId、secretId、regionId、clusterId和rgName这些必填参数。如果您的Spark Jar包在本地,还需要配置ossUploadPath等OSS相关参数。</p>
</blockquote>
<ol start="2">
<li>
<p>创建项目。</p>
<ol>
<li>
<p>访问DolphinScheduler Web界面,在顶部导航栏单击项目管理。</p>
</li>
<li>
<p>单击创建项目。</p>
</li>
<li>
<p>在弹出的创建项目对话框中配置项目名称、所属用户等参数。</p>
</li>
</ol>
</li>
<li>
<p>创建工作流。</p>
<ol>
<li>
<p>单击已创建的项目名称,进入工作流定义页面。</p>
</li>
<li>
<p>单击创建工作流,进入工作流DAG编辑页面。</p>
</li>
<li>
<p>在页面左侧选择SHELL,并将其拖拽到右侧空白画布中。</p>
</li>
<li>
<p>在弹出的当前节点设置对话框中配置如下参数:<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524637912054.jpg" class="lazyload"></p>
</li>
<li>
<p>单击确认。</p>
</li>
<li>
<p>单击页面右上角保存,在弹出的基本信息对话框中配置工作流名称等参数,单击确定。</p>
</li>
</ol>
</li>
</ol>
<blockquote>
<p>说明:其他参数说明请参见DolphinScheduler任务参数。</p>
</blockquote>
<ol start="4">
<li>
<p>运行工作流。</p>
<ol>
<li>
<p>单击工作流操作列的<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524635814664.jpg" class="lazyload">按钮,上线工作流。</p>
</li>
<li>
<p>单击工作流操作列的<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524636071379.jpg" class="lazyload">按钮。</p>
</li>
<li>
<p>在弹出的启动前请先设置参数对话框中,配置对应参数。</p>
</li>
<li>
<p>单击确定,运行工作流。</p>
</li>
</ol>
</li>
<li>
<p>查看工作流详细信息。</p>
<ol>
<li>
<p>在左侧导航栏单击任务实例。</p>
</li>
<li>
<p>在操作列,单击<img alt="" loading="lazy" src="https://openwrite-whaleops.oss-cn-zhangjiakou.aliyuncs.com/2025/07/14/17524636285282.jpg" class="lazyload">按钮,查看工作流执行结果和日志信息。</p>
</li>
</ol>
</li>
</ol><br><br>
来源:https://www.cnblogs.com/DolphinScheduler/p/18989959
頁:
[1]