<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
  <channel>
    <title>琼殿技术论坛 - 大数据</title>
    <link>https://bbs.qiongdian.com/f-98-1</link>
    <description>Latest 20 threads of 大数据</description>
    <copyright>Copyright(C) 琼殿技术论坛</copyright>
    <generator>Discuz! Board by Discuz! Team</generator>
    <lastBuildDate>Wed, 27 May 2026 08:16:12 +0000</lastBuildDate>
    <ttl>60</ttl>
    <image>
      <url>https://bbs.qiongdian.com/static/image/common/logo_88_31.gif</url>
      <title>琼殿技术论坛</title>
      <link>https://bbs.qiongdian.com/</link>
    </image>
    <item>
      <title>微调完怎么判断好不好？大模型效果评估入门指南（附代码）</title>
      <link>https://bbs.qiongdian.com/t-46769-1-1.html</link>
      <description><![CDATA[微调完怎么判断好不好？大模型效果评估入门指南（附代码）

（一）引言：微调评估不是“算个数”，是模型落地的关键一步
大家好，我是七七！每天都能看到一堆新手提问，核心就一个：“博主，我把7B模型微调完了，准确率82%，这效果算合格吗？”“生成任务怎么判断模型调 ...]]></description>
      <category>大数据</category>
      <author>普通高达驾驶员</author>
      <pubDate>Sat, 17 Jan 2026 09:23:00 +0000</pubDate>
    </item>
    <item>
      <title>掌握相关性分析：读懂数据间的“悄悄话”</title>
      <link>https://bbs.qiongdian.com/t-46768-1-1.html</link>
      <description><![CDATA[在数据分析的江湖里，我们经常会听到老板或业务方抛出这样的问题：

“现在的年轻人越晚睡，买护肤品是不是越疯狂？”
“我们APP的各种优惠券，真的能提升用户的留存率吗？”
“天气越热，这只股票是不是跌得越惨？”

面对这些问题，很多新人容易犯 “凭感觉” 的错误 ...]]></description>
      <category>大数据</category>
      <author>消消</author>
      <pubDate>Fri, 19 Dec 2025 08:06:00 +0000</pubDate>
    </item>
    <item>
      <title>OceanBase 在滴滴大规模运维经验以及新功能落地实践</title>
      <link>https://bbs.qiongdian.com/t-46767-1-1.html</link>
      <description><![CDATA[作者：吴其朋，滴滴分布式存储运维负责人
滴滴出行（下文简称“滴滴”）作为涵盖#网约车、#出租车、#顺风车、#代驾 等业务的一站式多元化出行平台，拥有全球客户6.5亿。自2024年应用OceanBase以来，已在多个场景落地并替换RocksDB、TokuDB，包括网约车增长服务、中台核 ...]]></description>
      <category>大数据</category>
      <author>潇洒牧羊人</author>
      <pubDate>Fri, 19 Dec 2025 06:38:00 +0000</pubDate>
    </item>
    <item>
      <title>搞懂“元数据”：给数据办一张“身份证”</title>
      <link>https://bbs.qiongdian.com/t-46766-1-1.html</link>
      <description><![CDATA[你是否经历过这样的场景：
同事发给你一个 Excel 表格，文件名叫 data_final_v2.xlsx。
你满怀期待地打开，结果发现：

表头是 cryptic 的英文缩写（如 c_amt, usr_stat）；
有一列全是数字 1, 0, 1, 0，你猜不出这代表“男女”还是“是否活跃”；
你根本不知道这份数据 ...]]></description>
      <category>大数据</category>
      <author>奎星楼</author>
      <pubDate>Thu, 11 Dec 2025 07:08:00 +0000</pubDate>
    </item>
    <item>
      <title>vivo Celeborn PB级Shuffle优化处理实践</title>
      <link>https://bbs.qiongdian.com/t-46765-1-1.html</link>
      <description><![CDATA[作者： vivo 互联网大数据团队-Wang Zhiwen、Cai Zuguangvivo大数据平台通过引入RSS服务来满足混部集群中间结果（shuffle 数据）临时落盘需求,在综合对比后选择了Celeborn组件，并在后续的应用实践过程中不断优化完善，本文将分享vivo在Celeborn实际应用过程中对遇到问 ...]]></description>
      <category>大数据</category>
      <author>回收的平头小哥</author>
      <pubDate>Thu, 11 Dec 2025 02:30:00 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法</title>
      <link>https://bbs.qiongdian.com/t-46764-1-1.html</link>
      <description><![CDATA[Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法
&amp;nbsp;
建议由CDH迁移到CMP 7.13&amp;nbsp;平台（类Cloudera CDP，如华为鲲鹏&amp;nbsp;ARM&amp;nbsp;版）可以做到无缝切换平缓迁移
&amp;nbsp;
Hadoop 实战：从 Hive、Impala 海量数据到 AI 决策的落地 ...]]></description>
      <category>大数据</category>
      <author>我非传奇</author>
      <pubDate>Wed, 10 Dec 2025 02:39:00 +0000</pubDate>
    </item>
    <item>
      <title>spark的共享变量之广播变量和累加器</title>
      <link>https://bbs.qiongdian.com/t-46763-1-1.html</link>
      <description><![CDATA[1 核心概念：为什么需要它们？
在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序 ...]]></description>
      <category>大数据</category>
      <author>开往米兰的夏天</author>
      <pubDate>Tue, 02 Dec 2025 15:01:00 +0000</pubDate>
    </item>
    <item>
      <title>Elasticsearch 麒麟V10下单机部署Elasticsearch8及Kibana</title>
      <link>https://bbs.qiongdian.com/t-46782-1-1.html</link>
      <description><![CDATA[实践环境
elasticsearch-8.16.4-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.16.4-linux-x86_64.tar.gz
kibana-8.16.4-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/kibana/kibana-8.16.4-linux-x86_64 ...]]></description>
      <category>大数据</category>
      <author>鈺潔</author>
      <pubDate>Sun, 02 Nov 2025 14:49:00 +0000</pubDate>
    </item>
    <item>
      <title>vivo HDFS EC大规模落地实践</title>
      <link>https://bbs.qiongdian.com/t-46781-1-1.html</link>
      <description><![CDATA[作者：Gu Ruinan - 互联网大数据团队- Zhao YongxiangErasure Coding(简称EC)，是一种纠删码。EC编码能够对部分缺失的数据进行数据恢复，广泛应用于存储与通信领域。在Hadoop3.0版本中，作为一种新的冗余存储的方式引入进来。使用EC编码的方式替代原来的三副本存储，保 ...]]></description>
      <category>大数据</category>
      <author>李白不写诗</author>
      <pubDate>Thu, 16 Oct 2025 03:22:00 +0000</pubDate>
    </item>
    <item>
      <title>从零开始学Flink：流批一体的执行模式</title>
      <link>https://bbs.qiongdian.com/t-46780-1-1.html</link>
      <description><![CDATA[在大数据处理领域，批处理和流处理曾经被视为两种截然不同的范式。然而，随着Apache Flink的出现，这种界限正在逐渐模糊。Flink的一个核心特性是其批流一体的架构设计，允许用户使用统一的API和执行引擎处理有界数据（批处理）和无界数据（流处理）。本文将深入探讨Flin ...]]></description>
      <category>大数据</category>
      <author>阡陌之上</author>
      <pubDate>Mon, 13 Oct 2025 07:14:00 +0000</pubDate>
    </item>
    <item>
      <title>从零开始学Flink：数据源</title>
      <link>https://bbs.qiongdian.com/t-46779-1-1.html</link>
      <description><![CDATA[在实时数据处理场景中，数据源（Source）是整个数据处理流程的起点。Flink作为流批一体的计算框架，提供了丰富的Source接口支持，其中通过Kafka获取实时数据是最常见的场景之一。本文将以Flink DataStream API为核心，带你从0到1实现“从Kafka消费数据并输出到日志”的 ...]]></description>
      <category>大数据</category>
      <author>万剑合一</author>
      <pubDate>Thu, 18 Sep 2025 07:54:00 +0000</pubDate>
    </item>
    <item>
      <title>Ubuntu上进行Zookeeper集群部署</title>
      <link>https://bbs.qiongdian.com/t-46778-1-1.html</link>
      <description><![CDATA[目录1.zookeeper下载2.zookeeper安装与使用3.zookeeper启动4.zookeeper是什么？为什么要用它？为什么不用Hbase自带的？
1.zookeeper下载
版本无特别要求，一般最新稳定版即可。
这里给出3.8.4的下载链接。（点击即可直接下载）
zookeeper官网：https://zookeeper.apache ...]]></description>
      <category>大数据</category>
      <author>湳乔</author>
      <pubDate>Mon, 15 Sep 2025 01:13:00 +0000</pubDate>
    </item>
    <item>
      <title>《数据资产管理核心技术与应用》读书笔记- 第七章- 数据权限与安全（一）</title>
      <link>https://bbs.qiongdian.com/t-46777-1-1.html</link>
      <description><![CDATA[《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘 ...]]></description>
      <category>大数据</category>
      <author>整天被猫欺负的狗</author>
      <pubDate>Thu, 04 Sep 2025 08:43:00 +0000</pubDate>
    </item>
    <item>
      <title>大数据产品线生产操作安全规约</title>
      <link>https://bbs.qiongdian.com/t-46776-1-1.html</link>
      <description><![CDATA[本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》，作者：朱****静&amp;nbsp;
第一章 总 则
第一条&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;为健全安全生产制度，落实安全生产责任,增强安全风险/隐患排查治理能力，促进安全生产长效机制建设,防止和减少生产安全事故，结合大数 ...]]></description>
      <category>大数据</category>
      <author>耶律大石</author>
      <pubDate>Thu, 28 Aug 2025 10:37:00 +0000</pubDate>
    </item>
    <item>
      <title>《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警（二) -如何使用Grafana和Prometheus来实现数据监控与告警</title>
      <link>https://bbs.qiongdian.com/t-46775-1-1.html</link>
      <description><![CDATA[《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘 ...]]></description>
      <category>大数据</category>
      <author>东方飞狐</author>
      <pubDate>Mon, 11 Aug 2025 08:56:00 +0000</pubDate>
    </item>
    <item>
      <title>数据治理之数据质量评估维度及方法</title>
      <link>https://bbs.qiongdian.com/t-46774-1-1.html</link>
      <description><![CDATA[本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》，作者：i****n
从某种程度上来说“数据=金钱”，数据质量的好坏直接决定着数据价值高低，直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中，通过开展数据质量 ...]]></description>
      <category>大数据</category>
      <author>黄昏的夕阳</author>
      <pubDate>Thu, 31 Jul 2025 08:37:00 +0000</pubDate>
    </item>
    <item>
      <title>读用数据说服：如何设计、呈现和捍卫你的数据09读后总结与感想兼导读</title>
      <link>https://bbs.qiongdian.com/t-46773-1-1.html</link>
      <description><![CDATA[1.&amp;nbsp;基本信息
用数据说服：如何设计、呈现和捍卫你的数据


米罗·卡扎科夫 著


金城出版社有限公司,2025年07月出版


1.1.&amp;nbsp;读薄率
书籍总字数8.6万字，笔记总字数26227字。
读薄率26227÷86000≈30.5%
1.2.&amp;nbsp;读厚方向


DataMesh权威指南


数据的边界 ...]]></description>
      <category>大数据</category>
      <author>辉特</author>
      <pubDate>Tue, 29 Jul 2025 23:07:00 +0000</pubDate>
    </item>
    <item>
      <title>二次开发必看！DolphinScheduler 3.1.9 开发环境搭建指南</title>
      <link>https://bbs.qiongdian.com/t-46772-1-1.html</link>
      <description><![CDATA[在生产实践中，Apache DolphinScheduler 3.1.9 版本因其稳定性和成熟的特性，成为众多企业用户的首选版本。随着使用深入，不少用户希望在此基础上进行二次开发，以更好地满足自身业务需求。然而，开展二次开发前，搭建完善的本地开发环境至关重要。本文结合真实案例，详 ...]]></description>
      <category>大数据</category>
      <author>爱可爱</author>
      <pubDate>Tue, 22 Jul 2025 07:28:00 +0000</pubDate>
    </item>
    <item>
      <title>读用数据说服：如何设计、呈现和捍卫你的数据08数据呈现和反对意见</title>
      <link>https://bbs.qiongdian.com/t-46771-1-1.html</link>
      <description><![CDATA[1.&amp;nbsp;数据呈现
1.1.&amp;nbsp;数据自己会说话，但事实并非如此


1.1.1.&amp;nbsp;数据不会说话，当然更不能解释它对你的业务有何意义


1.1.2.&amp;nbsp;数据自己不会说话，必须由你让它说话


1.2.&amp;nbsp;在最好的情况下，数据导向的演示文稿能够促进交互，丰富讨论，得出优质 ...]]></description>
      <category>大数据</category>
      <author>草船等东风</author>
      <pubDate>Sun, 20 Jul 2025 23:00:00 +0000</pubDate>
    </item>
    <item>
      <title>读用数据说服：如何设计、呈现和捍卫你的数据07数据框架</title>
      <link>https://bbs.qiongdian.com/t-46770-1-1.html</link>
      <description><![CDATA[1.&amp;nbsp;数据框架
1.1.&amp;nbsp;受众评判的不只是数据
1.2.&amp;nbsp;有力证据和清晰结构是高效数据沟通的基础

1.2.1.&amp;nbsp;薄弱证据和迷糊逻辑往往也能促使他人行动

1.3.&amp;nbsp;数据评判不准确有很多都是由认知偏误造成的，也就是屡错屡犯的系统性思维误区
1.4.&amp;nbsp;中枢处 ...]]></description>
      <category>大数据</category>
      <author>伯渝</author>
      <pubDate>Sun, 20 Jul 2025 00:03:00 +0000</pubDate>
    </item>
  </channel>
</rss>