大数据 - 圆梦公社圆梦公社

Elasticsearch 麒麟V10下单机部署Elasticsearch8及Kibana

实践环境 elasticsearch-8.16.4-linux-x86_64.tar.gz https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.16.4-linux-x86_64.tar.gz kibana-8.16.4-linux-x86_64.tar.gz https://artifacts.elastic.co/downloads/kibana/kibana-8.16.4-linux-x86_64.tar.gz 麒麟V10 新建运行用户 # groupadd -g 505 ela ...

097

鈺潔发表于 2025-11-2 大数据

vivo HDFS EC大规模落地实践

作者：Gu Ruinan - 互联网大数据团队- Zhao YongxiangErasure Coding(简称EC)，是一种纠删码。EC编码能够对部分缺失的数据进行数据恢复，广泛应用于存储与通信领域。在Hadoop3.0版本中，作为一种新的冗余存储的方式引入进来。使用EC编码的方式替代原来的三副本存储，保证数据可靠性的同时可以节约存储。相应地，付出的代价 ...

1119

李白不写诗发表于 2025-10-16 大数据

从零开始学Flink：流批一体的执行模式

在大数据处理领域，批处理和流处理曾经被视为两种截然不同的范式。然而，随着Apache Flink的出现，这种界限正在逐渐模糊。Flink的一个核心特性是其批流一体的架构设计，允许用户使用统一的API和执行引擎处理有界数据（批处理）和无界数据（流处理）。本文将深入探讨Flink的执行模式（Execution Mode），特别是在Flink 1.20. ...

079

阡陌之上发表于 2025-10-13 大数据

从零开始学Flink：数据源

在实时数据处理场景中，数据源（Source）是整个数据处理流程的起点。Flink作为流批一体的计算框架，提供了丰富的Source接口支持，其中通过Kafka获取实时数据是最常见的场景之一。本文将以Flink DataStream API为核心，带你从0到1实现“从Kafka消费数据并输出到日志”的完整流程，掌握Flink Source的核心用法。一、为什么选 ...

0125

万剑合一发表于 2025-9-18 大数据

Ubuntu上进行Zookeeper集群部署

目录1.zookeeper下载2.zookeeper安装与使用3.zookeeper启动4.zookeeper是什么？为什么要用它？为什么不用Hbase自带的？ 1.zookeeper下载版本无特别要求，一般最新稳定版即可。这里给出3.8.4的下载链接。（点击即可直接下载） zookeeper官网：https://zookeeper.apache.org/ 2.zookeeper安装与使用（0）！！！在开始之前 ...

0126

湳乔发表于 2025-9-15 大数据

《数据资产管理核心技术与应用》读书笔记- 第七章- 数据权限与安全（一）

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...

096

整天被猫欺负的狗发表于 2025-9-4 大数据

大数据产品线生产操作安全规约

本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》，作者：朱****静第一章总则第一条为健全安全生产制度，落实安全生产责任,增强安全风险/隐患排查治理能力，促进安全生产长效机制建设,防止和减少生产安全事故，结合大数据产品线实际情况，特制定本生产操作安全管理办法。第 ...

0132

耶律大石发表于 2025-8-28 大数据

《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警（二) -如何使用Grafana和Prometheus来实现数据监控与告警

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...

073

东方飞狐发表于 2025-8-11 大数据

数据治理之数据质量评估维度及方法

本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》，作者：i****n 从某种程度上来说“数据=金钱”，数据质量的好坏直接决定着数据价值高低，直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中，通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等 ...

097

黄昏的夕阳发表于 2025-7-31 大数据

读用数据说服：如何设计、呈现和捍卫你的数据09读后总结与感想兼导读

1. 基本信息用数据说服：如何设计、呈现和捍卫你的数据米罗·卡扎科夫著金城出版社有限公司,2025年07月出版 1.1. 读薄率书籍总字数8.6万字，笔记总字数26227字。读薄率26227÷86000≈30.5% 1.2. 读厚方向 DataMesh权威指南数据的边界：隐私与个人数据保护 Julia数据科学应用 MLOps权 ...

0136

辉特发表于 2025-7-30 大数据

二次开发必看！DolphinScheduler 3.1.9 开发环境搭建指南

在生产实践中，Apache DolphinScheduler 3.1.9 版本因其稳定性和成熟的特性，成为众多企业用户的首选版本。随着使用深入，不少用户希望在此基础上进行二次开发，以更好地满足自身业务需求。然而，开展二次开发前，搭建完善的本地开发环境至关重要。本文结合真实案例，详细介绍 DolphinScheduler 3.1.9 的二次开发环境配置流 ...

0155

爱可爱发表于 2025-7-22 大数据

读用数据说服：如何设计、呈现和捍卫你的数据08数据呈现和反对意见

1. 数据呈现 1.1. 数据自己会说话，但事实并非如此 1.1.1. 数据不会说话，当然更不能解释它对你的业务有何意义 1.1.2. 数据自己不会说话，必须由你让它说话 1.2. 在最好的情况下，数据导向的演示文稿能够促进交互，丰富讨论，得出优质决策 1.3. TOP-T框架，这是一种数据向幻灯片的制 ...

0117

草船等东风发表于 2025-7-21 大数据

读用数据说服：如何设计、呈现和捍卫你的数据07数据框架

1. 数据框架 1.1. 受众评判的不只是数据 1.2. 有力证据和清晰结构是高效数据沟通的基础 1.2.1. 薄弱证据和迷糊逻辑往往也能促使他人行动 1.3. 数据评判不准确有很多都是由认知偏误造成的，也就是屡错屡犯的系统性思维误区 1.4. 中枢处理(central processing) 1.4.1. 当受众运用中 ...

0108

伯渝发表于 2025-7-20 大数据

微调完怎么判断好不好？大模型效果评估入门指南（附代码）

微调完怎么判断好不好？大模型效果评估入门指南（附代码）（一）引言：微调评估不是“算个数”，是模型落地的关键一步大家好，我是七七！每天都能看到一堆新手提问，核心就一个：“博主，我把7B模型微调完了，准确率82%，这效果算合格吗？”“生成任务怎么判断模型调得好不好，总不能凭感觉吧？” 其实这也是我刚入门时 ...

099

普通高达驾驶员发表于 2026-1-17 大数据

掌握相关性分析：读懂数据间的“悄悄话”

在数据分析的江湖里，我们经常会听到老板或业务方抛出这样的问题： “现在的年轻人越晚睡，买护肤品是不是越疯狂？” “我们APP的各种优惠券，真的能提升用户的留存率吗？” “天气越热，这只股票是不是跌得越惨？” 面对这些问题，很多新人容易犯 “凭感觉” 的错误：“我觉得应该有关系吧……” 数据分析不相信“我觉得 ...

1162

消消发表于 2025-12-19 大数据

OceanBase 在滴滴大规模运维经验以及新功能落地实践

作者：吴其朋，滴滴分布式存储运维负责人滴滴出行（下文简称“滴滴”）作为涵盖#网约车、#出租车、#顺风车、#代驾等业务的一站式多元化出行平台，拥有全球客户6.5亿。自2024年应用OceanBase以来，已在多个场景落地并替换RocksDB、TokuDB，包括网约车增长服务、中台核心归档库、代驾核心归档库、EP、无人车服务等。本文以 ...

062

潇洒牧羊人发表于 2025-12-19 大数据

搞懂“元数据”：给数据办一张“身份证”

你是否经历过这样的场景：同事发给你一个 Excel 表格，文件名叫 data_final_v2.xlsx。你满怀期待地打开，结果发现：表头是 cryptic 的英文缩写（如 c_amt, usr_stat）；有一列全是数字 1, 0, 1, 0，你猜不出这代表“男女”还是“是否活跃”；你根本不知道这份数据是今天的，还是上个月的过期数据。这时候，你面对着 ...

089

奎星楼发表于 2025-12-11 大数据

vivo Celeborn PB级Shuffle优化处理实践

作者： vivo 互联网大数据团队-Wang Zhiwen、Cai Zuguangvivo大数据平台通过引入RSS服务来满足混部集群中间结果（shuffle 数据）临时落盘需求,在综合对比后选择了Celeborn组件，并在后续的应用实践过程中不断优化完善，本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案，用于帮助读者对相似问题进行参考 ...

071

回收的平头小哥发表于 2025-12-11 大数据

Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法

Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法建议由CDH迁移到CMP 7.13 平台（类Cloudera CDP，如华为鲲鹏 ARM 版）可以做到无缝切换平缓迁移 Hadoop 实战：从 Hive、Impala 海量数据到 AI 决策的落地方法一、引言：为什么需要将 Hadoop 与 AI 决策结合？ ...

083

我非传奇发表于 2025-12-10 大数据

spark的共享变量之广播变量和累加器

1 核心概念：为什么需要它们？在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两 ...

0140

开往米兰的夏天发表于 2025-12-2 大数据

大数据今日: 0|主題: 123|排名: 15

快速發帖

瀏覽過的版塊

大数据 今日: 0|主題: 123|排名: 15

快速發帖

瀏覽過的版塊

大数据今日: 0|主題: 123|排名: 15