大数据今日: 0|主題: 123|排名: 16

1. 基本信息数据自助服务实践指南：数据开放与洞察提效 [美] 桑迪普·乌坦坎达尼（Sandeep Uttamchandani）著机械工业出版社,2022年05月出版 1.1. 读薄率书籍总字数271千字，笔记总字数75696字。读薄率75696÷271000≈27.93% 1.2. 读厚方向 DataMesh权威指南数据的边界：隐私与个人数据保 ...

196

禾火木公发表于 2025-5-10 大数据

vivo HDFS EC大规模落地实践

作者：Gu Ruinan - 互联网大数据团队- Zhao YongxiangErasure Coding(简称EC)，是一种纠删码。EC编码能够对部分缺失的数据进行数据恢复，广泛应用于存储与通信领域。在Hadoop3.0版本中，作为一种新的冗余存储的方式引入进来。使用EC编码的方式替代原来的三副本存储，保证数据可靠性的同时可以节约存储。相应地，付出的代价 ...

1102

李白不写诗发表于 2025-10-16 大数据

掌握相关性分析：读懂数据间的“悄悄话”

在数据分析的江湖里，我们经常会听到老板或业务方抛出这样的问题： “现在的年轻人越晚睡，买护肤品是不是越疯狂？” “我们APP的各种优惠券，真的能提升用户的留存率吗？” “天气越热，这只股票是不是跌得越惨？” 面对这些问题，很多新人容易犯 “凭感觉” 的错误：“我觉得应该有关系吧……” 数据分析不相信“我觉得 ...

1149

消消发表于 2025-12-19 大数据

Apache DolphinScheduler社区答疑Star第三期评选结果公示

Apache DolphinScheduler社区答疑Star第三期评选活动圆满完成啦！本次活动旨在表彰那些长期为社区用户提供专业解答、积极推动技术交流的社群管理员。经过社区成员的公开票选，和上期一样，在25个社区群中共有2位表现突出的管理员获得最多投票。让我们热烈祝贺以下获奖者（按排名顺序）： 🏆 第一名：刘闯 🥈 第二名：杨佳 ...

1117

至强广告设计事务所发表于 2025-5-13 大数据

Flink-JAVA开发.01-搭建简单的开发环境

Flink算得上是大数据领域比较优秀的一个工具。它已经被收归于阿帕奇基金会之下。本文简介适用于开发的环境，不面向生产。一、Flink简介注：以下内容由edge的Copilot生成，本人稍微整理。 🧬 Flink 的起源与发展 Apache Flink 起源于 2009 年德国柏林工业大学的一个研究项目 Stratosphere，这是一个由德国研究基金会资助 ...

1133

穿过你的黑发的眼的我发表于 2025-6-27 大数据

微调完怎么判断好不好？大模型效果评估入门指南（附代码）

微调完怎么判断好不好？大模型效果评估入门指南（附代码）（一）引言：微调评估不是“算个数”，是模型落地的关键一步大家好，我是七七！每天都能看到一堆新手提问，核心就一个：“博主，我把7B模型微调完了，准确率82%，这效果算合格吗？”“生成任务怎么判断模型调得好不好，总不能凭感觉吧？” 其实这也是我刚入门时 ...

086

普通高达驾驶员发表于 2026-1-17 大数据

OceanBase 在滴滴大规模运维经验以及新功能落地实践

作者：吴其朋，滴滴分布式存储运维负责人滴滴出行（下文简称“滴滴”）作为涵盖#网约车、#出租车、#顺风车、#代驾等业务的一站式多元化出行平台，拥有全球客户6.5亿。自2024年应用OceanBase以来，已在多个场景落地并替换RocksDB、TokuDB，包括网约车增长服务、中台核心归档库、代驾核心归档库、EP、无人车服务等。本文以 ...

053

潇洒牧羊人发表于 2025-12-19 大数据

搞懂“元数据”：给数据办一张“身份证”

你是否经历过这样的场景：同事发给你一个 Excel 表格，文件名叫 data_final_v2.xlsx。你满怀期待地打开，结果发现：表头是 cryptic 的英文缩写（如 c_amt, usr_stat）；有一列全是数字 1, 0, 1, 0，你猜不出这代表“男女”还是“是否活跃”；你根本不知道这份数据是今天的，还是上个月的过期数据。这时候，你面对着 ...

080

奎星楼发表于 2025-12-11 大数据

vivo Celeborn PB级Shuffle优化处理实践

作者： vivo 互联网大数据团队-Wang Zhiwen、Cai Zuguangvivo大数据平台通过引入RSS服务来满足混部集群中间结果（shuffle 数据）临时落盘需求,在综合对比后选择了Celeborn组件，并在后续的应用实践过程中不断优化完善，本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案，用于帮助读者对相似问题进行参考 ...

054

回收的平头小哥发表于 2025-12-11 大数据

Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法

Hadoop 实战：从Hive、Impala（Cloudera CDH、CDP）海量数据到 AI 决策的落地方法建议由CDH迁移到CMP 7.13 平台（类Cloudera CDP，如华为鲲鹏 ARM 版）可以做到无缝切换平缓迁移 Hadoop 实战：从 Hive、Impala 海量数据到 AI 决策的落地方法一、引言：为什么需要将 Hadoop 与 AI 决策结合？ ...

076

我非传奇发表于 2025-12-10 大数据

spark的共享变量之广播变量和累加器

1 核心概念：为什么需要它们？在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两 ...

0131

开往米兰的夏天发表于 2025-12-2 大数据

深入浅出理解你的“数据”

对于想要学习数据分析的同学，如果你问我："数据分析的第一步是什么？" 我的回答是："理解数据本身。" 数据是我们所有分析工作的起点，本文主要探讨如何辨别我们面对的是什么样的数据，包括它的分类方法和描述维度。 1. 数据分类数据并非千篇一律，它们有着不同的特征和属性。正确理解数据的分类，是选择适当分析方法的前 ...

0140

乡村小张发表于 2025-11-20 大数据

vivo国产数据库技术储备，突破大规模数据的存储与性能瓶颈

作者：杜霆，vivo互联网存储运维负责人 vivo 是一家以智能终端和智慧服务为核心的科技公司，服务全球 5亿+ 用户，公司内分设多条业务线，其中vivo互联网业务在近两年内完成底层数据库方案的升级以更好地支撑业务发展。业务使用OceanBase后，解决了原本的MySQL在大规模数据场景下的存储与性能使用瓶颈，高并发数据更新效率提 ...

076

刘尚恒发表于 2025-11-13 大数据

Flink 的 RocksDB 状态后端在 vivo 的实践

作者：互联网大数据团队- Chen Rui本文简要介绍了特征拼接在实时推荐中的重要作用，并讲述了vivo实时推荐系统中特征拼接模块的架构演进过程以及采用现有的“基于RocksDB的大状态解决方案”的原因，重点叙述了该方案所遇到的一系列问题，包括TM Lost、RocksDB性能调优门槛高、TM初始化慢、状态远程存储HDFS RPC飙高等，并给 ...

079

隔壁的泰山发表于 2025-11-13 大数据

Hive查询报错：java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.LongWritable

以下只是说一下解决思路供大家参考以下基于hive的内部表 Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.LongWritable (state=,code=0) 这个是因为hdfs的 ...

048

梦里的故乡发表于 2025-11-11 大数据

从零开始学Flink：事件驱动

在实时计算领域，很多业务逻辑天然适合“事件驱动”模式：当事件到达时触发处理、在某个时间点触发补偿或汇总、根据状态变化发出告警等。Apache Flink 为此提供了强大的 ProcessFunction 家族（KeyedProcessFunction、CoProcessFunction、BroadcastProcessFunction 等），它们在算子层面同时具备“事件处理 + 定时器 + 状态 ...

054

木十文发表于 2025-11-4 大数据

Elasticsearch 麒麟V10下单机部署Elasticsearch8及Kibana

实践环境 elasticsearch-8.16.4-linux-x86_64.tar.gz https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.16.4-linux-x86_64.tar.gz kibana-8.16.4-linux-x86_64.tar.gz https://artifacts.elastic.co/downloads/kibana/kibana-8.16.4-linux-x86_64.tar.gz 麒麟V10 新建运行用户 # groupadd -g 505 ela ...

082

鈺潔发表于 2025-11-2 大数据

从零开始学Flink：流批一体的执行模式

在大数据处理领域，批处理和流处理曾经被视为两种截然不同的范式。然而，随着Apache Flink的出现，这种界限正在逐渐模糊。Flink的一个核心特性是其批流一体的架构设计，允许用户使用统一的API和执行引擎处理有界数据（批处理）和无界数据（流处理）。本文将深入探讨Flink的执行模式（Execution Mode），特别是在Flink 1.20. ...

059

阡陌之上发表于 2025-10-13 大数据

从零开始学Flink：数据源

在实时数据处理场景中，数据源（Source）是整个数据处理流程的起点。Flink作为流批一体的计算框架，提供了丰富的Source接口支持，其中通过Kafka获取实时数据是最常见的场景之一。本文将以Flink DataStream API为核心，带你从0到1实现“从Kafka消费数据并输出到日志”的完整流程，掌握Flink Source的核心用法。一、为什么选 ...

0110

万剑合一发表于 2025-9-18 大数据

Ubuntu上进行Zookeeper集群部署

目录1.zookeeper下载2.zookeeper安装与使用3.zookeeper启动4.zookeeper是什么？为什么要用它？为什么不用Hbase自带的？ 1.zookeeper下载版本无特别要求，一般最新稳定版即可。这里给出3.8.4的下载链接。（点击即可直接下载） zookeeper官网：https://zookeeper.apache.org/ 2.zookeeper安装与使用（0）！！！在开始之前 ...

0113

湳乔发表于 2025-9-15 大数据

12 3 4 5 6 7 / 7 頁下一頁

返回發新帖

大数据今日: 0|主題: 123|排名: 16

快速發帖

瀏覽過的版塊

大数据 今日: 0|主題: 123|排名: 16

快速發帖

瀏覽過的版塊

大数据今日: 0|主題: 123|排名: 16