Elasticsearch 麒麟V10下单机部署Elasticsearch8及Kibana
实践环境
elasticsearch-8.16.4-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.16.4-linux-x86_64.tar.gz
kibana-8.16.4-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/kibana/kibana-8.16.4-linux-x86_64.tar.gz
麒麟V10
新建运行用户
# groupadd -g 505 ela ...
vivo HDFS EC大规模落地实践
作者:Gu Ruinan - 互联网大数据团队- Zhao YongxiangErasure Coding(简称EC),是一种纠删码。EC编码能够对部分缺失的数据进行数据恢复,广泛应用于存储与通信领域。在Hadoop3.0版本中,作为一种新的冗余存储的方式引入进来。使用EC编码的方式替代原来的三副本存储,保证数据可靠性的同时可以节约存储。相应地,付出的代价 ...
从零开始学Flink:流批一体的执行模式
在大数据处理领域,批处理和流处理曾经被视为两种截然不同的范式。然而,随着Apache Flink的出现,这种界限正在逐渐模糊。Flink的一个核心特性是其批流一体的架构设计,允许用户使用统一的API和执行引擎处理有界数据(批处理)和无界数据(流处理)。本文将深入探讨Flink的执行模式(Execution Mode),特别是在Flink 1.20. ...
从零开始学Flink:数据源
在实时数据处理场景中,数据源(Source)是整个数据处理流程的起点。Flink作为流批一体的计算框架,提供了丰富的Source接口支持,其中通过Kafka获取实时数据是最常见的场景之一。本文将以Flink DataStream API为核心,带你从0到1实现“从Kafka消费数据并输出到日志”的完整流程,掌握Flink Source的核心用法。
一、为什么选 ...
Ubuntu上进行Zookeeper集群部署
目录1.zookeeper下载2.zookeeper安装与使用3.zookeeper启动4.zookeeper是什么?为什么要用它?为什么不用Hbase自带的?
1.zookeeper下载
版本无特别要求,一般最新稳定版即可。
这里给出3.8.4的下载链接。(点击即可直接下载)
zookeeper官网:https://zookeeper.apache.org/
2.zookeeper安装与使用
(0)!!! 在开始之前 ...
《数据资产管理核心技术与应用》读书笔记- 第七章- 数据权限与安全(一)
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...
大数据产品线生产操作安全规约
本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》,作者:朱****静
第一章 总 则
第一条 为健全安全生产制度,落实安全生产责任,增强安全风险/隐患排查治理能力,促进安全生产长效机制建设,防止和减少生产安全事故,结合大数据产品线实际情况,特制定本生产操作安全管理办法。
第 ...
《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警(二) -如何使用Grafana和Prometheus来实现数据监控与告警
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...
数据治理之数据质量评估维度及方法
本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》,作者:i****n
从某种程度上来说“数据=金钱”,数据质量的好坏直接决定着数据价值高低,直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等 ...
读用数据说服:如何设计、呈现和捍卫你的数据09读后总结与感想兼导读
1. 基本信息
用数据说服:如何设计、呈现和捍卫你的数据
米罗·卡扎科夫 著
金城出版社有限公司,2025年07月出版
1.1. 读薄率
书籍总字数8.6万字,笔记总字数26227字。
读薄率26227÷86000≈30.5%
1.2. 读厚方向
DataMesh权威指南
数据的边界:隐私与个人数据保护
Julia数据科学应用
MLOps权 ...
二次开发必看!DolphinScheduler 3.1.9 开发环境搭建指南
在生产实践中,Apache DolphinScheduler 3.1.9 版本因其稳定性和成熟的特性,成为众多企业用户的首选版本。随着使用深入,不少用户希望在此基础上进行二次开发,以更好地满足自身业务需求。然而,开展二次开发前,搭建完善的本地开发环境至关重要。本文结合真实案例,详细介绍 DolphinScheduler 3.1.9 的二次开发环境配置流 ...
读用数据说服:如何设计、呈现和捍卫你的数据08数据呈现和反对意见
1. 数据呈现
1.1. 数据自己会说话,但事实并非如此
1.1.1. 数据不会说话,当然更不能解释它对你的业务有何意义
1.1.2. 数据自己不会说话,必须由你让它说话
1.2. 在最好的情况下,数据导向的演示文稿能够促进交互,丰富讨论,得出优质决策
1.3. TOP-T框架,这是一种数据向幻灯片的制 ...
读用数据说服:如何设计、呈现和捍卫你的数据07数据框架
1. 数据框架
1.1. 受众评判的不只是数据
1.2. 有力证据和清晰结构是高效数据沟通的基础
1.2.1. 薄弱证据和迷糊逻辑往往也能促使他人行动
1.3. 数据评判不准确有很多都是由认知偏误造成的,也就是屡错屡犯的系统性思维误区
1.4. 中枢处理(central processing)
1.4.1. 当受众运用中 ...
微调完怎么判断好不好?大模型效果评估入门指南(附代码)
微调完怎么判断好不好?大模型效果评估入门指南(附代码)
(一)引言:微调评估不是“算个数”,是模型落地的关键一步
大家好,我是七七!每天都能看到一堆新手提问,核心就一个:“博主,我把7B模型微调完了,准确率82%,这效果算合格吗?”“生成任务怎么判断模型调得好不好,总不能凭感觉吧?”
其实这也是我刚入门时 ...
掌握相关性分析:读懂数据间的“悄悄话”
在数据分析的江湖里,我们经常会听到老板或业务方抛出这样的问题:
“现在的年轻人越晚睡,买护肤品是不是越疯狂?”
“我们APP的各种优惠券,真的能提升用户的留存率吗?”
“天气越热,这只股票是不是跌得越惨?”
面对这些问题,很多新人容易犯 “凭感觉” 的错误:“我觉得应该有关系吧……”
数据分析不相信“我觉得 ...
OceanBase 在滴滴大规模运维经验以及新功能落地实践
作者:吴其朋,滴滴分布式存储运维负责人
滴滴出行(下文简称“滴滴”)作为涵盖#网约车、#出租车、#顺风车、#代驾 等业务的一站式多元化出行平台,拥有全球客户6.5亿。自2024年应用OceanBase以来,已在多个场景落地并替换RocksDB、TokuDB,包括网约车增长服务、中台核心归档库、代驾核心归档库、EP、无人车服务等。本文以 ...
搞懂“元数据”:给数据办一张“身份证”
你是否经历过这样的场景:
同事发给你一个 Excel 表格,文件名叫 data_final_v2.xlsx。
你满怀期待地打开,结果发现:
表头是 cryptic 的英文缩写(如 c_amt, usr_stat);
有一列全是数字 1, 0, 1, 0,你猜不出这代表“男女”还是“是否活跃”;
你根本不知道这份数据是今天的,还是上个月的过期数据。
这时候,你面对着 ...
vivo Celeborn PB级Shuffle优化处理实践
作者: vivo 互联网大数据团队-Wang Zhiwen、Cai Zuguangvivo大数据平台通过引入RSS服务来满足混部集群中间结果(shuffle 数据)临时落盘需求,在综合对比后选择了Celeborn组件,并在后续的应用实践过程中不断优化完善,本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案,用于帮助读者对相似问题进行参考 ...
Hadoop 实战:从Hive、Impala(Cloudera CDH、CDP)海量数据到 AI 决策的落地方法
Hadoop 实战:从Hive、Impala(Cloudera CDH、CDP)海量数据到 AI 决策的落地方法
建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)可以做到无缝切换平缓迁移
Hadoop 实战:从 Hive、Impala 海量数据到 AI 决策的落地方法
一、引言:为什么需要将 Hadoop 与 AI 决策结合? ...
spark的共享变量之广播变量和累加器
1 核心概念:为什么需要它们?
在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两 ...