《数据资产管理核心技术与应用》读书笔记- 第七章- 数据权限与安全(一)
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...
大数据产品线生产操作安全规约
本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》,作者:朱****静
第一章 总 则
第一条 为健全安全生产制度,落实安全生产责任,增强安全风险/隐患排查治理能力,促进安全生产长效机制建设,防止和减少生产安全事故,结合大数据产品线实际情况,特制定本生产操作安全管理办法。
第 ...
vivo Pulsar 万亿级消息处理实践(4)-Ansible运维部署
作者:Liu Sikang、互联网大数据团队-Luo Mingbo
Pulsar作为下一代云原生架构的分布式消息中间件,存算分离的架构设计能有效解决大数据场景下分布式消息中间件老牌一哥“Kafka”存在的诸多问题,2021年vivo 分布式消息中间件团队正式开启对Pulsar的调研,2022年正式引入Pulsar作为大数据场景下的分布式消息中间件,本篇文 ...
《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警(二) -如何使用Grafana和Prometheus来实现数据监控与告警
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...
数据治理之数据质量评估维度及方法
本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》,作者:i****n
从某种程度上来说“数据=金钱”,数据质量的好坏直接决定着数据价值高低,直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等 ...
读用数据说服:如何设计、呈现和捍卫你的数据09读后总结与感想兼导读
1. 基本信息
用数据说服:如何设计、呈现和捍卫你的数据
米罗·卡扎科夫 著
金城出版社有限公司,2025年07月出版
1.1. 读薄率
书籍总字数8.6万字,笔记总字数26227字。
读薄率26227÷86000≈30.5%
1.2. 读厚方向
DataMesh权威指南
数据的边界:隐私与个人数据保护
Julia数据科学应用
MLOps权 ...
二次开发必看!DolphinScheduler 3.1.9 开发环境搭建指南
在生产实践中,Apache DolphinScheduler 3.1.9 版本因其稳定性和成熟的特性,成为众多企业用户的首选版本。随着使用深入,不少用户希望在此基础上进行二次开发,以更好地满足自身业务需求。然而,开展二次开发前,搭建完善的本地开发环境至关重要。本文结合真实案例,详细介绍 DolphinScheduler 3.1.9 的二次开发环境配置流 ...
读用数据说服:如何设计、呈现和捍卫你的数据08数据呈现和反对意见
1. 数据呈现
1.1. 数据自己会说话,但事实并非如此
1.1.1. 数据不会说话,当然更不能解释它对你的业务有何意义
1.1.2. 数据自己不会说话,必须由你让它说话
1.2. 在最好的情况下,数据导向的演示文稿能够促进交互,丰富讨论,得出优质决策
1.3. TOP-T框架,这是一种数据向幻灯片的制 ...
读用数据说服:如何设计、呈现和捍卫你的数据07数据框架
1. 数据框架
1.1. 受众评判的不只是数据
1.2. 有力证据和清晰结构是高效数据沟通的基础
1.2.1. 薄弱证据和迷糊逻辑往往也能促使他人行动
1.3. 数据评判不准确有很多都是由认知偏误造成的,也就是屡错屡犯的系统性思维误区
1.4. 中枢处理(central processing)
1.4.1. 当受众运用中 ...
Hive自定义函数(UDF)开发和应用流程
目录引言一、Hive自定义函数的类型二、准备环境和工具三、实际案例开发编译四、前方有坑请注意五、总结
引言
Hive作为大数据领域的核心计算引擎,凭借其强大的SQL支持和丰富的内置函数,早已成为数据开发者的效率利器。然而在实际业务场景中,面对复杂的数据处理需求时,仅仅依赖内置函数往往力不从心,当需要实现 ...
读用数据说服:如何设计、呈现和捍卫你的数据06明托金字塔
1. 明托金字塔(Minto pyramid)
1.1. 目的是加强沟通的清晰度,用故事来确定主旨,检验论证的逻辑严谨性
1.2. 明托金字塔是一种着眼于最终沟通形式的思维组织工具
1.3. 得名于推广者芭芭拉·明托(Barbara Minto)
1.4. 支持主旨的是一组核心论点
1.4.1. 芭芭拉·明托将这组论点称为“关键句 ...
数据治理之数据资产健康度量
本文分享自天翼云开发者社区《数据治理之数据资产健康度量》,作者:徐****东
随着数据量的不断增加,数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用,从而提升数据的质量和价值,同时也能够保证数据的安全和合规。
一、数据治理面临的问题
数据治理中主要面临的问题有:
...
数据治理之构建数据资产目录
本文分享自天翼云开发者社区《数据治理之构建数据资产目录》,作者:徐****东
一、引言
现如今,数据已经成为企业实现业务价值的关键。随着大数据技术的发展,企业对于数据的收集、分析和利用越来越重视。其中,数据资产化已经成为企业数据管理的重要趋势,它能帮助企业更好地发掘和利用数据中的价值,从而提升业务效率和优 ...
读用数据说服:如何设计、呈现和捍卫你的数据05高效幻灯片
1. 高效幻灯片
1.1. 在商业领域,受众看到的数据图大部分被整合在幻灯片中
1.2. 确定每张幻灯片要表达的要点
1.3. 每张幻灯片都要有一个要点
1.3.1. 幻灯片要点指的是,你向这些受众展示这些数据的原因
1.3.2. 每张幻灯片都要有一个明确的要点,以便帮助受众减轻认知负荷
1.3.2.1.&nb ...
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业?
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统,能高效地执行和管理大数据流程。用户可以在DolphinScheduler Web界面轻松创建、编辑和调度云原生数据仓库 AnalyticDB MySQL 版的Spark作业。
前提条件
AnalyticDB for MySQL集群的产品系列为企业版、基础版或湖仓版。
AnalyticDB for MySQL集群 ...
MySQL 数据同步至 S3file,并接入 Hive 访问:SeaTunnel 实践指南
作者 | 番兄
如何借助 Apache SeaTunnel 将 MySQL 数据高效同步至 S3file?本文详述的步骤已全部通过测试验证,适用于构建基于对象存储的数据中台场景,具备部署灵活、扩展性强等优势,对有 MySQL 到 S3 数据集成需求的用户具有较高的参考价值,点赞、收藏学习吧!
第一步:创建Hive表
CREATE EXTERNAL TABLE ods_ekp.`ods_ ...
读用数据说服:如何设计、呈现和捍卫你的数据04简化增效
1. 简化增效
1.1. 就算数据图设计得很用心,但如果过于复杂,那也无法说服受众
1.2. 让你的数据图像透明的窗户一样,让受众看清底层的数据
1.3. 最大化数据墨水比,建立信息层级
2. 数据墨水
2.1. 将数据墨水比最大化
2.1.1. 高效的数据图是清晰的
2.1.1.1. 纸页上的每一个符 ...
度小满列举五大技术场景拆解数据库选型方案,降本、性能、效率均翻倍
首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”,会持续更新和 #数据库、#AI、#技术架构 相关的各种技术内容。欢迎感兴趣的朋友们关注!
本文整理自6月21日“OceanBase 城市交流会 · SQL 遇上 AI ”《度小满 × OceanBase 实践:统一架构驱动效率与成本双突破》,点击链接可观看视频回顾。 ...
读用数据说服:如何设计、呈现和捍卫你的数据03选择数据图(下)
1. 分布关系
1.1. 分布是将一个类别按照类别内项目的数值进行分解
1.2. 分布关系常常与总分关系混淆
1.2.1. 分布是将一个类别细分成若干值域,划分标准是该类别测量的数值
1.2.2. 总分关系是按照类别来划分数据,而非一个类别内的定量指标
1.3. 表示分布关系的词语
1.3.1. 频 ...
读用数据说服:如何设计、呈现和捍卫你的数据02选择数据图(上)
1. 选择数据图类型
1.1. 数据图借助了我们发现数据关系的能力
1.2. 数据图将数据分块并凸显重要的对照关系,从而将数据关系可视化
1.3. 确定底层关系是选择适当数据图类型的关键
1.3.1. 首先要确定你想要强调的底层数据关系,然后让这个关系指导你选择数据图
1.4. 数据图涵盖了大部分场景 ...