读数据科学伦理:概念、技术和警世故事05后门、偏差与偏见
1. 后门
1.1. 政府经常主张在加密标准中设置“后门”,这样他们就能够在适当的时候(比如在获得法院命令之后)检索个人数据
1.2. “五眼情报联盟”(Five Eyes intelligence alliance)
1.2.1. 如果电信和科技公司不为执法机构和政府提供“合法获取”公民加密信息的“后门”,它们将遭到强烈抵制
...
他为SeaTunnel写下10+高质量PR,还把开源带进了公司生产线!
🧑💻 他是企业级 AIOps 专家
🧠 他是 Apache SeaTunnel 的活跃贡献者
🧗♂️ 他热爱爬山、骑行,也热衷于代码世界的每一场冒险
本期,我们邀请到来自「移动云能力中心」的倪佳晖,带你走进他与 SeaTunnel 社区之间那些真实、热血又有趣的成长故事。
🎯 GitHub ID: @cosmosni
🧠 擅长领域: AIOps 故障诊断 / 告警聚 ...
升级遇到坑?一文带你搞定 DolphinScheduler 2.0 到 3.0 升级
1.升级背景
因项目需要使用数据质量模块功能,可以为数仓提供良好的数据质量监控功能。故要对已有2.0版本升级到3.0版本以上,此次选择测试了3.0.1 和 3.1.1 两个版本,对进行同数据等任务调度暂停等操作测试,最后选择3.0.1 版本
原因:
3.1.1 在测试sql任务时 ,同时启动上百sql 任务时,会出现sql 任务报错,导致大量 ...
读数据科学伦理:概念、技术和警世故事04隐私保护机制
1. 加密
1.1. 在数据保护的基本方法中,加密可能是最重要的一种方法
1.1.1. 加密的基本概念是指将信息进行编码,只有经过授权的人才可访问它
1.1.2. 在现代社会,这是保障个人数据安全储存和传输的重要工具
1.1.3. 信息编码被称为密码
1.1.4. 在加密中,密文仍能被还原成明文
1.2 ...
【SQL周周练】一千条数据需要做一天,怎么用 SQL 处理电表数据(如何动态构造自然月)
大家好,我是“蒋点数分”,多年以来一直从事数据分析工作。从今天开始,与大家持续分享关于数据分析的学习内容。
本文是第 6 篇,也是【SQL 周周练】系列的第 5 篇。该系列是挑选或自创具有一些难度的 SQL 题目,一周至少更新一篇。后续创作的内容,初步规划的方向包括:
后续内容规划
1.利用 Streamlit 实现 Hive 元数据 ...
Agentic AI要终结数据库和SaaS?大厂掌门人公开互撕,焦虑的CEO们押上了不同的技术路线
作者 | Tina
Agent 正在成为 2025 年 AI 世界最炙手可热的关键词之一。
无论是大模型厂商、AI 初创公司,还是企业级应用团队,几乎都在讨论“多智能体协作”“自动化决策流程”以及“具备工具调用能力的 AI 系统”。
谷歌、英伟达等科技巨头纷纷布局,上个月亚马逊还成立了一个专注于 Agentic AI 的新部门,初创公司们也争 ...
你没见过的调度玩法!Zoom首次公开DolphinScheduler创新应用
Apache DolphinScheduler 社区 Meetup 又来啦!本次活动,我们特别邀请到了来自 Zoom 的技术专家师彬杰,带来《DolphinScheduler 在 Zoom 的生产实践》主题分享,揭秘全球最大的线上会议平台 Zoom 是如何在业务中高效使用 DolphinScheduler 的!
📅 直播时间:2025 年 5 月 20 日 14:00-15:00
📍 直播平台:视频号线上直 ...
读数据科学伦理:概念、技术和警世故事03伦理数据的收集
1. 伦理数据的收集
1.1. 隐私保护技术,如加密、模糊处理和差分隐私,这些技术着眼于保持隐私与个人数据的收集和存储之间的平衡
1.2. 有偏差的数据科学模型通常是由所收集的数据的偏差造成的
1.3. 重视伦理的数据收集实践是人体实验
1.4. 所有的数据科学项目都离不开数据
1.4.1. 就隐私保 ...
【数分基本功】 两种不同的用户活跃度,留存率居然完全一致!
大家好,我是“蒋点数分”,多年以来一直从事数据分析工作。从今天开始,与大家持续分享关于数据分析的学习内容。
本文是第 4 篇,也是【数分基本功】系列的第 1 篇。该系列会讲一些数据分析的基本问题,必要时增加拓展和深入。对 SQL 感兴趣的同学,可以看看我的【SQL 周周练】系列(已发布 3 篇),保证都是有挑战性有意 ...
读数据科学伦理:概念、技术和警世故事02FAT流程框架
1. 概述
1.1. 任何一种框架或核查表都会很快过时(因此需要定期更新):数据源、技术、应用程序和伦理考量都在不断地变化
1.2. 将FAT流程框架作为通用的指导准则
2. 三个属性
2.1. 公平、责任和透明(FAT)
2.1.1. 前两个准则用于评定伦理概念,比如隐私、歧视和可解释性
2.1.2. ...
读数据科学伦理:概念、技术和警世故事01数据科学伦理导读
1. 数据科学伦理的兴起
1.1. 数据科学实践包括:获取数据、(预)处理数据、分析数据、对数据进行建模、评估结果,然后使用模型或结果学习知识、支持论点或做决策
1.2. 数据科学家
1.2.1. 被誉为21世纪最具吸引力的职业
1.2.2. 不仅要在现有数据集上调用预先定义库,还要在数据科学项目里 ...
【SQL 周周练】爬取短视频发现数据缺失,如何用 SQL 填充
大家好,我是“蒋点数分”,多年以来一直从事数据分析工作。从今天开始,与大家持续分享关于数据分析的学习内容。
本文是第 5 篇,也是【SQL 周周练】系列的第 4 篇。该系列是挑选或自创具有一些难度的 SQL 题目,一周至少更新一篇。后续创作的内容,初步规划的方向包括:
后续内容规划
1.利用 Streamlit 实现 Hive 元数据 ...
读数据自助服务实践指南:数据开放与洞察提效21读后总结与感想兼导读
1. 基本信息
数据自助服务实践指南:数据开放与洞察提效
[美] 桑迪普·乌坦坎达尼 (Sandeep Uttamchandani) 著
机械工业出版社,2022年05月出版
1.1. 读薄率
书籍总字数271千字,笔记总字数75696字。
读薄率75696÷271000≈27.93%
1.2. 读厚方向
DataMesh权威指南
数据的边界:隐私与个人数据保 ...
【Uber 面试真题】SQL :每个星期连续5星评价最多的司机
大家好,我是“蒋点数分”,多年以来一直从事数据分析工作。从今天开始,与大家持续分享关于数据分析的学习内容。
本文是第一篇,也是【SQL 周周练】系列的第一篇。该系列是挑选或自编具有一些难度的 SQL 题目,一周至少更新一篇。后续创作的内容,初步规划的方向包括:
后续内容规划
1.利用 Streamlit 实现  ...
HTTP接口数据也能定时同步入湖?用DolphinScheduler×SeaTunnel快速搞定!
背景与目标
我们之前曾评估使用过SeaTunnel做CDC入湖验证:SeaTunnel-CDC入湖实践,这些场景都是能直连数据库的场景,业务需求中经常会出现无法直连数据库做CDC进行数据同步的场景,而这些场景就需要使用API进行数据对接,用Apache DolphinScheduler定时同步数据。
举个实际中的例子:
ERP(SAP)的库存数据进行同步入湖仓 ...
读数据自助服务实践指南:数据开放与洞察提效20成本管理服务
1. 成本管理服务
1.1. 为了利用云中可用的无限资源,企业需要无限的预算
1.1.1. 成本管理对于确保数据平台的有限预算与业务优先级的有效配合至关重要
1.1.2. 由于有众多选择,所以成本管理就像黑盒,需要不断优化成本,以适应日常工作中变化的工作负载
1.2. 操作阶段的最后一部分是成本管 ...
SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制
作者:史德昇
随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩展、易维护且具备复 ...
读数据自助服务实践指南:数据开放与洞察提效19质量可观测性服务
1. 质量可观测性服务
1.1. 数据用户需要确保峰值实际上反映了真实情况,而不是有数据质量问题的结果
1.2. 导致质量问题的情况
1.2.1. 不正确的源模式更改
1.2.2. 数据元素属性的更改
1.2.3. 接入问题
1.2.4. 源系统和目标系统的数据不同步
1.2.5. 处理失败
1.2.6.&nb ...
读数据自助服务实践指南:数据开放与洞察提效18模型部署服务
1. 模型部署服务
1.1. 编写一次性脚本来部署模型并不困难
1.2. 针对模型训练类型(在线与离线)、模型推理类型(在线与离线)、模型格式(PAML、PFA、ONNX等)、终端类型(Web服务、IoT、嵌入式浏览器等)以及性能要求(由预测/秒和延迟定义)的不同组合,管理这些脚本非常困难
1.2.1. 考虑到 ...
读数据自助服务实践指南:数据开放与洞察提效17管道编排服务
1. 管道编排服务
1.1. 查询或程序的运行时实例称为作业
1.1.1. 作业调度需要考虑到正确的依赖项
1.2. 作业管道需要按照特定的顺序进行编排,从数据接入到数据准备再到数据处理
1.3. 痛点
1.3.1. 定义和管理作业之间的依赖项是即席的,容易出错
1.3.1.1. 数据用户需要在管道演进的 ...