大数据今日: 0|主題: 123|排名: 15

译自Gartner 作者 | Mark Driver，Nitish Tyagi 摘要技术创新领导者可以通过开源软件（OSS）推动创新、节省成本并提升灵活性。然而，若想真正的实现规避风险并提升业务价值，而不仅仅是炒作，优秀的管理和治理至关重要。关键发现很多时候我们都没有察觉到，几乎所有 IT 组织在关键任务型工作负载中都在使用开源软件。企 ...

053

凤舞苍琼发表于 2025-6-11 大数据

【生产实践】Dolphinscheduler集群部署后Web控制台不能登录的问题解决了!

问题描述 Dolphinscheduler按生产手册使用一键脚本集群部署后，控制台登录页面可以打开，但使用默认账户怎么都登录不进去，尝试在数据库中清理登录用户字段，发现数据库中并没有相关用户字段，而后使用Dolphinscheduler初始化脚本建库时发现连接数据库失败。报错信息： Loading class `com.mysql.jdbc.Driver'. This i ...

0157

雲茶汐水发表于 2025-6-11 大数据

A路径 VS B路径：先攻新加坡还是直取美国？中国科技出海的生死选择题

作者：郭炜，白鲸开源 CEO，Apache 基金会成员在全球科技产业不断重塑格局的背景下，越来越多的中国软件企业将“出海”视为新阶段的战略命题。但面对资源有限、市场多样的现实，每一家企业都必须回答一个关键问题：出海第一站，选哪里？本文结合白鲸开源在开源商业化出海过程中的实践经验，重构全球化路径的认知，并提出 ...

070

王者传说发表于 2025-6-5 大数据

vivo Pulsar万亿级消息处理实践（1）-数据发送原理解析和性能调优

作者：vivo 互联网大数据团队- Quan Limin 本文是vivo互联网大数据团队《vivo Pulsar万亿级消息处理实践》系列文章第1篇。文章以Pulsar client模块中的Producer为解析对象，通过对Producer数据发送原理进行逐层分析，以及分享参数调优实战案例，帮助读者理解与使用好Producer，并体会到Producer对消息中间件系统稳定性以 ...

068

梅朵儿发表于 2025-6-5 大数据

多源多表写入、数据格式增强，SeaTunnel 2.3.11 重磅更新来了！

我们很高兴地宣布 Apache SeaTunnel 2.3.11 正式发布！作为一个专注于高性能、可扩展的数据集成平台，SeaTunnel 始终致力于为开发者和数据工程团队提供更强大、更灵活的异构数据处理能力。本次 2.3.11 版本在稳定性、易用性、连接器生态、数据转换能力以及引擎层面都进行了重要增强。无论是支持更多新型数据源与目标端、多 ...

0109

谋幸福发表于 2025-6-5 大数据

读数据科学伦理：概念、技术和警世故事13读后总结与感想兼导读

1. 基本信息数据科学伦理：概念、技术和警世故事 Data Science Ethics：Concepts, Techniques and Cautionary Tales [比]大卫·马滕斯(David Martens) 著中国科学技术出版社,2024年01月出版 1.1. 读薄率书籍总字数14.9万字，笔记总字数38380字。读薄率38380÷149000≈25.76% 1.2. 读厚方向 Dat ...

0111

微风和朐发表于 2025-5-30 大数据

4月报 | SeaTunnel支持TDengine的多表Sink功能

各位热爱 Apache SeaTunnel 的小伙伴们，今年 4 月份月报更新啦！这里将记录 SeaTunnel 社区每月的重要更新，欢迎关注！在本月的众多更新中，最令人关注的一项新特性是——TDengine 多表 Sink 功能的支持（由 @jia17 提交）。这一功能的引入，标志着 SeaTunnel 在面向时序数据库的数据写入能力上迈出了关键一步。在工业物 ...

0144

瞬间恒发表于 2025-5-27 大数据

实战分享：DolphinScheduler 中 Shell 任务环境变量最佳配置方式

在使用 Apache DolphinScheduler 编排任务的过程中，Shell 类型任务是最常见的任务类型之一。然而，很多用户在实际使用中都会遇到一个看似简单却常常引发问题的问题——环境变量怎么设置才有效？如果你也曾经因为任务执行环境不一致、找不到命令路径、引用变量失败等问题而抓狂，那么这篇文章将为你拨开迷雾。本文将深入解 ...

058

吴顺财发表于 2025-5-27 大数据

4月报 | 将已派遣任务按工人组划分到不同等待队列提案落地

各位热爱 Apache DolphinScheduler 的小伙伴们，今年 4 月份社区月报来啦！社区月报每月更新一次，欢迎关注本栏目，即时跟进项目最新进展。 🎯 本月看点：任务调度更智能，队列管理更高效！在本月更新中，最值得关注的是来自社区贡献者 @det101 的 [DSIP-55] 提案正式落地，实现了将已派遣任务按工人组划分到不同等待队列 ...

0161

天下事发表于 2025-5-27 大数据

第四期评选结果公示！Apache DolphinScheduler社区答疑Star揭晓

Apache DolphinScheduler社区答疑Star第四期评选活动圆满完成啦！本次活动旨在表彰那些长期为社区用户提供专业解答、积极推动技术交流的社群管理员。经过社区成员的公开票选，在25个社区群中共有3位表现突出的管理员获得最多投票。让我们热烈祝贺以下获奖者（按排名顺序）： 🏆 第一名：刘闯 🥈 第二名：杨佳豪 🥉 第三名 ...

0127

阿玛说必须不用有网名发表于 2025-5-23 大数据

读数据科学伦理：概念、技术和警世故事12结论

1. 管理方式 1.1. 设立伦理监督委员会 1.1.1. 设立一个道德监督委员会，由其负责制定公司希望在所有阶段遵守的伦理原则 1.1.2. 有原则的政策应该指导可能出现的伦理问题 1.1.3. 委员会成员应富有学识、肯花时间，并得到公司内部的认可 1.1.3.1. 委员会应包括来自所有利益相关者的代 ...

082

娱乐观察员发表于 2025-5-22 大数据

读数据科学伦理：概念、技术和警世故事11伦理部署

1. 伦理部署 1.1. 谁有权访问系统 1.1.1. 谁有权使用部署系统 1.1.2. 选择限制访问可能会赋权给授予访问权的人 1.2. 区别对待他人的伦理规范（基于已有的预测、诚信和监督），以及数据科学部署引发的非预期后果 1.2.1. 失业是关键问题之一 1.3. Waymo汽车 1.3.1. 是 ...

0156

钱欢发表于 2025-5-21 大数据

读数据科学伦理：概念、技术和警世故事10道德评价

1. 道德评价 1.1. 需要衡量什么？ 1.1.1. 是在什么背景下进行评估的？ 1.1.2. 使用了什么基准？ 1.1.3. 需要评估FAT标准中的每一项吗？ 1.2. 如何解释这些结果？ 1.2.1. 研究结果有意义吗？ 1.2.2. 是“p值篡改”的问题，还是做了多次对比，却没有得到妥善纠正的问题 ...

097

想飞的张飞发表于 2025-5-20 大数据

高能预警！白鲸开源将赴约亚马逊云科技Community Day，共探Agent AI未来

盛夏将至一场技术狂欢即将上演热血开发者蓄势待发海量议题即将引爆全场！ Community Day倒计时仅剩一周你准备好了吗？参与论坛：Next下一代开发范式时间段：13:30-17:30 聚焦改变开发者日常的革命性突破没有晦涩的技术说教只有前沿的实战分享下一代开发范式，由你定义！白鲸开源CEO郭炜将出席这一论坛，并带来精 ...

0137

慢品人间火色发表于 2025-5-20 大数据

基于DolphinScheduler抽取通用EventBus组件：支持延迟与事件驱动

一、思路来源虽然guava中的eventbus已经很方便了，但是还是想要实现一个更为方便，同时支持延迟事件、同时带eventbus的组件。在Apache DolphinScheduler项目中，有一个eventbus的组件，这个组件写得挺好的，想着用在业务系统上，因此自己抽取了一下，拿到业务系统中来用。话不多说，我们把它抽取出来吧，同时进行demo的运 ...

094

刘虹发表于 2025-5-19 大数据

Java资源管理与防止泄漏：从SeaTunnel源码看资源释放

资源管理是 Java 开发中常被忽视却至关重要的一环。本文从 SeaTunnel 案例出发，探讨 Java 中如何正确管理资源，防止资源泄漏。 SeaTunnel 中的一次修复 Apache SeaTunnel 项目中的 HiveSink 组件曾存在一个典型的资源泄漏隐患。修复前后的代码对比如下所示：修改前： @Override public List<FileAggregatedCommitInfo> co ...

083

蜜桃的男人发表于 2025-5-19 大数据

读数据科学伦理：概念、技术和警世故事09伦理建模

1. 伦理建模 1.1. 女性的隐形歧视问题 1.2. 可解释性问题，即能够解释预测结果 1.2.1. 之所以需要能够解释预测结果，是因为我们既要获得对模型的信任，又要有所感悟，还要改进模型 1.3. 可解释性方法 1.3.1. 复杂模型可解释性方法(LIME) 1.3.2. 反事实分析方法 1.3.2.1. ...

084

志远毅行行天下发表于 2025-5-19 大数据

读数据科学伦理：概念、技术和警世故事08隐私保护数据挖掘

1. ε-差分隐私 1.1. 差分隐私的概念是由辛西娅·德沃克(Cynthia Dwork)提出的，是数据科学的黄金标准之一，它将隐私纳入其中 1.2. 差分隐私的目标是让社会科学家共享有用的统计数据，这些统计数据与敏感数据库有关 1.2.1. 如果不考虑隐私问题便回答，就可能会泄露私人敏感信息 1.2.2. 采用k ...

070

琪琪爱走路发表于 2025-5-18 大数据

读数据科学伦理：概念、技术和警世故事07再识别和公平

1. 再识别 1.1. 我们生活在数字化时代，行为数据记录着我们的一举一动的 1.1.1. 行为数据会带来隐私风险，主要因为有完全相同记录行为的人数极少，所以才可以进行再识别 1.1.2. 加强k-匿名会大大降低此类数据的效用，因为此类数据具有细粒度属性，因此建立在此类数据上的预测模型的精确度往往会比 ...

0132

敬元发表于 2025-5-17 大数据

【SQL周周练】：利用行车轨迹分析犯罪分子作案地点

大家好，我是“蒋点数分”，多年以来一直从事数据分析工作。从今天开始，与大家持续分享关于数据分析的学习内容。本文是第 7 篇，也是【SQL 周周练】系列的第 6 篇。该系列是挑选或自创具有一些难度的 SQL 题目，一周至少更新一篇。后续创作的内容，初步规划的方向包括：后续内容规划 1.利用 Streamlit 实现 Hive 元数据 ...

073

就是说发表于 2025-5-16 大数据

1 2 3 456 7 / 7 頁下一頁

返回發新帖

大数据今日: 0|主題: 123|排名: 15

快速發帖

瀏覽過的版塊

大数据 今日: 0|主題: 123|排名: 15

快速發帖

瀏覽過的版塊

大数据今日: 0|主題: 123|排名: 15