SeaTunnel 社区 2 项目中选“开源之夏 2025”,探索高阶数据集成能力!
Apache SeaTunnel 社区在“开源之夏 2025”中再传捷报,共有两个项目成功入选,聚焦于 Flink CDC schema 支持与元数据管理的生态扩展方向,体现出 SeaTunnel 在实时数据集成和平台化能力构建上的深入布局。
中选项目与学生如下:
《SeaTunnel on Flink cdc connector 支持 schema evolution》:解决在实时同步中 schema ...
Community Over Code Asia 2025DataOps专题:SeaTunnel社区出品并将带来多个分享!
本次 CommunityOverCode Asia 2025 的 DataOps 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧👀
专题介绍
本专题聚焦 Apache 生态系统中最具创新性和最前沿的项目。该专题汇聚了来自 Apache DolphinScheduler、Apache Airflow、Apache SeaTunnel、Apache Flume、Apache Sqoop、Apach ...
读红蓝攻防:技术与策略35读后总结与感想兼导读
1. 基本信息
红蓝攻防:技术与策略
Cybersecurity—Attack and Defense Strategies, Third Edition
埃达尔·奥兹卡 (阿联酋) 著 ; [美] 尤里·迪奥赫内斯 (YuriDiogenes)
机械工业出版社,2023年01月出版
1.1. 读薄率
书籍总字数560千字,笔记总字数110781字。
读薄率110781÷560000≈19.78%
1.2.&nbs ...
读商战数据挖掘:你需要了解的数据科学与分析思维02数据挖掘
1. 数据挖掘
1.1. 数据挖掘的流程可以分解为几个通俗易懂的环节
1.1.1. 有些环节涉及信息技术的应用,如数据中模式的自动发现和评估
1.1.2. 有些则主要依赖数据分析师的创意、常识和商业知识
1.2. 理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借 ...
读商战数据挖掘:你需要了解的数据科学与分析思维01数据分析式思维
1. 数据分析式思维
1.1. 在过去的十五年中,各企业在商业基础设施上大量投入,因此具备了更好的数据收集能力
1.2. 几乎每个商业环节都可以收集数据
1.2.1. 运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节
1.3. “数据科学”所特指的领域:从丰富的数据中获取有用的信 ...
HDFS目录配额(quota)不足导致写文件失败
本文分享自天翼云开发者社区《HDFS目录配额(quota)不足导致写文件失败》,作者:5****m
问题背景与现象
给某目录设置quota后,往目录中写文件失败,出现如下问题“The DiskSpace quota of /tmp/tquota2 is exceeded”。
[omm@189-39-150-115 client]$ hdfs dfs -put switchuser.py /tmp/tquota2
put: The Dis ...
HBase Sync功能导致HBase入库性能下降
本文分享自天翼云开发者社区《HBase Sync功能导致HBase入库性能下降》,作者:5****m
问题背景与现象
HBase入库慢,regionserver日志中大量打印slow sync。
原因分析
1.对比正常写入时间段监控,检查HBase服务整体CPU、内存以及NameNode RPC在异常时间段是否增加;
2.检查regionserver日志中sl ...
《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警(一)
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...
一文吃透 SeaTunnel 线程共享机制与任务执行模型设计优化
Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎,本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计,涵盖 TaskGroup 的通信方式、call() 驱动模型,以及静态标记与动态线程共享两种线程资源优化策略,深度剖析这些创新机制如何让 Zeta 引擎实现性能数倍提升。
设计方案说明
Ta ...
DolphinScheduler 调度变慢?试试这些数据库性能优化策略
问题背景
DolphinScheduler 1.3.9版本
查询任务实例列表等接口时,有时会出现响应慢的情况,超过20秒才返回结果。
问题诊断
(1)mysql开启慢日志
/etc/mysql.cnf添加如下配置参数
slow_query_log = ON
slow_query_log_file = /data/log/mysql/mysql-slow.log
long_query_time = 2
(2)慢日志分析
日志中以下几类sql超 ...
零代码打造专业级工业数字孪生
火电行业作为传统能源的支柱行业,在保障电力供应的同时,也面临着多重结构性挑战。某火力发电厂设备老化严重,煤耗居高不下,且因为各种历史遗留问题导致系统兼容性差,数据孤岛现象严重,故障响应滞后。易知微依托数字孪生仿真渲染引擎EasyTwin建设了数字孪生未来工厂,一比一逼真还原火电厂区整体环境、核心建筑、关键设 ...
构建多维打标签算法
本文分享自天翼云开发者社区《构建多维打标签算法》,作者:石泽涛
针对各类主题,通过对用户DPI访问数据深度解析,体现数据价值,丰富云产品形态与应用范围;建立行业的标签,能够对用户访问各类APP和网站的行为和内容有深入细致的刻画,为主题运营工作提供必要的数据支撑。在获客成本越来越高的当下,围绕用户的价值创造 ...
在 AWS 上重构数据中台,这家出海企业选择了数栈
2024年,袋鼠云接到了一个不小的挑战。
一家货币交易所的技术负责人在通话里直接说:“我们现在业务都跑在 AWS(亚马逊云平台) 上了,你们的产品(数栈大数据平台)能不能不改代码直接跑在 AWS 上?最好别重学。能跑,还得跑得快。”
出海浪潮下,这样的需求并不稀奇。真正能在 AWS 上 做到“稳定、高性能、权限闭环、体验 ...
基于运营商数据的用户关系模型建立示例
本文分享自天翼云开发者社区《基于运营商数据的用户关系模型建立示例》,作者:石泽涛
从社交的角度来看,一种典型的用户关系网络即交往圈。一个用户的交往圈定义为“与用户在一段时间内存在双向联系的所有个体”。根据不同社会群体性质,交往圈又可以分为家庭圈、工作圈、密友圈等。基于运营商数据,可识别的用户之间的关 ...
客户案例 | 某大型综合性券商借助白鲸开源产品打造全链路智能调度与数据集成平台
在数字化转型加速的今天,金融行业正面临前所未有的数据挑战:数据量指数级增长、任务调度日益复杂、数据源类型多样化、处理链路不断延长。某证券公司,作为国内领先的综合性券商,面向内部高强度的 IT 运维与业务流程自动化需求,构建了覆盖调度控制与数据集成的双引擎体系。
借助 白鲸开源推出的 WhaleScheduler 和 Whal ...
DSIP-91提案解读:简化工作流调试和发布的方案,等你来探讨!
在 Apache DolphinScheduler 社区中,最近有人提出了一个优化提案非常值得大家关注。在 DSIP-91 提案中,这位开发者聚焦于优化当前工作流调试和上线发布流程,解决调试不便、发布步骤繁琐、实例混乱等痛点,提出的优化方案引入“草稿”模式,使工作流可在不上线的状态下进行调试;同时支持调试与生产实例区分、调度任务一键 ...
SQL Server CDC 机制全解:如何用 SeaTunnel 构建高效实时数据同步方案
在构建 AI-Ready 企业级数据集成方案中,SQL Server 的 CDC(Change Data Capture)机制为 Apache SeaTunnel 提供了稳定的变更数据捕获能力,适用于构建实时数据管道与增量同步任务。以下是对其工作机制、实现原理、应用模式的系统介绍。
CDC 是什么?
Change Data Capture(CDC) 是 SQL Server 提供的一种变更数据捕获机 ...
传统数据仓库正在被 Agentic AI 吞噬?Agentic Data Stack 初探
作者 | 郭炜 白鲸开源 CEO,Apache 基金会成员
摘要:从技术架构的角度看,我认为这一次的AI浪潮将深刻影响整个软件生态。DSS 系统的设计是以人作为最终消费者的决策支持逻辑为中心,然而,随着 Agentic AI 时代来临,最终的“消费者”更可能是 agent,对数据仓库和复杂 ETL 链路将被重新设计,甚至消失。传统数据仓库偏重 ...
vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路
作者:vivo 互联网大数据团队- You Shuo
本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在Pulsar平台建设初期,提供一个稳定、低时延的监控链路尤为重要。
系列文章:
《vivo Pulsar万亿级消息处理实践-数据发送原 ...
【Gartner权威解答】:合格CTO必懂的开源软件十大热点问题
译自Gartner
作者 | Mark Driver,Nitish Tyagi
摘要
技术创新领导者可以通过开源软件(OSS)推动创新、节省成本并提升灵活性。然而,若想真正的实现规避风险并提升业务价值,而不仅仅是炒作,优秀的管理和治理至关重要。
关键发现
很多时候我们都没有察觉到,几乎所有 IT 组织在关键任务型工作负载中都在使用开源软件。企 ...