收藏本版 |訂閲

大数据 今日: 0|主題: 123|排名: 16 

  • 读用数据说服:如何设计、呈现和捍卫你的数据01数据图
    1. 挑战 1.1. 多元认知的挑战 1.1.1. 注意力集中在第一个出现的念头上 1.1.1.1. 这个观察自身思维的过程叫作元认知 1.1.1.2. 它是学习掌握解码过程的一项重要技能 1.1.2. 编码是一个大脑的事,意图清晰,而解码是多个大脑的事 1.1.3. 为了实现高效沟通,你需要理解这些因 ...
    014 用户月月 发表于 2025-7-14 大数据
  • Doris-HDFS LOAD常见问题汇总(一)
    本文分享自天翼云开发者社区《Doris-HDFS LOAD常见问题汇总(一)》,作者:刘****阳 1、HDFS Load导入失败:no partition for this tuple. 现象描述:导入显示状态为Canceled,URL错误详情显示 no partition for this tuple. 可能原因:               1、分区字段没有值,语句种未 ...
    025 落花之塚 发表于 2025-7-11 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维12总结
    1. 总结 1.1. 不能简明地解释一件事,说明你对它理解得不够 1.1.1. 爱因斯坦 1.2. 对数据科学实践最好的描述是分析工程和探索的结合 1.3. 商业中会存在我们需要解决的问题,而该问题很少能直接与基础的数据挖掘任务相对应 1.4. 缺少分析工程的结果是,数据挖掘的结论很可能无法用于解决商 ...
    065 蒝蒝隨杺 发表于 2025-7-11 大数据
  • OLAP分析数据库适用场景及主流产品对比
    本文分享自天翼云开发者社区《OLAP分析数据库适用场景及主流产品对比》,作者:刘****鑫 随着企业数字化程度不断提升,数据分析场景越老越丰富,企业在以下几种场景下可能需要使用OLAP(Online Analytical Processing,在线分析处理)分析数据库来开展数据分析工作: 1.  复杂的数据分析:当企业需要进行多维度、 ...
    065 季哥在硅谷 发表于 2025-7-10 大数据
  • 如何从ElasticSearch迁移到OpenSearch?
    本文分享自天翼云开发者社区《如何从ElasticSearch迁移到OpenSearch?》,作者:刘****鑫 在云搜索产品的选择中,如果用户倾向于开源软件,并且更喜欢免费提供高级功能的工具,那么 OpenSearch 将更适合。下面主要介绍从ElasticSearch迁移到OpenSearch的方案和步骤: 1.  版本兼容性:确保要使用的OpenSearch&nbs ...
    012 火线 发表于 2025-7-10 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维11经营战略
    1. 经营战略 1.1. 仅仅拥有数据,并不能保证数据驱动决策的成功 1.2. 企业管理层必须具有数据分析思维 1.2.1. 并不意味着管理层必须是数据科学家,但要求他们必须充分理解基本原则,从而预见和/或领会数据科学所带来的机遇,为数据科学团队提供合适的资源,并乐于在数据和实验方面投入 1.2.2.&nbs ...
    069 满载阳光 发表于 2025-7-10 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维10数据科学技术
    1. 面向分析工程 1.1. 数据科学的本质是根据原则性技术,提取数据中的信息或知识 1.2. 很难把技术与重要的商业问题完全匹配,也很难得到能直接应用于技术的数据 1.2.1. 商业人士通常比数据科学新手更容易接受这个事实,因为在统计学、机器学习和数据挖掘等领域的教学过程中,学生们面对的问题通常都 ...
    096 地板油 发表于 2025-7-9 大数据
  • Apache SeaTunnel × Hive 深度集成指南:原理、配置与实践
    在大数据处理的复杂生态中,数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架,能够快速实现海量数据的实时采集、转换和加载;而Apache Hive作为经典的数据仓库工具,为结构化数据的存储、查询和分析提供了坚实的基础。 将Apache SeaTunnel与Hive进行集成,能够 ...
    082 永永远远 发表于 2025-7-8 大数据
  • Apache DolphinScheduler保姆级实操指南:云原生任务调度实战
    为什么需要DolphinScheduler? (解决小白认知痛点) 3分钟极速部署(小白友好版) ​环境准备​ 最低配置(开发环境) JDK 8+ MySQL 5.7+ Zookeeper 3.8+ Docker一键启动​(避坑推荐) docker run -d --name dolphinscheduler \ -e DATABASE_TYPE=mysql \ -e SPRING_DATASOURCE_URL="jdbc:mysql://localhost:33 ...
    0100 熊兔保安 发表于 2025-7-8 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维09文本的挖掘
    1. 证据和概率 1.1. 对实例的了解视作支持或反对不同目标变量值的证据 1.2. 对实例的了解则可以表示为实例的特征 1.3. 如果你知道每个特征所提供的证据的强度,那么就能应用原则性方法,从概率上合并证据,从而得到有关目标变量值的结论 1.4. 作为消费者的我们,已经对网页上貌似免费的大量信息 ...
    097 厕所没纸了 发表于 2025-7-8 大数据
  • OceanBase PoC 经验总结(二)—— AP 业务
    首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 “老纪的技术唠嗑局”,会持续更新和 #数据库、#AI、#技术架构 相关的各种技术内容。欢迎感兴趣的朋友们关注! 背景 前段时间,OceanBase 社区公众号转载了庆涛大佬的一篇《OceanBase PoC 经验总结(一)》,为大家介绍了他积累的大量 OceanBase PoC 经验。不过庆涛 ...
  • 读商战数据挖掘:你需要了解的数据科学与分析思维08评估模型
    1. 概述 1.1. 为了让数据科学给实际应用增加价值,数据科学家和其他利益相关者必须仔细地考虑他们究竟希望通过挖掘数据实现什么 1.1.1. 将数据挖掘的结果与他们的实际目标联系起来 1.1.2. 其影响既可能表现为统计报告中缺少对统计数据正确性的明确解释,也可能表现为不能找出有意义的方法来测量性 ...
    0102 甜倩 发表于 2025-7-7 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维07相似性
    1. 概述 1.1. 相似性是许多数据科学方法和商业问题解决方案的基础 1.1.1. 共通之处 1.1.2. 很多数据挖掘过程通常基于相似性或寻找“合适”的相似性来对个体进行分组 1.1.3. 分类模型生成分类边界来将目标变量值相同的个体归为同一组 1.2. 相似性可以用于分类和回归 1.3. 亚马 ...
    035 云淡轻风 发表于 2025-7-6 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维06过拟合
    1. 概述 1.1. 数据科学中最重要的基本概念之二就是过拟合和泛化能力 1.2. 数据挖掘包含模型复杂度和过拟合概率之间的基本权衡 1.3. 如果数据所表现的现象本身就很复杂,那么就有必要构建一个复杂的模型,但复杂的模型对训练数据过拟合的风险也较高 2. 过拟合 2.1. “模式”事实上只是偶然出 ...
    011 无敌严严严 发表于 2025-7-5 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维05拟合数据
    1. 拟合数据 1.1. 预测建模就是根据其他描述性属性找出目标变量的模型的过程 1.2. 从数据集中提取预测模型的方法,是先确定模型的结构,而使模型的数值型参数待定 1.2.1. 然后再通过数据挖掘,根据特定的训练数据集计算出最佳参数值 1.3. 常见的情形是,模型由含有一系列数值变量的参数化的数 ...
    075 痞者不惧 发表于 2025-7-4 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维04预测建模
    1. 预测建模 1.1. 把预测建模视为有监督的数据划分,也就是根据某个值得关注的量,将整个总体划分为不同的群组 1.1.1. 根据某个希望预测或估计的值对总体进行分组 1.2. 预测的目标 1.2.1. 可以是某个想避免的事件 1.2.1.1. 哪些用户合约期满时会流失 1.2.1.2. 哪些账户遭受了 ...
    0107 观山 发表于 2025-7-3 大数据
  • DolphinScheduler 6 个高频 SQL 操作技巧
    摘要: Apache DolphinScheduler系列4-后台SQL经验分享 关键词: 大数据、数据质量、数据调度 整体说明 在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些后台SQL实际经验,分享如下。 进入DolphinScheduler 后台数据库,我这里使用的是MySQL数据库。 以任务名称包含“ods_xf_act” 的任务为例。 一 ...
    034 郭姐 发表于 2025-7-2 大数据
  • 喜讯!Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖
    近日,在 2025 上海开源创新菁英荟上,Apache SeaTunnel 凭借信创生态适配与智能化技术突破,荣获 「优秀开源项目奖」。这个由中国团队孵化的开源项目,已成为全球数据集成领域的标杆。 信创生态:支持 20 + 国产数据库的无缝对接 SeaTunnel 深度适配华为 OpenGauss、阿里 OceanBase 等 20 + 主流国产数据库,支持 CDC( ...
    096 一夜尘埃 发表于 2025-7-2 大数据
  • 读商战数据挖掘:你需要了解的数据科学与分析思维03数据挖掘流程
    1. 数据挖掘流程 1.1. 数据挖掘是一门手艺 1.1.1. 涉及大量科学与技术的应用,而如何恰当地应用这些科学与技术也是一门艺术 1.2. 数据挖掘也有一套易于理解的流程,可以将问题解构,并保证合理的一致性、可重复性和客观性 1.3. 循环迭代是数据挖掘流程的常态 1.3.1. 循环迭代一轮没能解 ...
    034 懂小姐 发表于 2025-7-2 大数据
  • SeaTunnel 社区月报(5-6 月):全新功能上线、Bug 大扫除、Merge 之星是谁?
    在 5 月和 6 月,SeaTunnel 社区迎来了一轮密集更新:2.3.11 正式发布,新增对 Databend、Elasticsearch 向量、HTTP 批量写入、ClickHouse 多表写入等多个连接器能力,全面提升了数据同步灵活性。同时,近 100 个修复与优化 PR 合入,涵盖 Spark 引擎并行性修复、Paimon 精度兼容性增强、Mongo-CDC ExactlyOnce 默认值优化 ...
    0102 艺语惊人 发表于 2025-7-1 大数据
  • 下一頁 »

    快速發帖

    還可輸入 180 個字符
    您需要登錄後才可以發帖 登錄 | 立即注册

    本版積分規則

    相关侵权、举报、投诉及建议等,请发 E-mail:qiongdian@foxmail.com

    Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.

    在本版发帖返回顶部