微调完怎么判断好不好?大模型效果评估入门指南(附代码)
微调完怎么判断好不好?大模型效果评估入门指南(附代码)
(一)引言:微调评估不是“算个数”,是模型落地的关键一步
大家好,我是七七!每天都能看到一堆新手提问,核心就一个:“博主,我把7B模型微调完了,准确率82%,这效果算合格吗?”“生成任务怎么判断模型调得好不好,总不能凭感觉吧?”
其实这也是我刚入门时 ...
掌握相关性分析:读懂数据间的“悄悄话”
在数据分析的江湖里,我们经常会听到老板或业务方抛出这样的问题:
“现在的年轻人越晚睡,买护肤品是不是越疯狂?”
“我们APP的各种优惠券,真的能提升用户的留存率吗?”
“天气越热,这只股票是不是跌得越惨?”
面对这些问题,很多新人容易犯 “凭感觉” 的错误:“我觉得应该有关系吧……”
数据分析不相信“我觉得 ...
OceanBase 在滴滴大规模运维经验以及新功能落地实践
作者:吴其朋,滴滴分布式存储运维负责人
滴滴出行(下文简称“滴滴”)作为涵盖#网约车、#出租车、#顺风车、#代驾 等业务的一站式多元化出行平台,拥有全球客户6.5亿。自2024年应用OceanBase以来,已在多个场景落地并替换RocksDB、TokuDB,包括网约车增长服务、中台核心归档库、代驾核心归档库、EP、无人车服务等。本文以 ...
搞懂“元数据”:给数据办一张“身份证”
你是否经历过这样的场景:
同事发给你一个 Excel 表格,文件名叫 data_final_v2.xlsx。
你满怀期待地打开,结果发现:
表头是 cryptic 的英文缩写(如 c_amt, usr_stat);
有一列全是数字 1, 0, 1, 0,你猜不出这代表“男女”还是“是否活跃”;
你根本不知道这份数据是今天的,还是上个月的过期数据。
这时候,你面对着 ...
vivo Celeborn PB级Shuffle优化处理实践
作者: vivo 互联网大数据团队-Wang Zhiwen、Cai Zuguangvivo大数据平台通过引入RSS服务来满足混部集群中间结果(shuffle 数据)临时落盘需求,在综合对比后选择了Celeborn组件,并在后续的应用实践过程中不断优化完善,本文将分享vivo在Celeborn实际应用过程中对遇到问题的分析和解决方案,用于帮助读者对相似问题进行参考 ...
Hadoop 实战:从Hive、Impala(Cloudera CDH、CDP)海量数据到 AI 决策的落地方法
Hadoop 实战:从Hive、Impala(Cloudera CDH、CDP)海量数据到 AI 决策的落地方法
建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)可以做到无缝切换平缓迁移
Hadoop 实战:从 Hive、Impala 海量数据到 AI 决策的落地方法
一、引言:为什么需要将 Hadoop 与 AI 决策结合? ...
spark的共享变量之广播变量和累加器
1 核心概念:为什么需要它们?
在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spark还是为两 ...
深入浅出理解你的“数据”
对于想要学习数据分析的同学,如果你问我:"数据分析的第一步是什么?" 我的回答是:"理解数据本身。"
数据是我们所有分析工作的起点,本文主要探讨如何辨别我们面对的是什么样的数据,包括它的分类方法和描述维度。
1. 数据分类
数据并非千篇一律,它们有着不同的特征和属性。
正确理解数据的分类,是选择适当分析方法的前 ...
vivo国产数据库技术储备,突破大规模数据的存储与性能瓶颈
作者:杜霆,vivo互联网存储运维负责人
vivo 是一家以智能终端和智慧服务为核心的科技公司,服务全球 5亿+ 用户,公司内分设多条业务线,其中vivo互联网业务在近两年内完成底层数据库方案的升级以更好地支撑业务发展。业务使用OceanBase后,解决了原本的MySQL在大规模数据场景下的存储与性能使用瓶颈,高并发数据更新效率提 ...
Flink 的 RocksDB 状态后端在 vivo 的实践
作者: 互联网大数据团队- Chen Rui本文简要介绍了特征拼接在实时推荐中的重要作用,并讲述了vivo实时推荐系统中特征拼接模块的架构演进过程以及采用现有的“基于RocksDB的大状态解决方案”的原因,重点叙述了该方案所遇到的一系列问题,包括TM Lost、RocksDB性能调优门槛高、TM初始化慢、状态远程存储HDFS RPC飙高等,并给 ...
Hive查询报错:java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.LongWritable
以下只是说一下解决思路 供大家参考
以下基于hive的内部表
Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.LongWritable (state=,code=0)
这个是因为hdfs的 ...
从零开始学Flink:事件驱动
在实时计算领域,很多业务逻辑天然适合“事件驱动”模式:当事件到达时触发处理、在某个时间点触发补偿或汇总、根据状态变化发出告警等。Apache Flink 为此提供了强大的 ProcessFunction 家族(KeyedProcessFunction、CoProcessFunction、BroadcastProcessFunction 等),它们在算子层面同时具备“事件处理 + 定时器 + 状态 ...
Elasticsearch 麒麟V10下单机部署Elasticsearch8及Kibana
实践环境
elasticsearch-8.16.4-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.16.4-linux-x86_64.tar.gz
kibana-8.16.4-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/kibana/kibana-8.16.4-linux-x86_64.tar.gz
麒麟V10
新建运行用户
# groupadd -g 505 ela ...
vivo HDFS EC大规模落地实践
作者:Gu Ruinan - 互联网大数据团队- Zhao YongxiangErasure Coding(简称EC),是一种纠删码。EC编码能够对部分缺失的数据进行数据恢复,广泛应用于存储与通信领域。在Hadoop3.0版本中,作为一种新的冗余存储的方式引入进来。使用EC编码的方式替代原来的三副本存储,保证数据可靠性的同时可以节约存储。相应地,付出的代价 ...
从零开始学Flink:流批一体的执行模式
在大数据处理领域,批处理和流处理曾经被视为两种截然不同的范式。然而,随着Apache Flink的出现,这种界限正在逐渐模糊。Flink的一个核心特性是其批流一体的架构设计,允许用户使用统一的API和执行引擎处理有界数据(批处理)和无界数据(流处理)。本文将深入探讨Flink的执行模式(Execution Mode),特别是在Flink 1.20. ...
从零开始学Flink:数据源
在实时数据处理场景中,数据源(Source)是整个数据处理流程的起点。Flink作为流批一体的计算框架,提供了丰富的Source接口支持,其中通过Kafka获取实时数据是最常见的场景之一。本文将以Flink DataStream API为核心,带你从0到1实现“从Kafka消费数据并输出到日志”的完整流程,掌握Flink Source的核心用法。
一、为什么选 ...
Ubuntu上进行Zookeeper集群部署
目录1.zookeeper下载2.zookeeper安装与使用3.zookeeper启动4.zookeeper是什么?为什么要用它?为什么不用Hbase自带的?
1.zookeeper下载
版本无特别要求,一般最新稳定版即可。
这里给出3.8.4的下载链接。(点击即可直接下载)
zookeeper官网:https://zookeeper.apache.org/
2.zookeeper安装与使用
(0)!!! 在开始之前 ...
flink on k8s的基本介绍
本文分享自天翼云开发者社区《flink on k8s的基本介绍》,作者:l****n
一、背景介绍
Apache Flink 是一个流处理引擎,具有高效的流处理和批处理能力,以及良好的可伸缩性和容错性。Kubernetes(简称 K8s)是一种容器编排系统,用于自动化容器部署、扩展和管理。将 Flink 部署在 K8s 上可以充分利用 Kubernetes 的优势,实 ...
《数据资产管理核心技术与应用》读书笔记- 第七章- 数据权限与安全(一)
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安 ...
大数据产品线生产操作安全规约
本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》,作者:朱****静
第一章 总 则
第一条 为健全安全生产制度,落实安全生产责任,增强安全风险/隐患排查治理能力,促进安全生产长效机制建设,防止和减少生产安全事故,结合大数据产品线实际情况,特制定本生产操作安全管理办法。
第 ...