数据计算中间件技术综述
传统企业大数据架构的问题
上图是大家都很熟悉的基于 hadoop 体系的开源大数据架构图。在这个架构中,大致可以分成三层。最下一层是数据采集,通常会采用 kafka 或者 flume 将 web 日志通过消息队列传送到存储层或者计算层。对于数据存储,目前 apache 社区提供了多种存储引擎的选择,除了传统的 hdfs 文件和 h ,还 ...
如何让Birt报表脚本数据源变得既简单又强大
概述:运行在 jvm 上的 sql 函数和存储过程
总所周知,有些数据库没有强大的分析函数(eg. mysql), 有些数据库没有存储过程(eg. vertica),当遇到复杂的数据计算,往往只能通过 python,r 等外部脚本来实现,但这些脚本语言和主流工程语言(java)集成性不好,如果直接用工程语言实现类似 sql 函数和存储过程的功能, ...
详解数据库中跨库数据表的运算
1. 简单合并(from)
所谓跨库数据表,是指逻辑上同一张数据表被分别存储在不同数据库中。其原因有可能是因为数据量太大,放在一个数据库难以处理,也可能在业务上就需要将生产库和历史库分开。而不同的数据库,可能只是部署在不同的机器上的同种数据库,也可能是连类型都不同的数据库系统。
在面对跨库数据表,特别 ...
90%程序员面试会遇到的索引优化问题
前言
本文给大家分享了90%程序员面试都用得上的索引优化,重点提一下,索引基本原理和创建索引的原则是重点,面试基本必问!大家可以收藏好多理解理解。下面来一起看看详细的介绍吧。
关于索引,分为以下几点来讲解(技术文):
索引的概述(什么是索引,索引的优缺点)
索引的基本使用(创建索引)
索引的 ...
sql中left join的效率分析与提高效率方法
网站随着数据量与访问量越来越大,访问的速度变的越来越慢,于是开始想办法解决优化速度慢的原因
下面是对程序中一条sql的分析过程,当然程序的执行效率不单单是sql语句的问题,还有可能是服务器配置,网速,程序语言等各方法的问题,今天我们先来分析一下sql语句中left join的效率问题
sql语句中包含以下信息:
1、 ...
使用SQL语句查询MySQL,SQLServer,Oracle所有数据库名和表名,字段名
MySQL中查询所有数据库名和表名
查询所有数据库
?
1
show databases;
查询指定数据库中所有表名
?
1
select t ...
为什么你不要收缩数据库文件(国外翻译)
前言,这几天查看了很多关于sql server收缩数据文件方面的文章,准备写一篇关于收缩日志方面的文章,但是突然有种冲动将看过经典的文章翻译出来,下面这篇文章是翻译的是paul randal – “why you should not shrink your data files”。有些比较难以翻译、清晰的地方,我会贴上原文。好了,不啰嗦了,直接看下面的翻译吧 ...
使用sqlplus创建DDL和DML操作技巧
1.连接数据库
在window进入命令行模式敲sqlplus就会
然后进行表的ddl操作
例如:
在进行dml操作:你可以对刚才建立的模式进行数据的插入和数据的更新操作
例如数据的插入
**
这里要注意的是:
**
如果你出先如下错误
解决方法:要在每一句结束是加上分号;
2表示第二行。
...
neo4j安装配置入门教程
注:网上找了许多教程,发现都不太适合0基础的用户,所以就自己写了一下。
推荐使用1.x版本,经测试2.3.3大量函数被遗弃。
安装启动
官网下载tar包
解压,进入bin下,运行./neo4j
在url中打开localhost:7474即可使用
配置
数据库的location设置。
conf/neo4j-server.properties中第14行org.neo4j.se ...
ETL方法与过程讲解
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。
ETL的设计分三部分 ...
远程数据库的表超过20个索引的影响详细解析
昨天同事参加了一个研讨会,有提到一个案例。一个通过dblink查询远端数据库,原来查询很快,但是远端数据库增加了一个索引之后,查询一下子变慢了。
经过分析,发现那个通过dblink的查询语句,查询远端数据库的时候,是走索引的,但是远端数据库添加索引之后,如果索引的个数超过20个,就会忽略第一个建立的索引,如果查 ...
如何利用分析函数改写范围判断自关联查询详解
前言
最近碰到一个单条SQL运行效率不佳导致数据库整体运行负载较高的问题。
分析、定位数据库的主要负载是这条语句引起的过程相对简单,通过AWR报告就可以比较容易的完成定位,这里就不赘述了。
现在直接看一下这个导致性能问题的SQL语句,其对应的SQL REPORT统计如下:
Stat Name
Statement T ...
Spark SQL操作JSON字段的小技巧
前言
介绍Spark SQL的JSON支持,这是我们在Databricks中开发的一个功能,可以在Spark中更容易查询和创建JSON数据。随着网络和移动应用程序的普及,JSON已经成为Web服务API以及长期存储的常用的交换格式。使用现有的工具,用户通常会使用复杂的管道来在分析系统中读取和写入JSON数据集。在Apache Spark 1.1中发布Spark S ...
SQL注入技巧之显注与盲注中过滤逗号绕过详析
前言
sql注入在很早很早以前是很常见的一个漏洞。后来随着安全水平的提高,sql注入已经很少能够看到了。但是就在今天,还有很多网站带着sql注入漏洞在运行。下面这篇文章主要介绍了关于SQL注入逗号绕过的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧
1.联合查询显注绕过逗号
在联合 ...
SQL注入的2个小Trick及示例总结
前言
最近发现了两个关于sql注入的小trick,分享一下.下面话不多说了,来一起看看详细的介绍吧
between and 操作符代替比较符
操作符 BETWEEN … AND 会选取介于两个值之间的数据范围。这些值可以是数值、文本或者日期。
between and有数据比较功能
exp1 between min and max
如果exp1的结果处于min和max ...
你应该知道的States字段使用规范
前言
最近在工作中了遇到了一些内容,觉着有必要和大家分享下,我们为了统一数据库表的状态字段,统一数据库表设计,简化字段在程序开发中的使用方式,下面话不多说了,来一起看看详细的介绍吧。
解决方式
States对应位域枚举StatesFlags。
?
1
2
...
SunlightDB 2017新型区块链数据库
什么是区块链?自去年开始,区块链的概念开始被捧红,尤其在一些发达国家,更是受到了明星级的热捧。区块链也被冠以了颠覆的名头,大有风靡全球之势。区块链将最先冲击金融行业,进而会影响到更为广泛的经济领域。
预测依据了区块链的几个核心特点:去中心化、分布式账本、点对点传输、不可被篡改等。由于区块链的诞 ...
SQL注入原理与解决方法代码示例
一、什么是sql注入?
1、什么是sql注入呢?
所谓SQL注入,就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令,比如先前的很多影视网站泄露VIP会员密码大多就是通过WEB表单递交查询字符暴出的,这类表单特别容易受到SQL注入式攻击.当应用程 ...
10万条数据批量插入,到底怎么做才快?
上周松哥转载了一个数据批量插入的文章,里边和大家聊了一下数据批量插入的问题,批量插入到底怎么做才快。
有个小伙伴看了文章后提出了不同的意见:
松哥认真和 BUG 同学聊了下,基本上明白了这个小伙伴的意思,于是我自己也写了个测试案例,重新整理了今天这篇文章,希望和小伙伴们一起探讨这个问题,也欢 ...
SQL利用Function创建长整形的唯一ID示例代码
前言
在设计表的时候考虑主键的数据类型是长整形还是字符串,最简单的方式当然是newid(),但这也有个问题,就是主键长度过长(36个字),数据量一多,必然会影响数据库操作的效率,而且大大增加了数据文件和索引文件所占用的空间。而且,newid返回的字符串是随机的,查询结果不能保证按保存顺序返回。这对于有顺序要求的 ...