ClickHouse常用函数统计_Watch_dou的博客-CSDN博客_clickhouse if


本站和网页 https://blog.csdn.net/u012111465/article/details/83070018 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

ClickHouse常用函数统计_Watch_dou的博客-CSDN博客_clickhouse if
ClickHouse常用函数统计
置顶
Watch_dou
于 2018-10-16 11:10:51 发布
50709
收藏
55
分类专栏:
ClickHouse
文章标签:
ClickHouse
函数
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u012111465/article/details/83070018
版权
ClickHouse
专栏收录该内容
12 篇文章
23 订阅
订阅专栏
1、统计类函数
1.1 分位数
90%分位数:
quantile(0.9)()
在求(平均)响应时间时用到,quantile(0.9)(url_rt)
1.2 中位数
median()
还未使用到,median(url_rt)
1.3 相关系数
计算x与y的相关系数,计算公式:
\dfrac{\sum(x-\overline{x})(y-\overline{y})}{\sqrt{\sum(x-\overline{x})^2\sum(y-\overline{y})^2}}
∑(x−x)2∑(y−y​)2
​∑(x−x)(y−y​)​,取值范围[-1,1],其绝对值越大代表线性关系越强,当相关系数为0时,表示x与y之间没有线性相关关系(不代表没有非线性关系): corr(x,y)
还未使用到,corr(url_rt,hit)
2、类型转换函数
2.1 转换为字符串
toString()
在Superset中应用较多,toString(date)
3、时间日期函数
3.1 截取年份
toYear()
应用形式toYear(date)
3.2 截取月份
toMonth()
应用形式toMonth(date),例如date = ‘2018-07-25’,得到结果为7
3.3 截取天
toDayOfDay()
应用形式toDayOfDay(date),例如date = ‘2018-07-25’,得到结果为25
3.4 截取计算星期
toDayOfWeek()
应用形式toDayOfWeek(date),例如date = ‘2018-07-25’,得到结果为3 上方
3.5 截取计算小时
toHour()
应用形式toHour(ts),例如date = ‘2018-07-25 08:10:20’,得到结果为8
3.6 截取计算分钟
toMinute()
与上方类似,用在物化视图中分钟级聚合
3.7 截取计算秒
toSecond()
与上方类似 以下函数与上方函数极为类似。
3.8 从小时开始截取
toStartOfHour()
应用形式toStartOfHour(ts),例如date = ‘2018-07-25 08:01:21’,得到结果为2018-07-25 08:00:00
3.9 从分钟开始截取(一分钟粒度)
toStartOfMinute()
应用形式toStartOfMinute(ts),例如date = ‘2018-07-25 08:01:21’,得到结果为2018-07-25 08:01:00
3.10 从分钟开始截取(五分钟粒度)
toStartOfFiveMinute()
应用形式toStartOfFiveMinute(ts),随着时间的推移将日期缩短到五分钟间隔的开始。例如date = ‘2018-07-25 08:05:21’,得到结果为2018-07-25 08:00:21,当秒级/分钟级数据量较大时,考虑五分钟聚合可以使用该函数。
4、字符串处理
4.1 小写转换
lower()
应用形式lower('aBcA')
4.2 大写转换
upper()
应用形式upper('aBcA')
4.3 字符串拼接
concat(s1,s2,...)
应用形式concat('adsa','121sf')
4.4 字符串截取
substring(s, offset, length)
应用形式substring('iioomAjOOBJB', 2, 3),从字符串的第2位起截取3个字符,得到ioo
4.5 字符串拆分
splitByString(separator , s)
SELECT splitByString(',','afffv,safe,efwee,htrjt' ) AS temp;,结果:[‘afffv’,‘safe’,‘efwee’,‘htrjt’]。 和length()结合使用,SELECT length(splitByString(',','afffv,safe,efwee,htrjt' )) AS temp_num;,结果:4。
5、搜索函数
5.1 正则匹配之match()
match(haystack,pattern)
应用形式match('avhsca','vh),是否由匹配字段,字符串中由’vh’字符串,结果输出为1
5.2 正则匹配之extract()
返回匹配到的第一个子串:
extract(haystack,pattern)
应用形式extract('iioomAj12123124OOBJB', '\\d+'),匹配多个数字,并返回第一个子串,结果输出为’12123124’ extract('iioomAj12123124OOBJB', '\\[a-z]+'),匹配小写字母的子串,并返回第一个子串,结果输出为’iioom’
5.3 正则匹配之extractAll()
返回匹配到的所有子串:
extractAll(haystack,pattern)
应用形式extract('iioomAj12123124OOBJB', '\\[A-Z]+'),匹配大写字母的子串,并返回所有子串,结果输出为[‘A’,‘OOBJB’]
5.4 正则匹配之like()
返回匹配到的数据:
like(haystack,pattern)
可以包含:%和_等字符 一般应用于模糊查找URL
5.5 正则匹配之notLike()
notLike(haystack,pattern)
得到结果与like()相反。
5.6 正则替换之replaceOne()
replaceOne(haystack,pattern,replacement)
只替换第一个匹配到的pattern。
5.7 正则替换之replaceAll()
replaceAll(haystack,pattern,replacement)
替换匹配到的所有pattern。可以和length()函数搭配来统计某个字符的个数,SELECT (length(task_ids)-length(replaceAll(task_ids,',','')) + 1) AS task_num FROM dcm_mission_all ;统计任务的数量,task_ids可能取值为‘123,5325,564564,234’,执行后结果为:4。
5.8 正则替换之replaceRegexpAll()
replaceRegexpAll(haystack,pattern,replacement)
与replaceAll()类似,pattern可以用正则表示,SELECT replaceRegexpAll('Hello, World!', '^', 'here: ') AS res;,得到:here: Hello, World!
6、条件语句
6.1 if()
if(cond,then,else)
条件cond为TRUE,返回then处的结果,否则,返回else处的结果。
7、URL操作函数
7.1 protocol()
用法:
SELECT protocol('http://www.baidu.com.cn')
结果:http。
7.2 domain()
用法:
SELECT domain('http://www.baidu.com.cn')
结果:www.baidu.com.cn。
7.3 domainWithoutWWW()
用法:
SELECT domainWithoutWWW('http://www.baidu.com.cn')
结果:baidu.com.cn。
7.4 topLevelDomain()
用法:
SELECT topLevelDomain('http://www.baidu.com.cn')
结果:cn。
7.5 firstSignificantSubdomain()
用法:
SELECT firstSignificantSubdomain('http://www.baidu.com.cn')`
结果:baidu。
7.6 path()
用法:
SELECT path('https://www.baidu.com/s?wd=SQL%E4%B8%AD%E7%9A%84split&rsv_spt=1&rsv_iqid=0xb79d2a30000683c8&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=baiduhome_pg&rsv_enter=0&oq=SQL%2520if()&rsv_t=c9ecC9JfyBAd%2Bobx3UmEq4ZivwZzO7M%2Bar6xjhU3caPXwxMwD76F9AUI%2FaX%2B6jUYE4Lb&inputT=7416&rsv_pq=c8d2f6750000cc4e&rsv_sug3=35&rsv_sug1=35&rsv_sug7=100&rsv_sug2=0&rsv_sug4=8521')
结果:/s。
7.7 cutQueryString()
用法:
SELECT cutQueryString('https://www.baidu.com/s?wd=SQL%E4%B8%AD%E7%9A%84split&rsv_spt=1&rsv_iqid=0xb79d2a30000683c8&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=baiduhome_pg&rsv_enter=0&oq=SQL%2520if()&rsv_t=c9ecC9JfyBAd%2Bobx3UmEq4ZivwZzO7M%2Bar6xjhU3caPXwxMwD76F9AUI%2FaX%2B6jUYE4Lb&inputT=7416&rsv_pq=c8d2f6750000cc4e&rsv_sug3=35&rsv_sug1=35&rsv_sug7=100&rsv_sug2=0&rsv_sug4=8521')
结果:https://www.baidu.com/s。
8、字典函数
8.1 dictGetString()
用法:
SELECT dictGetString('ck_abc_dic', 'ck_value', tuple(_abc)) AS abc
FROM DB.TABL
WHERE date=today()
LIMIT 10;
Watch_dou
关注
关注
点赞
55
收藏
打赏
评论
ClickHouse常用函数统计
1、统计类函数1.1 分位数90%分位数:quantile(0.9)()在求(平均)响应时间时用到,quantile(0.9)(url_rt)1.2 中位数median()还未使用到,median(url_rt)1.3 相关系数计算x与y的相关系数,计算公式:∑(x−x‾)(y−y‾)∑(x−x‾)2∑(y−y‾)2\dfrac{\sum(x-\overline{x})(y-...
复制链接
扫一扫
专栏目录
Clickhouse—聚合函数
10-26
742
主要介绍了Clickhouse 的聚合函数,很多常见的我们都见过了,但是也有一些是Clickhouse特有的或者是不常见的例如topK,有个印象即可。
Clickhouse 聚合函数
vkingnew 的技术博客
08-31
4674
clickhouse的聚合函数包含了标准SQL的聚合函数,此外还有一些自有的聚合函数:
函数功能
函数名
标准OR自有
函数别名
计数
count
求和
sum
求平均
avg
最大值
max
最小值
min
中位数
media
any
anyHeavy
...
评论 6
您还未登录,请先
登录
后发表或查看评论
clickhouse普通函数,聚合函数使用总结
dair6的博客
02-11
3555
## 一.创建clickhouse表
### 1.建表
CREATE TABLE ck_test
`id` String COMMENT 'id',
`int_1` UInt32 COMMENT '整型列1',
`int_2` UInt32 COMMENT '整型列2',
`str_1` String COMMENT '字符串列1',
`str_2` String COMMENT '字符串列2'
ENGINE = MergeTree
ORDER BY id...
clickhouse字符串函数
鸭梨的博客
01-09
6450
长度以及大小写
SELECT
--11
length('hello world') as str_length,
-- 判断字符串是否为空,空为1,非空为0
--0
empty('hello world'),
--1
notEmpty('hello world'),
--11
lengthUTF8('hello world'),
--11
char_length('hello world'), -- 同 lengthUTF
ClickHouse 常用函数(工作笔记待补充)
weixin_45568892的博客
07-02
900
ClickHouse 常用函数(工作笔记待补充)
1 时间函数
dateDiff
计算时间差:
select dateDiff('day',parseDateTimeBestEffort(toString(20210601)),today() ) as day_diff;
day_diff|
--------|
30|
parseDateTimeBestEffort
select parseDateTimeBestEffort(toString(20210601));
parseDateT
clickhouse条件函数
鸭梨的博客
01-09
5075
-- 可以用类似三元运算符的写法
select 12>10 ? 'desc':'asc' as x;
+----+
|x |
+----+
|desc|
+----+
select 12<10 ? 'desc':'asc' as x;
+---+
|x |
+---+
|asc|
+---+
--常规写法
select if(12>10,'desc','asc') as x;
+----+
|x |
+----+
|desc|
+----+
...
ClickHouse类型转换函数
热门推荐
努力努力再努力!的博客
07-27
1万+
ClickHouse类型转换函数
数值类型转换常见的问题:当你把某个值从一个类型转换为另外一个类型的时候,你需要注意的是这是一个不安全的操作,可能导致数据的丢失。数据丢失一般发生在你将一个大的数据类型转换为小的数据类型的时候,或者你把两个不同的数据类型相互转换的时候。
1. toInt(8|16|32|64)
转换一个输入值为Int类型。这个函数包括:
toInt8(expr) — 结果为Int8数据类型。
toInt16(expr) — 结果为Int16数据类型。
toInt32(expr) — 结果为
Clickhouse 基础知识 - 函数
weixin_30670965的博客
07-31
1970
部分基本函数SQL脚本示例:
--------------------------------------------------
--------------------------------------------------
---------------Clickhouse基础知识:函数学习-------------
--官址学习文档:https://clickho...
ClickHouse初入门
xiaoxin1024的博客
07-04
527
目录
什么是ClickHouse:
OLAP场景得关键属性:
ClickHouse的独特功能:
1.真正面向列的DBMS,
2.数据压缩
3,数据磁盘存储
4,多个核心的并行处理
5,多个服务器上多的分布式处理
6,SQL支持
7,矢量引擎
8,实时数据更新
9,索引
10,适合在线查询
11,支持近似计算
12,数据复制和数据完整性支持
ClickHouse的...
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载...
weixin_33796177的博客
10-13
1290
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载
ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。他们的系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。这个数据集包含约120万张训练图像...
ClickHouse 实战整理 - 统计 pv uv
DoubleFJ の Blog
03-10
757
个人博客:DoubleFJ の Blog
ClickHouse 官方文档
文中举例均为简单示例,根据业务自行扩展。
实际业务场景中很多会需要统计 pv uv 值,比如页面的 pv uv 值,商品、店铺的 pv uv 值……
这边举一个简单的例子,比如说统计商品访问的 pv uv:
简单的源数据表创建如下:
CREATE TABLE IF NOT EXISTS test.product_operation
ts_date_time DateTime COMMENT '事件触发时间',
dict.get()方法的应用:计算字符串内各个字符出现次数的实现方法
weixin_42999937的博客
09-29
1460
实现(implementation)是进行某种计算的一个具体方式
实现代码1:
def histogram(s):
d = dict() # 先定义一个字典d, 效果等同于d = {}
for c in s: # loop整个字符串里的字符
if c not in d: # 第一次出现的字符会被赋值1
d[c] = 1
...
clickhouse.函数.字符串
weixin_45469056的博客
04-17
3290
clickhouse.函数.字符串
notEmpty(str) 判读字符是否不为空. 返回 0 或 1
length(str) 计算字符串长度. 一个汉字长度为 3
lengthUTF8(str) 计算字符串长度 一个汉字长度为 1
lower(str) 小写
upper(str) 大写
lowerUTF8(str) 小写
upperUTF8...
clickhouse 数据类型转换
最新发布
weixin_38424594的博客
03-17
8467
1. 数值/日期类转换
1.1 常规类型转换
1.2 -OrZero系列
1.3 -OrNull系列
2. 字符串转换
3. 通用的转换函数CAST(x, t)
4. 时间相关转换
1. 数值/日期类转换
1.1 常规类型转换
大类
细类
描述
toInt(8|16|32|64)
toInt8(expr)
转换为有符号的整数,转换向零舍入(截断数字的小数位)。nan和inf未定义。
toInt16(expr)
toInt32(expr)
t.
VS2019 + msys2 编译FFmpeg
zsz139的专栏
07-28
1077
一、编译环境搭建
1、Msys2 安装
官网下载地址:https://www.msys2.org/
默认安装就可以了
2、Cmake安装
官网下载地址:https://cmake.org/download/
安装方法可参考:https://jingyan.baidu.com/article/da1091fb645ab4027849d6bc.html
Cmake安装64位版本,后续配置msys2中的cmake需要使用
3、修改镜像源
安装好之后,配置镜像源不然下载非常慢还经常失败,把pac.
英文知名搜索引擎Ask.com泄漏237.9GB搜索记录
weixin_34250709的博客
07-05
129
据外媒报道,近日知名英文搜索引擎 Ask 因未知原因导致其 Apache 服务器状态面向公众公开,几乎所有人都能看到 Ask.com 上的实时搜索记录 。
这一问题由研究员 Paul Shapiro 在本月 7 号发现,目前尚不清楚这些数据对外公开了多久,而分析显示 Ask 服务器曾在三天前重新启动,或许就是在重启之后服务器页面才被意外地暴露。
英文知名...
pacman
islinyoubiao的专栏
01-31
235
#linyoubiao 2021-01-24
Msys2新版本,镜像为清华:速度必须要服它。
https://mirror.tuna.tsinghua.edu.cn/help/msys2/
** 1 先安装msys2,镜像过一段时间会更新,所以不同的数据库,依赖包会变的。
** 2 修改镜像地址 C:\msys64\etc\pacman.d
* 2.1 文件mirrorlist.mingw32修改为
##
## 32-bit Mingw-w64 repository mirrorlist
##
Search Class - http://www.findjar.com/
weixin_33681778的博客
08-31
251
http://www.findjar.com/
转载于:https://blog.51cto.com/robertleepeak/197349
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题:撸撸猫
设计师:马嘣嘣
返回首页
Watch_dou
CSDN认证博客专家
CSDN认证企业博客
码龄9年
暂无认证
272
原创
2万+
周排名
7万+
总排名
163万+
访问
等级
1万+
积分
1051
粉丝
758
获赞
416
评论
2797
收藏
私信
关注
热门文章
ClickHouse函数整理(详细)
104525
SQL三表连接查询
69275
Python将DataFrame增加一列
60802
matplotlib之hist详解
50980
ClickHouse常用函数统计
50705
分类专栏
比赛
12篇
推荐算法
面试
Spark大数据
1篇
训练营
18篇
笔记
1篇
可视化
6篇
工具使用
12篇
数据结构
3篇
Python
53篇
26篇
get小技巧
35篇
爬虫
8篇
机器学习
19篇
异常检测
13篇
JavaScript
13篇
HTML
16篇
CSS
4篇
Tensorflow
12篇
深度学习理论
7篇
Django
21篇
计算机小知识
4篇
我的爱好
3篇
资料下载
1篇
MySQL
14篇
ClickHouse
12篇
正则表达
3篇
NLP
最新评论
Rmarkdown安装配置、输出PDF正文中文以及图片中文配置
ugor_:
感谢!我差点就把所有图片先生成保存然后再导入了
Python元组组成的列表转化为字典
m0_48075844:
谢谢
Anaconda3中出现sklearn.model_selection不存在问题
大白967:
sklearn1.1.3都没有那个包,哭死
Rmarkdown安装配置、输出PDF正文中文以及图片中文配置
cccdk:
Rmarkdown输出PDF中ggplot2绘图没有中文的问题终于解决了哈哈哈,感谢博主!只不过不知道那个header.tex文件怎么弄,没有看到这个文件。
突变点检测:时间序列趋势描述初步代码(python)
区区一个人类:
您好,请问这篇代码有相关论文吗
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
ResNet
M5 Forecasting - Accuracy:Memory Optimization
M5 Forecasting - Accuracy:Multi-time series prediction with prophet
2020年40篇
2019年42篇
2018年172篇
2017年35篇
目录
目录
分类专栏
比赛
12篇
推荐算法
面试
Spark大数据
1篇
训练营
18篇
笔记
1篇
可视化
6篇
工具使用
12篇
数据结构
3篇
Python
53篇
26篇
get小技巧
35篇
爬虫
8篇
机器学习
19篇
异常检测
13篇
JavaScript
13篇
HTML
16篇
CSS
4篇
Tensorflow
12篇
深度学习理论
7篇
Django
21篇
计算机小知识
4篇
我的爱好
3篇
资料下载
1篇
MySQL
14篇
ClickHouse
12篇
正则表达
3篇
NLP
目录
评论 6
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
Watch_dou
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值