Pentaho Work with Big Data(五)—— 格式化原始web日志_wzy0623的博客-CSDN博客_pentaho日志


本站和网页 https://blog.csdn.net/wzy0623/article/details/51145570 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

Pentaho Work with Big Data(五)—— 格式化原始web日志_wzy0623的博客-CSDN博客_pentaho日志
Pentaho Work with Big Data(五)—— 格式化原始web日志
wzy0623
于 2016-04-13 18:17:52 发布
4977
收藏
分类专栏:
Linux
Pentaho Work with Big Data
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wzy0623/article/details/51145570
版权
Linux
同时被 2 个专栏收录
60 篇文章
2 订阅
订阅专栏
Pentaho Work with Big Data
22 篇文章
86 订阅
订阅专栏
本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。
一、向HDFS导入示例数据文件
将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据)
参考:
http://blog.csdn.net/wzy0623/article/details/51133760
二、建立一个用于Mapper的转换
1. 新建一个转换,如图1所示。
图1 2. 编辑'MapReduce Input'步骤,如图2所示。
图2 3. 编辑'Regex Evaluation'步骤,如图3所示。
图3 说明:
. “正则表达式”里面填写如下内容:
^([^\s]{7,15})\s # client_ip
-\s # unused IDENT field
-\s # unused USER field
\[((\d{2})/(\w{3})/(\d{4}) # request date dd/MMM/yyyy
:(\d{2}):(\d{2}):(\d{2})\s([-+ ]\d{4}))\]
# request time :HH:mm:ss -0800
\s"(GET|POST)\s # HTTP verb
([^\s]*) # HTTP URI
\sHTTP/1\.[01]"\s # HTTP version
(\d{3})\s # HTTP status code
(\d+)\s # bytes returned
"([^"]+)"\s # referrer field
" # User agent parsing, always quoted.
"? # Sometimes if the user spoofs the user_agent, they incorrectly quote it.
( # The UA string
[^"]*? # Uninteresting bits
(?:
(?:
rv: # Beginning of the gecko engine version token
(?=[^;)]{3,15}[;)]) # ensure version string size
( # Whole gecko version
(\d{1,2}) # version_component_major
\.(\d{1,2}[^.;)]{0,8}) # version_component_minor
(?:\.(\d{1,2}[^.;)]{0,8}))? # version_component_a
(?:\.(\d{1,2}[^.;)]{0,8}))? # version_component_b
[^"]* # More uninteresting bits
[^"]* # More uninteresting bits
) # End of UA string
"?
". “捕获组(Capture Group)字段”如下所示,所有字段都是String类型
client_ip
full_request_date
day
month
year
hour
minute
second
timezone
http_verb
uri
http_status_code
bytes_returned
referrer
user_agent
firefox_gecko_version
firefox_gecko_version_major
firefox_gecko_version_minor
firefox_gecko_version_a
firefox_gecko_version_b 4. 编辑'Filter Rows'步骤,如图4所示。
图4 5. 编辑'Value Mapper'步骤,如图5所示。
图5 6. 编辑'User Defined Java Expression'步骤,如图6所示。
图6 说明:“Java Expression”列填写如下内容:
client_ip + '\t' + full_request_date + '\t' + day + '\t' + month + '\t' + month_num + '\t' + year + '\t' + hour + '\t' + minute + '\t' + second + '\t' + timezone + '\t' + http_verb + '\t' + uri + '\t' + http_status_code + '\t' + bytes_returned + '\t' + referrer + '\t' + user_agent
7. 编辑'MapReduce Output'步骤,如图7所示。
图7 将转换保存为weblog_parse_mapper.ktr
三、建立一个调用MapReduce步骤的作业,使用mapper转换,仅运行map作业
1. 新建一个作业,如图8所示。
图8 2. 编辑'Pentaho MapReduce'作业项,如图9到图11所示。
图9
图10
图11 说明:
. 只需要编辑“Mapper”、“Job Setup”和“Cluster”三个标签
. hadoop_local是已经建立好的Hadoop Clusters连接,设置如图12所示
图12 建立过程参考
http://blog.csdn.net/wzy0623/article/details/51086821。
将作业保存为weblogs_parse_mr.kjb
四、执行作业并验证输出
1. 启动hadoop集群
# 启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
# 启动yarn
$HADOOP_HOME/sbin/start-yarn.sh
# 启动historyserver
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver
2. 执行作业,日志如图13所示。
图13 从图13可以看到,作业已经成功执行。
3. 检查Hadoop的输出文件,结果如图14所示。
图14 从图14可以看到,/user/grid/parse目录下生成了名为part-00000和part-00001的两个输出文件。
参考:
http://wiki.pentaho.com/display/BAD/Using+Pentaho+MapReduce+to+Parse+Weblog+Data
wzy0623
关注
关注
点赞
收藏
打赏
评论
Pentaho Work with Big Data(五)—— 格式化原始web日志
本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。一、向HDFS导入示例数据文件将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据)参考:http://blog.csdn.net/wzy0623/article/details/51133760二
复制链接
扫一扫
专栏目录
Kettle运行日志记录
08-09
NULL
博文链接:https://qq85609655.iteye.com/blog/2173882
Deepin 系统启动kettle(Pentaho )
最新发布
weixin_40274051的博客
11-01
337
spoon.sh
kettle(Pentaho)
Deepin
deepin
参与评论
您还未登录,请先
登录
后发表或查看评论
kettle pentaho log4j 日志记录
huryer的专栏
04-11
2785
kettle pentaho log4j 日志记录
版本:kettle 4.1
需求描述:
使用java集成kettle插件,执行脚本时,控制台可以显示kettle和调用类的日志,但是日志文件却只能显示调用类的日志,kettle日志不显示。
需求分析:
分析发现 kettle-engine.jar包中有一个log4j.xml,其中仅包含CONSOLE 这一个appender;
提取lo...
Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集
wzy0623的专栏
04-14
3446
本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时,这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据,并且建立一个聚合文件,包含按IP和年月分组的PV数。
关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录,参考http://blog.csdn.net/wz
Pentaho学习笔记
热门推荐
shayu52242419870805的专栏
08-21
2万+
一、 Pentaho 整体架构
cc
二、 Client tools
1. Report Designer
报表创建工具。如果想创建复杂数据驱动的报表,这是合适工具。
2. Design Studio
这是基于eclipse的工具,你可以使用它来创建手工编辑的报表或分析视图xaction 文件,一般用来对在re
【ETL】Pentaho Kettle 日志扩展开发
愚蠢的小根儿
11-09
1135
前言
安装过Pentaho Server的朋友应该都有一个疑问,Pentaho Server提供了Scheduler页面,可以定时调度任务执行,但是却没有相应的任务执行详情页面,看不到任务的运行细节和报错信息。其实Kettle的任务和转换都已经自带完备的日志机制,只需配置一下,将日志信息写入数据库,再开发一个前端页面,整合进Pentaho Server页面中,将数据库中的日志信息展示出来,就可以很...
你不知道的Kettle学习笔记5--日志
林世广
09-26
6519
一、日志描述在你每一次运行一个任务或者转换时,日志视图会自动打开。它表示在转换或者任务运行的时候,发生了什么。二、日志级别1、Error:只记录错误信息。
2、Nothing:不记录任何信息,执行效率最高。
3、Minimal:记录最少的信息。
4、Basic:记录基本信息。
5、Detailed:记录详细信息。
6、Debug:记录调试信息。
7、Rowlevel:转换过程中的每一行都
maven编译pentaho-big-data-plugin遇到的所有问题解决
11-05
maven编译pentaho-big-data-plugin遇到的所有问题解决,pentaho6.0
数据挖掘(Data Mining)——Pentaho Weka
zxs421819166的专栏
08-25
4407
关于 Pentaho Weka 的基本使用
一、 关于 Pentaho
Weka 的使用过程中的基本术语介绍
1、 实例(Instance):表格里的一个横行称作一个实例,相当于统计学中的一个样本,或者数据库中的一条记录。
2、 属性(Attrbute
Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群
wzy0623的专栏
04-07
1万+
准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。
实验目的:
配置Kettle连接Hadoop集群的HDFS。
实验环境:
4台CentOS release 6.4虚拟机,IP地址为
192.168.56.101
192.168.56.102
192.168.56.103
192.168.56.104
pentaho-big-data-plugin-8.1.0.4-595下载
zh_s_z的博客
10-22
1102
pentaho-big-data-plugin-8.1.0.4-595官方下载速度慢,多次链接失效,经过一天的下载终于下载好了。放到百度盘里供大家下载使用
原始地址:https://nexus.pentaho.org/content/groups/omni/pentaho/pentaho-big-data-plugin/8.1.0.4-595/pentaho-big-data-plugin-8.1...
数据挖掘 工具 大比拼
11-30
SAS公司的 Enterprise Miner
IBM公司的 Intelligent Miner
SPSS公司的 Clementine
Statsoft公司的Statistica Data Miner
DB Miner公司的 DBMiner
NCR公司的Teradata Warehouse Miner
Unica公司的Affinium Model
Insightful公司的Insightful Miner
Data Miner 公司的RIK, EDM and DMSK
Information Discovery 公司的Data Mining Suite
Angoss 公司的 KnowledgeSTUDIO
Data Mining Technologies 公司的 Nuggets
Fujitsu公司的 GhostMiner
Oracle公司的 Darwin
Pentaho Work with Big Data(八)—— kettle集群
wzy0623的专栏
04-18
4442
一、简介
集群技术可以用来水平扩展转换,使它们能以并行的方式运行在多台服务器上。转换的工作可以平均分到不同的服务器上。
一个集群模式包括一个主服务器和多个子服务器,主服务器作为集群的控制器。简单地说,作为控制器的Carte服务器就是主服务器,其他的Carte服务器就是子服务器。
一个集群模式也包含元数据,元数据描述了主服务器和子服务器之间怎样传
Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
wzy0623的专栏
04-12
2797
1. 向HDFS导入数据
. 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificati
pentaho开源商业智能平台的搭建
xyzroundo的专栏
06-24
1629
来源:http://yahoon.blog.51cto.com/13184/155835/ pentaho开源商业智能平台的搭建pentaho是世界上最流行的开源商务只能软件。它是一个基于java平台的商业智能(Business Intelligence,BI)套件,之所以说是套件是因为它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以
使用kettle进行hadoop的mapreduce图形化开发
12-15
使用kettle进行hadoop的mapreduce图形化开发..........
Kettle与Hadoop(五)执行MapReduce
wzy0623的专栏
06-02
825
目录
一、示例1——格式化原始web日志
1. 准备文件与目录
2. 建立一个用于Mapper的转换
3. 建立一个调用MapReduce步骤的作业,使用mapper转换,仅运行map作业。
4. 执行作业并验证输出
二、示例2——生成聚合数据集
1. 准备文件与目录
2. 建立一个用于Mapper的转换
3. 建立一个用于Reducer的转换
4. 建立一个调用MapReduce步骤的作业,调用mapper和reducer转换。
5. 执行作业并验证输出
参考:
一、示例1——格
【ETL】Pentaho Server日志锁表及ID_BATCH重复问题
愚蠢的小根儿
11-23
1238
前言
在pentaho server上配置日志数据库之后,一般会遇到锁表和日志记录重复问题,这两个问题的原因都是因为ID_BATCH字段自增出现错误,按照kettle的设计逻辑,kettle不能预设用户在存储日志时使用何种数据库,所以它不能利用数据库本身的特性对ID_BATCH进行自增操作,而且kettle任务本身是并行运行的,这就导致在写入日志数据时会出现几条重复记录,而且这几条记录ID_BAT...
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题:深蓝海洋
设计师:CSDN官方博客
返回首页
wzy0623
CSDN认证博客专家
CSDN认证企业博客
码龄16年
暂无认证
454
原创
9284
周排名
943
总排名
298万+
访问
等级
2万+
积分
6805
粉丝
994
获赞
617
评论
3762
收藏
私信
关注
热门文章
让Hive支持行级insert、update、delete
67836
Hive实现自增列的两种方法
55637
Oracle中的三种 UPDATE FROM 的解决方案
40872
使用MySQL Router实现高可用、负载均衡、读写分离
37195
使用Keepalived实现MySQL主从高可用
32668
分类专栏
Greenplum 实时数仓
11篇
数据分析与可视化利器之tableau
使用 ShardingSphere 解决数据库应用痛点问题
9篇
初学乍练redis
23篇
InfluxDB
浅尝辄止MongoDB
12篇
MADlib——基于SQL的数据挖掘解决方案
30篇
基于hadoop生态圈的数据仓库实践
40篇
Pentaho Work with Big Data
22篇
MySQL高可用方案
34篇
更好的Hadoop数据仓库解决方案——HAWQ数据挖掘
12篇
更好的Hadoop数据仓库解决方案——HAWQ技术解析
19篇
更好的Hadoop数据仓库解决方案——HAWQ实战演练
19篇
OushuDB入门
8篇
触类旁通Elasticsearch
12篇
BI
242篇
DBA
12篇
Linux
60篇
MySQL
125篇
Oracle
63篇
SQLServer
5篇
其它
1篇
NoSQL
35篇
最新评论
使用Keepalived实现MySQL主从高可用
weixin_53479572:
不是闲置 应该是从机备份主机的数据 然后主机挂了 从机上
ShardingSphere实践(1)——ShardingSphere介绍
西瓜学派:
很多重要细节都讲到了, 没有废话是难能可贵的!
Galera Cluster for MySQL 详解(一)——基本原理
xiaowanjia92:
这个条件不知道是什么意思,起什么作用:
老事务对新事务不可见,即老事务未提交完成。新老事务的划定依赖于全局事务总序,即GTID。
Greenplum 实时数据仓库实践(4)——Greenplum安装部署
刺客-兰陵王:
文档全篇几乎按照官方文档实际情况进行了编排和整理,并且有自己深入的理解分析和标注,非常感谢!学习了!亲测适合最新版v6.22.1
Kettle构建Hadoop ETL实践(三):Kettle对Hadoop的支持
DIISN:
你好,我用spoon连接hadoop时点击new cluster建立新集群,出来的窗口下面只有一个“帮助”键,没有测试和确认键怎么办
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
innodb_flush_log_at_trx_commit和sync_binlog参数详解
MySQL括号字符串计数
一句SQL构建斐波那契数列
2022
11月
2篇
10月
11篇
09月
2篇
08月
1篇
07月
2篇
06月
6篇
05月
5篇
04月
3篇
03月
5篇
02月
1篇
01月
4篇
2021年21篇
2020年42篇
2019年41篇
2018年63篇
2017年61篇
2016年192篇
2015年33篇
目录
目录
分类专栏
Greenplum 实时数仓
11篇
数据分析与可视化利器之tableau
使用 ShardingSphere 解决数据库应用痛点问题
9篇
初学乍练redis
23篇
InfluxDB
浅尝辄止MongoDB
12篇
MADlib——基于SQL的数据挖掘解决方案
30篇
基于hadoop生态圈的数据仓库实践
40篇
Pentaho Work with Big Data
22篇
MySQL高可用方案
34篇
更好的Hadoop数据仓库解决方案——HAWQ数据挖掘
12篇
更好的Hadoop数据仓库解决方案——HAWQ技术解析
19篇
更好的Hadoop数据仓库解决方案——HAWQ实战演练
19篇
OushuDB入门
8篇
触类旁通Elasticsearch
12篇
BI
242篇
DBA
12篇
Linux
60篇
MySQL
125篇
Oracle
63篇
SQLServer
5篇
其它
1篇
NoSQL
35篇
目录
评论
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
wzy0623
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值

Copyright ©uecom 京ICP备18064371号-3 IPV6
2024-03-28 23:16:39
zxsbr.com
10.0.12.16