kafka与hive对接_猪猪iii的博客-CSDN博客_cdh 服务器kafka数据到hive


本站和网页 https://blog.csdn.net/qq_38690917/article/details/81430553 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

kafka与hive对接_猪猪iii的博客-CSDN博客_cdh 服务器kafka数据到hive
kafka与hive对接
猪猪iii
于 2018-08-05 14:22:40 发布
10872
收藏
分类专栏:
大数据系列
文章标签:
大数
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_38690917/article/details/81430553
版权
大数据系列
专栏收录该内容
2 篇文章
0 订阅
订阅专栏
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统,Flume支持系统中定制的各类数据发送方,用于收集数据,同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制的)的能力。
当前Flume有两个版本Flume 0.9X版本统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同。使用时请注意区分。
接下来就是操作步骤了。
1.hive建表
注意:建表时要进行分桶,赋予事务性,这样才可以对hive进行增删改查。默认是不被允许的。
建表如下:
create table kafkatest(id int,name string,age int) clustered by(id) into 2 buckets stored as orc tblproperties(‘transactional’=’true’);
2.配置flume(kafkatohive.conf)官网上很清楚,用户文档
a.sources=source_from_kafka
a.channels=mem_channel
a.sinks=hive_sink
#kafka为souce的配置
a.sources.source_from_kafka.type=org.apache.flume.source.kafka.KafkaSource
a.sources.source_from_kafka.zookeeperConnect=localhost:2181
a.sources.source_from_kafka.bootstrap.servers=localhost:9092
a.sources.source_from_kafka.topic=kafkatest
a.sources.source_from_kafka.channels=mem_channel
a.sources.source_from_kafka.consumer.timeout.ms=1000
#hive为sink的配置
a.sinks.hive_sink.type=hive
a.sinks.hive_sink.hive.metastore=thrift://localhost:9083
a.sinks.hive_sink.hive.database=itcast
a.sinks.hive_sink.hive.table=kafkatest
a.sinks.hive_sink.hive.txnsPerBatchAsk=2
a.sinks.hive_sink.batchSize=10
a.sinks.hive_sink.serializer=DELIMITED
a.sinks.hive_sink.serializer.delimiter=,
a.sinks.hive_sink.serializer.fieldnames=id,name,age
#channel的配置
a.channels.mem_channel.type=memory
a.channels.mem_channel.capacity=1000
a.channels.mem_channel.transactionCapacity=100
#三者之间的关系
a.sources.source_from_kafka.channels=mem_channel
a.sinks.hive_sink.channel=mem_channel
3.启动hive前要设置hive.txn.manager
 第一种方式:脚本命令
set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
 第二种方式:配置文件(hive-site.xml)
<property>
<name>hive.txn.manager</name>
<value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManager</value>
</property>
4.启动hive
先执行如下脚本:
hive --service metastore &
再启动hive
5.启动flume
flume-ng agent --conf conf/ --conf-file conf/…. --name a -Dflume.root.logger=INFO,console;
6.创建kafka的topic
kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic kafkatest;
7.启动kafka生产者,进行生产消息
kafka-console-producer.sh --broker-list localhost:9092 --topic kafkatest;
至此,就大功告成了,kafka生产的消息就可以通过flume下沉到hive中了。
猪猪iii
关注
关注
点赞
收藏
打赏
评论
kafka与hive对接
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统,Flume支持系统中定制的各类数据发送方,用于收集数据,同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制的)的能力。当前Flume有两个版本Flume 0.9X版本统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-...
复制链接
扫一扫
专栏目录
HiveKa:Kafka 作为 Hive 存储
07-13
Kafka 的 Hive 存储处理程序
HiveKa 是 Apache Hive 的存储处理程序,它在 Apache Hive 中添加了从 Apache Kafka 查询数据的支持。 这为 Kafka 用户提供了一个机会来检查 Kafka 摄取的数据,而无需编写复杂的 Kafka 消费者。 Hive 使跨各种数据源(如 HDFS、Solr、Hbase 等)运行复杂的分析查询成为可能。HiveKa 将此支持扩展到 Kafka。
访问我们的。
要在 Hive 中创建 Kafka 表,请运行:
create external table test_kafka (a int, b string) stored by 'org.apache.hadoop.hive.kafka.KafkaStorageHandler' tblproperties('kafka.service.uri'='hi
CDH大数据平台 15Cloudera Manager Console之flume、kafka安装和配置数据采集实战(markdown新版)
与自己作战
10-09
904
cloudera manager console实战flume采集kafka数据
评论 1
您还未登录,请先
登录
后发表或查看评论
使用Flume将Kafka中的数据导入Hive
liexuanwo7443的博客
03-07
4043
0x01 需求背景
将Kafka中的JSON数据持久化存储到Hive表中,以供后期有查找的需求。
(看了很多讲解的博文,出了各种bug!饶了很多弯路!总结出来的经验就是一定要仔细看Flume的官方文档!!!!!!)
Kafka中的数据示例:
>{"id":1,"name":"snowty","age":25}
Hive表示例:
hive> desc hivetable...
日志数据从kafka到hive是如何实现的
大数据技术杂谈
01-11
8387
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20701
背景
公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一
flink 消费Kafka写到hive
最新发布
wjj108的博客
11-12
542
flink消费Kafka写到hive,个人笔记
hive怎么消费kafka的数据的?
东城庞太师
05-28
693
Flume整合kafka与hive,达到hive消费kafka中的数据的步骤:
1.hive建表
2.配置flume(可以参考官网配置flume)
3.启动hive前要设置hive.txn.manager:
第一种方式:脚本命令
set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
第二种方式:配置文件(hive-site.xml)
<property...
Scala代码积累之spark streaming kafka 数据存入到hive源码实例
03-01
Scala代码积累之spark streaming kafka 数据存入到hive源码实例,Scala代码积累之spark streaming kafka 数据存入到hive源码实例。
flume+kafka+hive收集用户行为数据
xieedeni的博客
09-28
531
需求背景
项目中需要将用户的行为数据或者其他数据放入大数据仓库,已有kafka服务。
解决方案
我们可以通过flume获取kafka实时数据并转存储到hdfs。
转存到hdfs后,再通过load data命令加载到Hive表中,hive再处理用户行为数据,最终输出到mysql呈现到用户端。
具体步骤
一. 安装部署Hadoop并启动Hadoop,具体步骤见:Windows10 安装Hadoop3.3.0_xieedeni的博客-CSDN博客
Windows10安装Hive3.1.2_xie..
通过Flume简单实现Kafka与Hive对接(Json格式)
栗筝i的博客
06-29
2088
将以下存储在kafka的topic中的JSON格式字符串,对接存储到Hive的表中
{"id":1,"name":"小李"}
{"id":2,"name":"小张"}
{"id":3,"name":"小刘"}
{"id":4,"name":"小王"}
1、在hive/conf/hive-site.xml中添加或修改如下内容:
<property>
<name>hive.txn.manager</name>
<value>org.a
Hive理论知识汇总
zzll_forever的博客
10-28
788
Hive理论知识汇总
1、 Hive和数据库比较
Hive 和数据库除了拥有类似的查询语言,再无类似之处。
1)数据存储位置
Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。
2)数据更新
Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,
3)执行延迟
Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。
4)数据规模
Hive支持很大规模的数据计算
Flume+HDFS+Kafka+Hive实例搭建
Evankaka的专栏
03-04
9518
摘要:本文要实现的是一个使用Flume来处理Kafka的数据,并将其存储到HDFS中去,然后通过Hive外部表关联查询出来存储的数据。
所以在建立一个maven工程,整个工程最终的目录如下:
下面开始一步一步讲解
1、定义自己的source
之所以不用源生的,是因为要对得到的消息要一定的处理后再保存到hdfs中去,这里主要就是将每一条消息解析并组装成以“|”做...
flume从mysql采集数据同时存入hdfs和kafka,加载数据到hive中
u014082561的专栏
02-26
2718
1.在mysql创建表导入数据
use test;
create table wlslog
(id int not null,
time_stamp varchar(40),
category varchar(40),
type varchar(40),
servername varchar(40),
code varchar(4...
spark+clickhouse+hive+kafka+vue+hbase大型分析系统
11-06
基于Flink+ClickHouse构建的分析平台,涉及 Flink1.9.0 、ClickHouse、Hadoop、Hbase、Kafka、Hive、Jmeter、Docker 、HDFS、MapReduce 、Zookeeper 等技术
从hive中读取数据推送到kafka
weixin_38167826的博客
07-31
2434
转载于:https://www.cnblogs.com/wqbin/p/11279292.html
spark把kafka数据写到hive
Sivan
06-05
1825
写入分区表:
准备工作:先建好分区表
方法一:(使用dataframe)
写数据到数据所在的位置,因为hive分区的本质就是分文件夹,先用spark把数据写到文件夹位置,然后执行sql添加分区
1.写数据到文件夹
//df为DataFrame
df.write.mode(SaveMode.Overwrite).format("parquet")
.partitionBy("day" , "dev_platform" ).save(outputPath)
2.寻找刚刚数据新建的.
hive数据导入kafka_如何从Kafka流中将数据导入Neo4j
cumian8165的博客
08-05
1001
hive数据导入kafkaby Andrea Santurbano 通过安德里亚·桑图尔巴诺(Andrea Santurbano)
如何从Kafka流中将数据导入Neo4j (How to ingest data into Neo4j from a Kafka stream)
This article is the second part of the Leveraging Neo4j Str...
数据从kafka到hive(2)
c395318621的专栏
09-07
5042
数据从kafka到hive(2)标签(空格分隔): kafka hive ETL 源码前面一篇讲到了将数据从kafka读到hdfs使用了开源工具camus,既然用到了开源的代码,免不了研究一下实现过程。所以这里分享一下阅读camus代码了解到的一些细节。前置知识在讲camus之前,需要提一下hadoop的一些知识。关于inputFormatinputFormat类的原型如下:public inter
kafka数据定时导入hive便于后续做数据清洗
feiying
10-16
743
文章目录问题背景解决过程实现效果注意事项
问题背景
kafka数据定时导入到hive,后续做数据清洗:
flume,confulent都需要单独部署服务,比较繁琐。调查其他可选方案,参考以下文章:参考资料
综合比较,camus 简单,比较方便接入。主要分两步:
1、采用mapreduce过程处理数据从kafka导入hadoop
2、hadoop数据接入hive管理。
解决过程
1、下载源码,本地构...
2020-12-26
wubaoyu123的博客
12-26
218
博客园Logo
首页
新闻
博问
专区
闪存
班级
代码改变世界
搜索
注册
登录
返回主页 哥不是小萝莉
博客园 首页 新随笔 联系 订阅 管理随笔 - 145 文章 - 0 评论 - 425
Kafka数据每5分钟同步到Hive
1.概述
最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。
2.内容
首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后
数仓工具—Hive集成篇之Kafka(03)
06-12
7399
这个方案很多,随便举几个例子,但是在此之前建议你先阅读优化实战篇—UDAF批量调用外部请求(02) 在这篇文章中我们实现了在UDAF 中实现了多线程。不过今天我们介绍两种我们我们不需要引入其他组件就可以搞定的方案下面是我们的代码,主要是UDAF 进行批量数据发送
下面是我们的使用,这样我们就记录下了每一批数据的发送情况
这里需要处理的就是我们如何保证每个批次的大小,其实这个很简单,可以参考我们以前的文章,这里需要注意的是,我们一个批次不应该太大,如果太大重试成本就很高了。要实现KafkaStorageHan
flink读取Hive数据写入Kafka(Hive Connector 和 kafka connector)
铛铛当的博客
04-02
3106
flink读取Hive数据写入Kafka
由于需要将kafka的数据读取出来并和hive中的数据进行join操作,突然发现flink1.12.0后实现了批流统一,所以学习了一下心得Hive Connector,并编写了一个读取Hive插入到kafka的小例子(感觉没什么好写的流水账)。
参考:
https://www.jianshu.com/p/01c363f166c2
https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/t
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题:大白
设计师:CSDN官方博客
返回首页
猪猪iii
CSDN认证博客专家
CSDN认证企业博客
码龄6年
暂无认证
25
原创
93万+
周排名
153万+
总排名
4万+
访问
等级
495
积分
11
粉丝
21
获赞
22
评论
111
收藏
私信
关注
分类专栏
QT
1篇
资源
1篇
自然语言处理系列
4篇
pytorch学习笔记
2篇
python学习笔记
3篇
python代码
2篇
配置环境
8篇
数学知识
1篇
java代码
1篇
C++代码
1篇
大数据系列
2篇
最新评论
Ubuntu下安装yum和配置yum源
Di_ger:
安装的时候显示E: Unable to locate package yum 怎么解决呢?
Ubuntu下安装yum和配置yum源
xlq_yyds:
你是linux17吗
linux高性能服务器编程PDF源代码下载
m0_57735098:
谢谢老哥的分享
Ubuntu下安装yum和配置yum源
Janskid:
如何你想直接使用yum安装软件可要小心点,因为你的系统并不是fedora,最多相当于一个没有安装任何软件的fedora。
比如你想通过yum安装yum:sudo yum install yum,这样你需要安装87个包,而且包含像glibc这些比较关键的软件包。这样可能会造成和ubuntu冲突.
Ubuntu下安装yum和配置yum源
anotherboy10:
vim中删除全部使用ggdG即可
这句话什么意思
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
QT配置git
linux高性能服务器编程PDF源代码下载
虚拟机乌班图花屏问题
2022年1篇
2021年18篇
2020年3篇
2019年1篇
2018年3篇
目录
目录
分类专栏
QT
1篇
资源
1篇
自然语言处理系列
4篇
pytorch学习笔记
2篇
python学习笔记
3篇
python代码
2篇
配置环境
8篇
数学知识
1篇
java代码
1篇
C++代码
1篇
大数据系列
2篇
目录
评论 1
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
猪猪iii
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值

Copyright ©uecom 京ICP备18064371号-3 IPV6
2024-03-29 23:33:34
zxsbr.com
10.0.12.16