HadoopDB集群配置方法_npucloud的博客-CSDN博客


本站和网页 https://blog.csdn.net/npucloud/article/details/6414112 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

HadoopDB集群配置方法_npucloud的博客-CSDN博客
HadoopDB集群配置方法
npucloud
于 2011-05-12 11:26:00 发布
2748
收藏
分类专栏:
HadoopDb
文章标签:
集群
postgresql
hadoop
jdbc
sms
数据库
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/npucloud/article/details/6414112
版权
HadoopDb
专栏收录该内容
1 篇文章
0 订阅
订阅专栏
Author:谢
本文介绍在2个节点上安装配置HadoopDB方法。各节点的名称分别为Cluster01(192.168.0.1),Cluster02(192.168.0.2)。
以下若是用 hadoop@Cluster0X:~ 代表 Cluster01 ~ Cluster02 都要做的.
参考资料1:HadoopDB Quick Start Guide
参考资料2:HadoopDB安装使用
1  首先在各节点上安装Hadoop-0.20.2, 参考此文 。
2  各节点安裝设置 PostgreSQL:
安裝并为数据库建立 hadoop 帐号,假定使用密碼为 1234hadoop@Cluster0X:~$ sudo apt-get install postgresqlhadoop@Cluster0X:~$ sudo vim /etc/postgresql/8.4/main/pg_hba.conf
#local   all         all                               identlocal   all         all                               trust# IPv4 local connections:#host    all         all         127.0.0.1/32          md5host    all         all         127.0.0.1/32          passwordhost    all         all         192.168.0.1/24          password            # 加上Cluster 機器 IP 範圍# IPv6 local connections:#host    all         all         ::1/128               md5host    all         all         ::1/128               password hadoop@Cluster0X:~$ sudo /etc/init.d/postgresql-8.4 restarthadoop@Cluster0X:~$ sudo su - postgrespostgres@Cluster0X:~$ createuser hadoop
Shall the new role be a superuser? (y/n) ypostgres@Cluster01:~$ psqlpsql (8.4.2)Type "help" for help.postgres=# alter user hadoop with password '1234';ALTER ROLEpostgres=# /q 測試其他機器可否連線
hadoop@Cluster01:~$ createdb testdbhadoop@Cluster02:~$ psql -h Cluster01 testdb 
如果能够连接上,则出现以下提示:
口令:psql (8.4.2)SSL connection (cipher: DHE-RSA-AES256-SHA, bits: 256)Type "help" for help.testdb=#
3 设置HadoopDB 
    首先从http://sourceforge.net/projects/hadoopdb/files/下载hadoopdb,解压后,其中包含hadoopdb.jar。
    然后再从http://jdbc.postgresql.org/download.html下载postgresql-8.4-701.jdbc4.jar。
hadoop@Cluster0X:~$ cp hadoopdb.jar HADOOP_HOME/lib/hadoop@Cluster0X:~$ cp postgresql-8.4-701.jdbc4.jar HADOOP_HOME/lib/hadoop@Cluster0X:~$ vim HADOOP_HOME/conf/core-site.xml
core-site.xml 文件中添加以下内容:<property><name>hadoopdb.config.file</name><value>HadoopDB.xml</value><description>The name of the HadoopDB cluster configuration file</description></property><property><name>hadoopdb.fetch.size</name><value>1000</value><description>The number of records fetched from JDBC ResultSet at once</description></property><property><name>hadoopdb.config.replication</name><value>false</value><description>Tells HadoopDB Catalog whether replication is enabled.Replica locations need to be specified in the catalog.False causes replica information to be ignored.</description></property>  
hadoop@Cluster01:~$ vim nodes.txt将集群中的所有节点IP写入此文件:
192.168.0.1192.168.0.2 hadoop@Cluster01:~$ vim  Catalog.properties
#Properties for Catalog Generation##################################nodes_file=nodes.txt# Relations Name and Table Name are the samerelations_unchunked=rawrelations_chunked=poicatalog_file=HadoopDB.xml###DB Connection Parameters##port=5432username=hadooppassword=1234driver=org.postgresql.Driverurl_prefix=jdbc/:postgresql/://###Chunking properties### the number of databases on a nodechunks_per_node=2# for udb0 ,udb1 ( 2 nodes = 0 ~ 1 )unchunked_db_prefix=udb# for cdb0 ,cdb1, ... , cdb5 (2 nodes x 3 chunks = 0~5 )chunked_db_prefix=cdb###Replication Properties##dump_script_prefix=/root/dump_replication_script_prefix=/root/load_replica_dump_file_u_prefix=/mnt/dump_udbdump_file_c_prefix=/mnt/dump_cdb###Cluster Connection##ssh_key=id_rsa-gsg-keypair hadoop@Cluster01:~$ java -cp lib/hadoopdb.jar edu.yale.cs.hadoopdb.catalog.SimpleCatalogGenerator Catalog.properties
产生的 HadoopDB.xml 类似下面:<?xml version="1.0" encoding="UTF-8" standalone="yes"?><DBClusterConfiguration xmlns="http://edu.yale.cs.db.hadoop/DBConfigurationSchema">    <Nodes Password="1234" Username="hadoop" Driver="org.postgresql.Driver" Location=" 192.168.0.1 ">        <Relations id="raw">            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/udb0" id="0"/>        </Relations>        <Relations id="poi">            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/cdb0" id="0"/>            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/cdb1" id="1"/>        </Relations>    </Nodes>    <Nodes Password="1234" Username="hadoop" Driver="org.postgresql.Driver" Location=" 192.168.0.2 ">        <Relations id="raw">            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/udb1" id="1"/>        </Relations>        <Relations id="poi">            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/cdb2" id="2"/>            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/cdb3" id="3"/>        </Relations>    </Nodes></DBClusterConfiguration>
将HadoopDB.xml放入HDFS中:hadoop@Cluster01:~$ hadoop dfs -put HadoopDB.xml HadoopDB.xml
4 数据加载
在此以 raw 这个 talbe 当作例子进行讲解。根据前面HadoopDB.xml的内容,集群中的两个节点,第一个节点的数据库名称为udb0 ,第二个节点为udb1,首先分别创建这两个数据库:
hadoop@Cluster01:~$ createdb udb0hadoop@Cluster02:~$ createdb udb1 在对应数据库上建立raw 这个table:
hadoop@Cluster01:~$ psql udb0udb0=# CREATE TABLE raw (ID int,NAME varchar(300));同理如 Cluster02 先将本地文件系统中的数据put到HDFS中:$ hadoop fs -put  localfile  input_in_hdfs/数据切割: 使用 HadoopDB 所提供的切割工具将数据切割成n份(一般,n是集群有节点数目),以下例子中:n=2,每一份数据的分割符是'/n':$ hadoop jar lib/hadoopdb.jar edu.yale.cs.hadoopdb.dataloader.GlobalHasher input_in_hdfs out_in_hdfs 2 '/n' 0在各个节点上,将切割后的数据,从hdfs中传到各个节点的本地文件系统中:$ hadoop fs -get out_in_hdfs/part-00000 /home/hadoop/p0将本地文件载入到数据库中:hadoop@Cluster01:~$ psql udb0 udb0=# COPY RAW FROM '/home/hadoop/p0' WITH DELIMITER E'/t' ;同理如 Cluster02
5 SMS安装配置
    第3步下载的hadoopdb解压后包含SMS_dist.tar.gz文件夹。
    SMS的安装方法很简单:首先将其解压,然后打开bin目录下的hive-config.sh文件,再最后加上一句:
    export HADOOP_HOME="此处写hadoop的安装路径"。
然后在hive上建立上面raw这个table对应的数据库:假設 Hive 使用的数据將儲存在 HDFS 的 /dbhadoop@Cluster01:~ $ hadoop dfs -mkdir /dbhadoop@Cluster01:~ $ SMS_dist/bin/hiveCREATE EXTERNAL TABLE raw  (ID int,NAME string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '|'STORED ASINPUTFORMAT 'edu.yale.cs.hadoopdb.sms.connector.SMSInputFormat'OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION '/db/raw';/db/raw中的raw是指table的名称
5  以上设定完后,即可在一台机器上(Ex: Cluster1) 執行 $ SMS_dist/bin/hive 看看成果
hadoop@Cluster01:~ $ SMS_dist/bin/hivehive> show tables;hive> select name from raw;
npucloud
关注
关注
点赞
收藏
打赏
评论
HadoopDB集群配置方法
Author:谢本文介绍在2个节点上安装配置HadoopDB方法。各节点的名称分别为Cluster01(192.168.0.1),Cluster02(192.168.0.2)。以下若是用 hadoop@Cluster0X:~ 代表 Cluster01 ~ Cluster02 都要做的.参考资料1:HadoopDB Quick Start Guide参考资料2:HadoopDB安装使用
复制链接
扫一扫
专栏目录
hadoopdb.pdf
05-21
附件是hadoopdb.pdf ,这个是hadoopdb的官方说明文档,也可从官网上进行下载
HadoopDB安装使用
大数据框架Hadoop学习
05-15
297
由于它是在 Hadoop-0.19.x 开发的,因此我还是用 Hadoop-0.19.2 来架设,其中 0.19.2 与 0.20.1 安装上只有些微的差别,在上述文章中的 hadoop-0.20.1/conf/core-site.xml 与 hadoop-0.20.1/conf/mapred-site.xml 的内容,只需改写在 hadoop-0.19.2/conf/hadoop-site.x...
评论 1
您还未登录,请先
登录
后发表或查看评论
hadoopDB 数据仓库 简介
train的专栏
02-08
9511
读了两篇关于hadoopDB数据仓库的论文之后,写一点关于hadoopDB的简介:
hadoopDB是耶鲁大学的一个大学项目, 目的是为了构建一个数据仓库的工具。
HadoopDB 结合了hadoop 和paralled RDBMS,结合两个技术的优点。
HadoopDB is to connect multiple single_node database systemusing Ha
云数据库UDB的三重境界「下」
weixin_34310785的博客
09-29
116
2019独角兽企业重金招聘Python工程师标准>>>
...
Hadoop(入门)
最新发布
m0_46914845的博客
07-13
3万+
Hadoop(入门)
hadoop 安装出现的几种异常的处理方法,hadoop无法启动,no namenode to stop问题的解决方法,no datanode
xiaolang85的专栏
09-13
2万+
hadoop无法正常启动(1)
执行 $ bin/hadoop start-all.sh之后,无法启动.
异常一
Exception in thread "main" java.lang.IllegalArgumentException: Invalid URI for NameNode address (check fs.defaultFS): file:/// has no auth
HadoopDB浅析
biaobiaoqi的老博客
05-18
4011
HadoopDB是一个Mapreduce和传统关系型数据库的结合方案,以充分利用RDBMS的性能和Hadoop的容错、分布特性。2009年被Yale大学教授Abadi提出,继而商业化为Hadapt,据称从VC那儿拉到了10M刀投资。
本文是对HadoopDB论文的总结。其中不免掺杂些自己的不成熟想法,更详细的内容,还请参见原论文 HadoopDB: An Architectural Hybr
Hadoop中DBInputFormat和DBOutputFormat使用
dajuezhao的专栏
08-09
1万+
一、背景
为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过
DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。
二、技术细节
1、DBInputFormat(Mys
HadoopDB-开源
05-09
HadoopDB是并行数据库和MapReduce技术的混合体。 它在性能和效率上接近并行数据库,但仍可提供MapReduce系统的可伸缩性,容错性和灵活性。
Java操作Excel之Poi视频教程 java1234出品
09-29
Java操作Excel之Poi视频教程 java1234出品
Java操作Excel之Poi视频教程 java1234出品
miracast软件下载
11-01
好不好好不好。安卓盒子实现miracast方式: (1) 盒子安装一个屏幕接受装置。 (2) 手机需要安装屏幕发射软件(需要root权限)。 4.2以下玩miracast投影借助软件mirrorOP 安装成功后效果:...
【漫画系列】HDFS存储原理分析汇总篇
weixin_34273479的博客
11-05
897
本次分享结合Maneesh Varshney的漫画改编,为大家分析HDFS存储机制与运行原理。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据...
LC与晶体振荡器实验报告.doc
11-24
实验报告
随机过程 张卓奎 答案
07-28
随机过程 张卓奎 西安电子科技大学 课本配套答案
java实例几百例,特别是swing的GUI编程
03-12
里面有很有用的java实例!!特别是swing的GUI编程。那此GUI不是很好的人可以看哈哦!!
QQ群机器人酷Q语言库、词库
06-02
QQ群机器人酷Q语言库、词库.htm
Unity 5 for Android Essentials
08-05
A fast-paced guide to building impressive games and applications for Android devices with Unity 5
MongoDB与Hadoop技术栈的整合应用
Tony_老七
06-12
7988
如何在Hadoop技术栈之上,构建基于NoSQL数据库MongoDB的数据应用.
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题:大白
设计师:CSDN官方博客
返回首页
npucloud
CSDN认证博客专家
CSDN认证企业博客
码龄12年
暂无认证
原创
112万+
周排名
58万+
总排名
2万+
访问
等级
344
积分
粉丝
获赞
评论
收藏
私信
关注
热门文章
Hadoop性能调优(二)--Map and Reduce tasks 数量
8032
TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响
3768
HadoopDB集群配置方法
2748
Hadoop0.21.0源码编译方法
2681
Hadoop中TeraSort算法分析
948
分类专栏
Cloud Computing
1篇
Database
Hadoop
8篇
HadoopDb
1篇
MapReduce
Others
最新评论
Hadoop性能调优(二)--Map and Reduce tasks 数量
凡凡轶崔:
0.75? 1.75? 写乱了最后
Hadoop0.21.0源码编译方法
jiajiaoor:
你好,我按照你的方法编译了hadoop,最后倒是可以编译成功,可是项目的包乱的不行,程序里各种叉叉。根本都不好下手改。这该怎么改啊?分享下吧!谢谢罗!
HadoopDB集群配置方法
黑蛋哥:
请问楼主有hadoopDB与 mysql构建的相关资料吗?如果有麻烦发给我shenkxiao@163.com谢谢!
TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响
jiajiaoor:
请问,如果map task的数量是由设置mapred.min.split.size来决定的话,那么设置mapred.map.tasks的作用是什么了?它的默认的值为2,这个值对于每个Job中map task的数量有什么影响了?
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
Hadoop0.21.0源码流程分析(3)-Task节点管理启动任务
Hadoop0.21.0源码流程分析(2)-主节点接收作业
Hadoop源代码分析【RPC】
2011年10篇
目录
目录
分类专栏
Cloud Computing
1篇
Database
Hadoop
8篇
HadoopDb
1篇
MapReduce
Others
目录
评论 1
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
npucloud
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值