HadoopDB集群配置方法_npucloud的博客-CSDN博客知识图谱

HadoopDB集群配置方法_npucloud的博客-CSDN博客

本站和网页 https://blog.csdn.net/npucloud/article/details/6414112 的作者无关，不对其内容负责。快照谨为网络故障时之索引，不代表被搜索网站的即时页面。

HadoopDB集群配置方法_npucloud的博客-CSDN博客
HadoopDB集群配置方法
npucloud
于 2011-05-12 11:26:00 发布
2748
收藏
分类专栏：
HadoopDb
文章标签：
集群
postgresql
hadoop
jdbc
sms
数据库
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/npucloud/article/details/6414112
版权
HadoopDb
专栏收录该内容
1 篇文章
0 订阅
订阅专栏
Author:谢
本文介绍在2个节点上安装配置HadoopDB方法。各节点的名称分别为Cluster01(192.168.0.1)，Cluster02(192.168.0.2)。
以下若是用 hadoop@Cluster0X:~ 代表 Cluster01 ~ Cluster02 都要做的.
参考资料1：HadoopDB Quick Start Guide
参考资料2：HadoopDB安装使用
1 首先在各节点上安装Hadoop-0.20.2，参考此文。
2  各节点安裝设置 PostgreSQL：
安裝并为数据库建立 hadoop 帐号，假定使用密碼为 1234hadoop@Cluster0X:~$ sudo apt-get install postgresqlhadoop@Cluster0X:~$ sudo vim /etc/postgresql/8.4/main/pg_hba.conf
#local   all         all                               identlocal   all         all                               trust# IPv4 local connections:#host    all         all         127.0.0.1/32          md5host    all         all         127.0.0.1/32          passwordhost    all         all         192.168.0.1/24          password            # 加上Cluster 機器 IP 範圍# IPv6 local connections:#host    all         all         ::1/128               md5host    all         all         ::1/128               password hadoop@Cluster0X:~$ sudo /etc/init.d/postgresql-8.4 restarthadoop@Cluster0X:~$ sudo su - postgrespostgres@Cluster0X:~$ createuser hadoop
Shall the new role be a superuser? (y/n) ypostgres@Cluster01:~$ psqlpsql (8.4.2)Type "help" for help.postgres=# alter user hadoop with password '1234';ALTER ROLEpostgres=# /q 測試其他機器可否連線
hadoop@Cluster01:~$ createdb testdbhadoop@Cluster02:~$ psql -h Cluster01 testdb
如果能够连接上，则出现以下提示：
口令:psql (8.4.2)SSL connection (cipher: DHE-RSA-AES256-SHA, bits: 256)Type "help" for help.testdb=#
3 设置HadoopDB
首先从http://sourceforge.net/projects/hadoopdb/files/下载hadoopdb，解压后，其中包含hadoopdb.jar。
    然后再从http://jdbc.postgresql.org/download.html下载postgresql-8.4-701.jdbc4.jar。
hadoop@Cluster0X:~$ cp hadoopdb.jar HADOOP_HOME/lib/hadoop@Cluster0X:~$ cp postgresql-8.4-701.jdbc4.jar HADOOP_HOME/lib/hadoop@Cluster0X:~$ vim HADOOP_HOME/conf/core-site.xml
core-site.xml 文件中添加以下内容：<property><name>hadoopdb.config.file</name><value>HadoopDB.xml</value><description>The name of the HadoopDB cluster configuration file</description></property><property><name>hadoopdb.fetch.size</name><value>1000</value><description>The number of records fetched from JDBC ResultSet at once</description></property><property><name>hadoopdb.config.replication</name><value>false</value><description>Tells HadoopDB Catalog whether replication is enabled.Replica locations need to be specified in the catalog.False causes replica information to be ignored.</description></property>
hadoop@Cluster01:~$ vim nodes.txt将集群中的所有节点IP写入此文件：
192.168.0.1192.168.0.2 hadoop@Cluster01:~$ vim  Catalog.properties
#Properties for Catalog Generation##################################nodes_file=nodes.txt# Relations Name and Table Name are the samerelations_unchunked=rawrelations_chunked=poicatalog_file=HadoopDB.xml###DB Connection Parameters##port=5432username=hadooppassword=1234driver=org.postgresql.Driverurl_prefix=jdbc/:postgresql/://###Chunking properties### the number of databases on a nodechunks_per_node=2# for udb0 ,udb1 ( 2 nodes = 0 ~ 1 )unchunked_db_prefix=udb# for cdb0 ,cdb1, ... , cdb5 (2 nodes x 3 chunks = 0~5 )chunked_db_prefix=cdb###Replication Properties##dump_script_prefix=/root/dump_replication_script_prefix=/root/load_replica_dump_file_u_prefix=/mnt/dump_udbdump_file_c_prefix=/mnt/dump_cdb###Cluster Connection##ssh_key=id_rsa-gsg-keypair hadoop@Cluster01:~$ java -cp lib/hadoopdb.jar edu.yale.cs.hadoopdb.catalog.SimpleCatalogGenerator Catalog.properties
产生的 HadoopDB.xml 类似下面：<?xml version="1.0" encoding="UTF-8" standalone="yes"?><DBClusterConfiguration xmlns="http://edu.yale.cs.db.hadoop/DBConfigurationSchema">    <Nodes Password="1234" Username="hadoop" Driver="org.postgresql.Driver" Location=" 192.168.0.1 ">        <Relations id="raw">            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/udb0" id="0"/>        </Relations>        <Relations id="poi">            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/cdb0" id="0"/>            <Partitions url="jdbc:postgresql:// 192.168.0.1 :5432/cdb1" id="1"/>        </Relations>    </Nodes>    <Nodes Password="1234" Username="hadoop" Driver="org.postgresql.Driver" Location=" 192.168.0.2 ">        <Relations id="raw">            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/udb1" id="1"/>        </Relations>        <Relations id="poi">            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/cdb2" id="2"/>            <Partitions url="jdbc:postgresql:// 192.168.0.2 :5432/cdb3" id="3"/>        </Relations>    </Nodes></DBClusterConfiguration>
将HadoopDB.xml放入HDFS中：hadoop@Cluster01:~$ hadoop dfs -put HadoopDB.xml HadoopDB.xml
4 数据加载
在此以 raw 这个 talbe 当作例子进行讲解。根据前面HadoopDB.xml的内容，集群中的两个节点，第一个节点的数据库名称为udb0 ，第二个节点为udb1，首先分别创建这两个数据库：
hadoop@Cluster01:~$ createdb udb0hadoop@Cluster02:~$ createdb udb1 在对应数据库上建立raw 这个table：
hadoop@Cluster01:~$ psql udb0udb0=# CREATE TABLE raw (ID int,NAME varchar(300));同理如 Cluster02 先将本地文件系统中的数据put到HDFS中：$ hadoop fs -put localfile input_in_hdfs/数据切割：使用 HadoopDB 所提供的切割工具将数据切割成n份(一般，n是集群有节点数目)，以下例子中：n=2，每一份数据的分割符是'/n':$ hadoop jar lib/hadoopdb.jar edu.yale.cs.hadoopdb.dataloader.GlobalHasher input_in_hdfs out_in_hdfs 2 '/n' 0在各个节点上，将切割后的数据，从hdfs中传到各个节点的本地文件系统中:$ hadoop fs -get out_in_hdfs/part-00000 /home/hadoop/p0将本地文件载入到数据库中：hadoop@Cluster01:~$ psql udb0 udb0=# COPY RAW FROM '/home/hadoop/p0' WITH DELIMITER E'/t' ;同理如 Cluster02
5 SMS安装配置
    第3步下载的hadoopdb解压后包含SMS_dist.tar.gz文件夹。
    SMS的安装方法很简单：首先将其解压，然后打开bin目录下的hive-config.sh文件，再最后加上一句：
    export HADOOP_HOME="此处写hadoop的安装路径"。
然后在hive上建立上面raw这个table对应的数据库：假設 Hive 使用的数据將儲存在 HDFS 的 /dbhadoop@Cluster01:~ $ hadoop dfs -mkdir /dbhadoop@Cluster01:~ $ SMS_dist/bin/hiveCREATE EXTERNAL TABLE raw  (ID int,NAME string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '|'STORED ASINPUTFORMAT 'edu.yale.cs.hadoopdb.sms.connector.SMSInputFormat'OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION '/db/raw';/db/raw中的raw是指table的名称
5  以上设定完后，即可在一台机器上(Ex: Cluster1) 執行 $ SMS_dist/bin/hive 看看成果
hadoop@Cluster01:~ $ SMS_dist/bin/hivehive> show tables;hive> select name from raw;
npucloud
关注
关注
点赞
收藏
打赏
评论
HadoopDB集群配置方法
Author:谢本文介绍在2个节点上安装配置HadoopDB方法。各节点的名称分别为Cluster01(192.168.0.1)，Cluster02(192.168.0.2)。以下若是用 hadoop@Cluster0X:~ 代表 Cluster01 ~ Cluster02 都要做的.参考资料1：HadoopDB Quick Start Guide参考资料2：HadoopDB安装使用
复制链接
扫一扫
专栏目录
hadoopdb.pdf
05-21
附件是hadoopdb.pdf ，这个是hadoopdb的官方说明文档，也可从官网上进行下载
HadoopDB安装使用
大数据框架Hadoop学习
05-15
297
由于它是在 Hadoop-0.19.x 开发的，因此我还是用 Hadoop-0.19.2 来架设，其中 0.19.2 与 0.20.1 安装上只有些微的差别，在上述文章中的 hadoop-0.20.1/conf/core-site.xml 与 hadoop-0.20.1/conf/mapred-site.xml 的内容，只需改写在 hadoop-0.19.2/conf/hadoop-site.x...
评论 1
您还未登录，请先
登录
后发表或查看评论
hadoopDB 数据仓库简介
train的专栏
02-08
9511
读了两篇关于hadoopDB数据仓库的论文之后，写一点关于hadoopDB的简介：
hadoopDB是耶鲁大学的一个大学项目，目的是为了构建一个数据仓库的工具。
HadoopDB 结合了hadoop 和paralled RDBMS，结合两个技术的优点。
HadoopDB is to connect multiple single_node database systemusing Ha
云数据库UDB的三重境界「下」
weixin_34310785的博客
09-29
116
2019独角兽企业重金招聘Python工程师标准>>>
...
Hadoop（入门）
最新发布
m0_46914845的博客
07-13
3万+
Hadoop（入门）
hadoop 安装出现的几种异常的处理方法,hadoop无法启动,no namenode to stop问题的解决方法,no datanode
xiaolang85的专栏
09-13
2万+
hadoop无法正常启动(1)
执行 $ bin/hadoop start-all.sh之后,无法启动.
异常一
Exception in thread "main" java.lang.IllegalArgumentException: Invalid URI for NameNode address (check fs.defaultFS): file:/// has no auth
HadoopDB浅析
biaobiaoqi的老博客
05-18
4011
HadoopDB是一个Mapreduce和传统关系型数据库的结合方案，以充分利用RDBMS的性能和Hadoop的容错、分布特性。2009年被Yale大学教授Abadi提出，继而商业化为Hadapt，据称从VC那儿拉到了10M刀投资。
本文是对HadoopDB论文的总结。其中不免掺杂些自己的不成熟想法，更详细的内容，还请参见原论文 HadoopDB: An Architectural Hybr
Hadoop中DBInputFormat和DBOutputFormat使用
dajuezhao的专栏
08-09
1万+
一、背景
为了方便MapReduce直接访问关系型数据库（Mysql,Oracle），Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过
DBInputFormat类把数据库表数据读入到HDFS，根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。
二、技术细节
1、DBInputFormat（Mys
HadoopDB-开源
05-09
HadoopDB是并行数据库和MapReduce技术的混合体。它在性能和效率上接近并行数据库，但仍可提供MapReduce系统的可伸缩性，容错性和灵活性。
Java操作Excel之Poi视频教程 java1234出品
09-29
Java操作Excel之Poi视频教程 java1234出品
Java操作Excel之Poi视频教程 java1234出品
miracast软件下载
11-01
好不好好不好。安卓盒子实现miracast方式：（1）盒子安装一个屏幕接受装置。（2）手机需要安装屏幕发射软件（需要root权限）。 4.2以下玩miracast投影借助软件mirrorOP 安装成功后效果：...
【漫画系列】HDFS存储原理分析汇总篇
weixin_34273479的博客
11-05
897
本次分享结合Maneesh Varshney的漫画改编，为大家分析HDFS存储机制与运行原理。一、角色出演如上图所示，HDFS存储相关角色与功能如下：Client：客户端，系统使用者，调用HDFS API操作文件；与NN交互获取文件元数据；与DN交互进行数据读写。Namenode：元数据节点，是系统唯一的管理者。负责元数据的管理；与client交互进行提供元数据查询；分配数据...
LC与晶体振荡器实验报告.doc
11-24
实验报告
随机过程张卓奎答案
07-28
随机过程张卓奎西安电子科技大学课本配套答案
java实例几百例，特别是swing的GUI编程
03-12
里面有很有用的java实例！！特别是swing的GUI编程。那此GUI不是很好的人可以看哈哦！！
QQ群机器人酷Q语言库、词库
06-02
QQ群机器人酷Q语言库、词库.htm
Unity 5 for Android Essentials
08-05
A fast-paced guide to building impressive games and applications for Android devices with Unity 5
MongoDB与Hadoop技术栈的整合应用
Tony_老七
06-12
7988
如何在Hadoop技术栈之上，构建基于NoSQL数据库MongoDB的数据应用.
“相关推荐”对你有帮助么？
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题：大白
设计师：CSDN官方博客
返回首页
npucloud
CSDN认证博客专家
CSDN认证企业博客
码龄12年
暂无认证
原创
112万+
周排名
58万+
总排名
2万+
访问
等级
344
积分
粉丝
获赞
评论
收藏
私信
关注
热门文章
Hadoop性能调优(二)--Map and Reduce tasks 数量
8032
TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响
3768
HadoopDB集群配置方法
2748
Hadoop0.21.0源码编译方法
2681
Hadoop中TeraSort算法分析
948
分类专栏
Cloud Computing
1篇
Database
Hadoop
8篇
HadoopDb
1篇
MapReduce
Others
最新评论
Hadoop性能调优(二)--Map and Reduce tasks 数量
凡凡轶崔:
0.75? 1.75？写乱了最后
Hadoop0.21.0源码编译方法
jiajiaoor:
你好，我按照你的方法编译了hadoop，最后倒是可以编译成功，可是项目的包乱的不行，程序里各种叉叉。根本都不好下手改。这该怎么改啊？分享下吧！谢谢罗！
HadoopDB集群配置方法
黑蛋哥:
请问楼主有hadoopDB与 mysql构建的相关资料吗？如果有麻烦发给我shenkxiao@163.com谢谢！
TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响
jiajiaoor:
请问，如果map task的数量是由设置mapred.min.split.size来决定的话，那么设置mapred.map.tasks的作用是什么了？它的默认的值为2，这个值对于每个Job中map task的数量有什么影响了？
您愿意向朋友推荐“博客详情页”吗？
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
Hadoop0.21.0源码流程分析(3)-Task节点管理启动任务
Hadoop0.21.0源码流程分析(2)-主节点接收作业
Hadoop源代码分析【RPC】
2011年10篇
目录
目录
分类专栏
Cloud Computing
1篇
Database
Hadoop
8篇
HadoopDb
1篇
MapReduce
Others
目录
评论 1
被折叠的条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
npucloud
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额：-- )
扫码支付
扫码支付：¥2
获取中
扫码支付
您的余额不足，请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明：
1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。
余额充值