TALKDATA
diff --git a/‎news-bigdataproject/10、flume-hbase-kfk联调.md‎
Lines changed: 143 additions & 0 deletions b/‎news-bigdataproject/10、flume-hbase-kfk联调.md‎
Lines changed: 143 additions & 0 deletions
diff --git a/‎news-bigdataproject/11、mysql-hive.md‎
Lines changed: 150 additions & 0 deletions b/‎news-bigdataproject/11、mysql-hive.md‎
Lines changed: 150 additions & 0 deletions
diff --git a/‎news-bigdataproject/12、hive-hbase.md‎
Lines changed: 83 additions & 0 deletions b/‎news-bigdataproject/12、hive-hbase.md‎
Lines changed: 83 additions & 0 deletions
@@ -0,0 +1,143 @@
+---
+title: 第十章：Flume+HBase+Kafka集成全流程测试
+date: 2019-1-20 20:30:01
+categories: "用户日志实时与离线分析系统" 
+tags: 
+ - 项目
+---
+
+### 全流程测试简介
+将完成对前面所有的设计进行测试，核心是进行flume日志的采集、汇总以及发送至kafka消费、hbase保存。
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzd3g6rboxj30go0gp43u.jpg)
+###  原始日志数据简单处理
+1、下载搜狗实验室数据
+http://www.sogou.com/labs/resource/q.php
+2、格式说明
+数据格式为:访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
+其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID
+3、日志简单处理
+1）将文件中的tab更换成逗号
+cat weblog.log|tr "\t" "," > weblog2.log
+2）将文件中的空格更换成逗号
+cat weblog2.log|tr " " "," > weblog3.log
+处理完：
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzd3eylp5zj30l008fab1.jpg)
+###  编写模拟日志生成过程
+1、代码实现
+    实现功能是将原始日志，每次读取一行不断写入到另一个文件中（weblog-flume.log），所以这个文件就相等于服务器中日志不断增加的过程。编写完程序，将该项目打成weblogs.jar包，然后上传至bigdata-pro02.kfk.com节点和bigdata-pro03.kfk.com节点的/opt/jars目录下（目录需要提前创建）
+代码工程地址：https://github.com/changeforeda/Big-Data-Project/tree/master/code/DataProducer
+2、编写运行模拟日志程序的shell脚本
+```
+1）
+在bigdata-pro02.kfk.com节点的/opt/datas目录下，创建weblog-shell.sh脚本。
+vi weblog-shell.sh
+#/bin/bash
+echo "start log......"
+#第一个参数是原日志文件，第二个参数是日志生成输出文件
+java -jar /opt/jars/weblogs.jar /opt/datas/weblog.log /opt/datas/weblog-flume.log
+
+修改weblog-shell.sh可执行权限
+chmod 777 weblog-shell.sh
+2）
+将bigdata-pro02.kfk.com节点上的/opt/datas/目录拷贝到bigdata-pro03节点.kfk.com
+scp -r /opt/datas/ bigdata-pro03.kfk.com:/opt/datas/
+```
+3、运行测试
+/opt/datas/weblog-shell.sh
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzdb284hefj30he0chn95.jpg)
+###  编写一些shell脚本便于执行
+1、编写启动flume服务程序的shell脚本
+```
+1.在bigdata-pro02.kfk.com节点的flume安装目录下编写flume启动脚本。
+vi flume-kfk-start.sh
+#/bin/bash
+echo "flume-2 start ......"
+bin/flume-ng agent --conf conf -f conf/flume-conf.properties -n agent2 -Dflume.root.logger=INFO,console
+2.在bigdata-pro03.kfk.com节点的flume安装目录下编写flume启动脚本。
+vi flume-kfk-start.sh
+#/bin/bash
+echo "flume-3 start ......"
+bin/flume-ng agent --conf conf -f conf/flume-conf.properties -n agent3 -Dflume.root.logger=INFO,console
+3.在bigdata-pro01.kfk.com节点的flume安装目录下编写flume启动脚本。
+vi flume-kfk-start.sh
+#/bin/bash
+echo "flume-1 start ......"
+bin/flume-ng agent --conf conf -f conf/flume-conf.properties -n agent1 -Dflume.root.logger=INFO,console
+
+```
+2、编写Kafka Consumer执行脚本
+```
+1.在bigdata-pro01.kfk.com节点的Kafka安装目录下编写Kafka Consumer执行脚本
+vi kfk-test-consumer.sh
+#/bin/bash
+echo "kfk-kafka-consumer.sh start ......"
+bin/kafka-console-consumer.sh --zookeeper bigdata-pro01.kfk.com:2181,bigdata-pro02.kfk.com:2181,bigdata-pro03.kfk.com:2181 --from-beginning --topic weblogs
+2.将kfk-test-consumer.sh脚本分发另外两个节点
+scp kfk-test-consumer.sh bigdata-pro02.kfk.com:/opt/modules/kakfa_2.11-0.8.2.1/
+scp kfk-test-consumer.sh bigdata-pro03.kfk.com:/opt/modules/kakfa_2.11-0.8.2.1/
+
+```
+###  联调测试-数据采集分发
+```
+1、在各个节点上启动zk
+/opt/modules/zookeeper-3.4.5-cdh5.10.0/sbin/zkServer.sh start  
+/opt/modules/zookeeper-3.4.5-cdh5.10.0/bin/zkCli.sh  登陆客户端进行测试是否启动成功
+
+2、启动hdfs  --- http://bigdata-pro01.kfk.com:50070/
+在节点1：/opt/modules/hadoop-2.6.0/sbin/start-dfs.sh 
+#节点1 和 节点2  启动namenode高可用
+/opt/modules/hadoop-2.6.0/sbin/hadoop-daemon.sh start zkfc
+
+3、启动hbase  ----http://bigdata-pro01.kfk.com:60010/
+#节点 1  启动hbase
+/opt/modules/hbase-1.0.0-cdh5.4.0/bin/start-hbase.sh
+#在节点2 启动备用master
+/opt/modules/hbase-1.0.0-cdh5.4.0/bin/hbase-daemon.sh start  master
+#启动hbase的shell用于操作
+/opt/modules/hbase-1.0.0-cdh5.4.0/bin/hbase shell
+#创建hbase业务表
+bin/hbase shell
+create 'weblogs','info'
+
+4、启动kafka
+#在各个个节点启动kafka
+cd /opt/modules/kafka_2.10-0.9.0.0
+bin/kafka-server-start.sh config/server.properties &
+#创建业务
+bin/kafka-topics.sh --zookeeper bigdata-pro01.kfk.com:2181,bigdata-pro02.kfk.com:2181,bigdata-pro03.kfk.com:2181 --create --topic weblogs --replication-factor 2 --partitions 1
+#消费(之前编写的脚本可以用)
+bin/kafka-console-consumer.sh --zookeeper bigdata-pro01.kfk.com:2181,bigdata-pro02.kfk.com:2181,bigdata-pro03.kfk.com:2181 --from-beginning --topic weblogs
+```
+一定确保上述都启动成功能，利用jps查看各个节点进程情况。
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzdbmh1n31j309v042glj.jpg)![](http://ww1.sinaimg.cn/large/005BOtkIly1fzdbmovok3j309n03sa9y.jpg)![](http://ww1.sinaimg.cn/large/005BOtkIly1fzdbmw14tjj309o02cweb.jpg)
+```
+5、各个节点启动flume
+#三节点启动flume
+/opt/modules/flume-1.7.0-bin/flume-kfk-start.sh
+
+6、在节点2和3启动日志模拟生产
+/opt/datas/weblog-shell.sh
+
+7、启动kafka消费程序
+#消费（或者使用写好的脚本kfk-test-consumer.sh）
+bin/kafka-console-consumer.sh --zookeeper bigdata-pro01.kfk.com:2181,bigdata-pro02.kfk.com:2181,bigdata-pro03.kfk.com:2181 --from-beginning --topic weblogs
+
+8、查看hbase数据写入情况
+./hbase-shell
+count 'weblogs'
+```
+结果：
+kafka不断消费
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzdbszmkybj30rh0940ue.jpg)
+hbase数据不断增加
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzdbtek6eqj30rv0ar0ud.jpg)
+
+###  遇到的一些问题
+1、组件启动不起来
+可能原因是环境变量没设置，比如在启动flume时，因为调用java，所以要设置环境变量在flume的配置文件中。
+2、各个组件都启动了，但是没数据
+我是因为flume的sink写错了，所以根本输出不了数据，我是通过先把sink设置成输出到控制台发现没数据，再去看配置sink到底怎么了
+**3、解决各种小问题**
+1）看问题的日志；或者把日志中问题复制到百度，基本可以解决60%
+2）整个功能实现不了，应该从数据源头查看，一步一步向后排除原因，比如没数据，看源头到底输出数据了吗？
+3）问题还是解决不了，就要反思自己是否有不懂的地方，设置错了。或者you can talk with me。。。
@@ -0,0 +1,150 @@
+---
+title: 第十一章：mysql、Hive安装与集成
+date: 2019-1-22 22:30:01
+categories: "用户日志实时与离线分析系统" 
+tags: 
+ - 项目
+---
+
+### 为什么要用mysql?
+一方面，本项目用来存储Hive的元数据；另一方面，可以把离线分析结果放入mysql中；
+
+### 安装mysql
+通过yum在线mysql，具体操作命令如下所示(关于yum源可以修改为阿里的，比较快和稳定)
+```
+1、在线安装mysql
+通过yum在线mysql，具体操作命令如下所示。
+yum clean all
+yum install mysql-server
+2、mysql 服务启动并测试
+sudo chown -R kfk:kfk /usr/bin/mysql    修改权限给kfk
+1）查看mysql服务状态
+sudo service mysqld status  
+2）启动mysql服务
+sudo service mysqld start
+3）设置mysql密码
+/usr/bin/mysqladmin -u root password '123456'
+4）连接mysql
+mysql –uroot -p123456
+a）查看数据库
+show databases;
+mysql
+test
+b）查看数据库
+use test;
+c）查看表列表
+show tables;
+```
+出现问题，大多数是权限问题，利用sudo执行或者重启mysql.
+
+### 安装Hive
+Hive在本项目中功能是，将hbase中的数据进行离线分析，输出处理结果，可以到mysql或者hbase，然后进行可视化。
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzfpw9k0v7j30kv09rtfp.jpg)
+这里版本采用的是：apache-hive-2.1.0-bin.tar.gz
+（之前用apache-hive-0.13.1-bin.tar.gz出现和hbase集成失败，原因很奇怪，下一章详细讲）。
+1、解压
+```
+步骤都老生常谈了。。。
+tar -zxf apache-hive-2.1.0-bin.tar.gz -C /opt/modules/
+mv  apache-hive-2.1.0-bin hive-2.1.0     //重命名
+```
+2、修改配置文件
+```
+1）hive-log4j.properties
+#日志目录需要提前创建
+hive.log.dir=/opt/modules/hive-2.1.0/logs
+2）修改hive-env.sh配置文件
+HADOOP_HOME=/opt/modules/hadoop-2.6.0
+HBASE_HOME=/opt/modules/hbase-1.0.0-cdh5.4.0
+# Hive Configuration Directory can be controlled by:
+export HIVE_CONF_DIR=/opt/modules/hive-2.1.0/conf
+```
+3、启动进行测试
+首先启动HDFS，然后创建Hive的目录
+bin/hdfs dfs -mkdir -p /tmp
+bin/hdfs dfs -chmod g+w /tmp
+bin/hdfs dfs -mkdir -p /user/hive/warehouse
+bin/hdfs dfs -chmod g+w /user/hive/warehouse
+4、测试
+```
+./hive
+#查看数据库
+show databases;
+#使用默认数据库
+use default;
+#查看表
+show tables;
+
+```
+### Hive与mysql集成
+利用mysql放Hive的元数据。
+1、在/opt/modules/hive-2.1.0/conf目录下创建hive-site.xml文件，配置mysql元数据库。
+```
+<?xml version="1.0"?>
+<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
+
+
+<configuration>
+  <property>
+    <name>javax.jdo.option.ConnectionURL</name>
+    <value>jdbc:mysql://bigdata-pro01.kfk.com/metastore?createDatabaseIfNotExist=true</value>
+  </property>
+  <property>
+    <name>javax.jdo.option.ConnectionDriverName</name>
+    <value>com.mysql.jdbc.Driver</value>
+  </property>
+ <property>
+    <name>javax.jdo.option.ConnectionUserName</name>
+    <value>root</value>
+  </property>
+  <property>
+    <name>javax.jdo.option.ConnectionPassword</name>
+    <value>123456</value>
+  </property>
+  <property>
+    <name>hbase.zookeeper.quorum</name>   
+	<value>bigdata-pro01.kfk.com,bigdata-pro02.kfk.com,bigdata-pro03.kfk.com</value>
+  </property>
+
+
+</configuration>
+```
+2、设置用户连接信息
+
+1）查看用户信息
+mysql -uroot -p123456
+show databases;
+use mysql;
+show tables;
+select User,Host,Password from user;
+2）更新用户信息
+update user set Host='%' where User = 'root' and Host='localhost'
+3）删除用户信息
+delete from user where user='root' and host='127.0.0.1'
+select User,Host,Password from user;
+delete from user where host='localhost';
+删除到只剩图中这一行数据
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzfqckmjxej30ej031q2s.jpg)
+4）刷新信息
+flush privileges;
+3.拷贝mysql驱动包到hive的lib目录下
+cp  mysql-connector-java-5.1.35.jar /opt/modules/hive-2.1.0/lib/
+4.保证第三台集群到其他节点无秘钥登录
+
+### Hive与mysql测试
+1.启动HDFS和YARN服务
+2.启动hive
+./hive
+3.通过hive服务创建表
+CREATE TABLE stu(id INT,name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;
+4.创建数据文件
+vi /opt/datas/stu.txt
+00001	zhangsan
+00002	lisi
+00003	wangwu
+00004	zhaoliu
+5.加载数据到hive表中
+load data local inpath '/opt/datas/stu.txt' into table stu;
+直接在hive查看表中内容就ok。
+在mysql数据库中hive的metastore元数据。（元数据是啥，去看看hive介绍吧）
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzfqeibkrtj306103ta9v.jpg)
@@ -0,0 +1,83 @@
+---
+title: 第十二章：Hive与Hbase集成
+date: 2019-1-23 21:30:01
+categories: "用户日志实时与离线分析系统" 
+tags: 
+ - 项目
+---
+
+### Hive与HBase集成配置
+1、在hive-site.xml文件中配置Zookeeper，hive通过这个参数去连接HBase集群。
+```
+<property>
+    <name>hbase.zookeeper.quorum</name>   <value>bigdata-pro01.kfk.com,bigdata-pro02.kfk.com,bigdata-pro03.kfk.com</value>
+</property>
+```
+2、需要把hbase中的部分jar包拷贝到hive中
+这里采用软连接的方式：
+执行如下命令：
+```
+export HBASE_HOME=/opt/modules/hbase-1.0.0-cdh5.4.0
+export HIVE_HOME=/opt/modules/hive-2.1.0
+ln -s $HBASE_HOME/lib/hbase-server-1.0.0-cdh5.4.0.jar $HIVE_HOME/lib/hbase-server-1.0.0-cdh5.4.0.jar
+
+ln -s $HBASE_HOME/lib/hbase-client-1.0.0-cdh5.4.0.jar $HIVE_HOME/lib/hbase-client-1.0.0-cdh5.4.0.jar
+
+ln -s $HBASE_HOME/lib/hbase-protocol-1.0.0-cdh5.4.0.jar $HIVE_HOME/lib/hbase-protocol-1.0.0-cdh5.4.0.jar 
+
+ln -s $HBASE_HOME/lib/hbase-it-1.0.0-cdh5.4.0.jar $HIVE_HOME/lib/hbase-it-1.0.0-cdh5.4.0.jar 
+
+ln -s $HBASE_HOME/lib/htrace-core-3.0.4.jar $HIVE_HOME/lib/htrace-core-3.0.4.jar
+
+ln -s $HBASE_HOME/lib/hbase-hadoop2-compat-1.0.0-cdh5.4.0.jar $HIVE_HOME/lib/hbase-hadoop2-compat-1.0.0-cdh5.4.0.jar 
+
+ln -s $HBASE_HOME/lib/hbase-hadoop-compat-1.0.0-cdh5.4.0.jar $HIVE_HOME/lib/hbase-hadoop-compat-1.0.0-cdh5.4.0.jar
+
+ln -s $HBASE_HOME/lib/high-scale-lib-1.1.1.jar $HIVE_HOME/lib/high-scale-lib-1.1.1.jar 
+
+ln -s $HBASE_HOME/lib/hbase-common-1.0.0-cdh5.4.0.jar $HIVE_HOME/lib/hbase-common-1.0.0-cdh5.4.0.jar 
+```
+3、测试
+在hbase中建立一个表，里面存有数据（实际底层就是在hdfs上），然后Hive创建一个表与HBase中的表建立联系。
+1）先在hbase建立一个表
+（不熟悉的，看指令https://www.cnblogs.com/cxzdy/p/5583239.html）
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzgupdmei1j30h5037mx4.jpg)
+2）启动hive,建立联系（之前要先启动mysql，因为元数据在里面）
+```
+create external table t1(
+key int,
+name string,
+age string
+)  
+STORED BY  'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
+WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,info:name,info:age") 
+TBLPROPERTIES("hbase.table.name" = "t1");
+```
+3）hive结果
+执行 select * from t1;
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzgutrr5x7j30b0035glg.jpg)
+4、为项目中的weblogs建立联系
+之前我们把数据通过flume导入到hbase中了，所以同样我们在hive中建立联系，可以用hive对hbase中的数据进行简单的sql分析，离线分析。
+```
+create external table weblogs(
+id string,
+datatime string,
+userid string,
+searchname string,
+retorder string,
+cliorder string,
+cliurl string
+)  
+STORED BY  'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
+WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,info:datatime,info:userid,info:searchname,info:retorder,info:cliorder,info:cliurl") 
+TBLPROPERTIES("hbase.table.name" = "weblogs");
+```
+
+### Hive与HBase集成中的致命bug
+问题如图：
+![](http://ww1.sinaimg.cn/large/005BOtkIly1fzguxe0p4ej30nu0hl0ua.jpg)
+参考办法：https://www.cnblogs.com/zlslch/p/8228781.html
+按照上述，参考还是解决不了。
+最初怀疑是hbase中的jar包没有导入到hive中，或者导入错了，结果不是这个原因。网上有个大哥也是遇到这个问题了，写了一篇日志，最后他说不知如何解决？？
+*********************************************
+最终：我去官网看看，官网上说，hbase 1.x之后的版本，需要更高版本的hive匹配，最好是hive 2.x,上述的错误是因为我用的hive-0.13.1-bin和hbase-1.0.0-cdh5.4.0，应该是不兼容导致的，莫名bug。于是采用了 hive-2.1.0，我查了下这个版本与hadoop其他组件也是兼容的，所以，采用这个。配置仍然采用刚才的方法（上一章和这一章），主要有mysql元数据配置（驱动包别忘了），各种xml配置，测试下。最后，在重启hive之前，**先把hbase重启了**，很重要。终于成功了。。开心。