logAnalyzeHelper
工程的目的
该工程是论坛日志分析系统的辅助工程,主要功能模块是帮助日志分析系统清洗数据、以及在Hive中建立相应的数据表。
工程目录结构
/src
------/main
--------------/java
---------------------/cn.edu.hust
---------------------------------------/preprocess
-------------------------------------------------/domain
-------------------------------------------------------/WebLogBean 日志的POJO对象
-------------------------------------------------/ClickStream r日志清洗数据
---------------------------------------/udf
-------------------------------------------bean
---------------------------------------------Pair IP查找的辅助类
-------------------------------------------BrowserUtils 获取浏览器的UDF函数
-------------------------------------------CityUtils 获取城市的UDF函数类
-------------------------------------------IPUtils 获取省份的UDF函数类
-------------------------------------------OSUtils 获取操作系统UDF函数类
-------------/resources
------/test
------/pom,xml
工程使用的数据集
工程使用的数据集可以在作者的百度云中 下载日志数据,
工程的流程
原始数据--->数据规整--->ETL--->导入mysql数据库--->可视化
ETL使用的SQL
使用的SQL在本本工程中命名为点击流.sql