Tag Archives: hadoop

在之前的学习中我们知道,如果在算法的训练样本量m不足的时候得到的模型具有高方差(High Variance),那么此时我们需要更多的训练样本。但是如果算法具有高偏差,提高样本数量并不会显著改善模型的性能。

在今天,数据集很容易就可以达到m=100,000,000这样的数量级(比如人口调查、通讯消息等)。在这样的背景下,梯度下降算法每一步都需要汇总上亿个训练样本来完成一次迭代。那么我们能不能通过一些方法来分流如此大量的计算呢?

1、控制台:
进行Hadoop集群任务管理的时候,我们可以通过访问任意一台机器的8088端口

hadoop01:8088/cluster
进入图形界面。

2、驱动分析
我们以WordCount这个jar为例,进行分析,其中的main方法称为驱动:

public class WordCount
{
public static void main(String[] args) throws Exception // 整个main方法是驱动
{
Job job = new Job(conf,”word count”); // 提交job
job.setJarByClass(WordCount.class); // 定义要运行的jar地址
job.setMapperClass(TokenizerMapper.class); // 定义Mapper
job.setCombinerClass(IntSumReducer.class); // 定义Combiner
job.setReducerClass(IntSumReducer.class); // 定义Reducer
job.setOutputKeyClass(Text.class); // 定义输出的key的类,这里是Text
job.setOutputValueClass(IntWritable.class); // 定义输出的Value的类,这里是可序列化的

一、HDFS Java API的使用
操作HDFS的常用api有下面几种:

创建目录、上传文件、下传文件
移动文件、重命名文件、删除文件
查看HDFS存储的文件列表
查看HDFS存储的所有文件信息

一、前言
这个系列的笔记是根据网上的大数据教程记录的。笔记内容以课堂内容为主,方便复习。这个课程主要涉及了Hadoop离线处理框架、Storm实时处理工具、Kafka消息队列等方面的知识,内容不是特别深入,仅供入门学习。限于我仍是初学者,对于课程的笔记难免有不准确的地方,欢迎大家指正。

二、数据部
1、数据部的一般组织架构
对于目前流行的“大数据”一词,其实我个人会倾向于尽量避开,因为它涉及到的内容实在是太宽泛了。

在这里,将企业与数据相关的部门泛称为数据部。首先来看看,这个部门中有哪些岗位/职责。

对于离线平台组:

Hadoop集群运维工程师:Linux运维、Hadoop集群运维调优、服务器运维
Hive工程师:类似于用sql来写分析
ETL工程师:Flume数据收集、数据加载Hadoop、数据标准化
对于实时平台组:

相当于JAVA EE继续往后深入,其中流式计算框架有Storm/JStorm,消息队列有Kafka/Metaq

Insert math as
Block
Inline
Additional settings
Formula color
Text color
#333333
Type math using LaTeX
Preview
\({}\)
Nothing to preview
Insert