What you'll learn
- 掌握Pig的数据模型,并利用PigLatin语句分析数据
Course content
1 section • 6 lectures • 2h 17m total length
- Preview19:03
- 08:07Pig的常用命令
- 14:09Pig的数据模型
- 42:12使用PigLatin语句分析和处理数据
- 26:03Pig的自定义函数和自定义运算函数
- 27:59Pig的自定义加载函数
Requirements
- Java开发,HDFS和Mapreduce相关的内容
Description
Pig是Apache项目的一个子项目,Pig提供了一个支持大规模数据分析的平台。Pig包括用来描述数据分析程序的高级程序语言,以及对这些程序进行评估的基础结构。Pig突出的特点就是它的结构经得起大量并行任务的检验,这使得它能够处理大规模数据集。
目前Pig的基础结构层包括一个产生MapReduce程序的编译器。Pig的语言层包括一个叫做PigLatin的文本语言,它具有以下几个特征:
易于编程:实现简单的和高度并行的数据分析任务非常容易。由相互关联的数据转换实例所组成的复杂任务被明确地编码为数据流,这是他们的编写更加容易,同时也更容易理解和维护。
自动优化:任务编码的方式允许系统自动去优化执行过程,从而使用户能够专注于语义,而非效率。
可扩展性:用户可以轻松编写自己的函数来进行特殊用途的处理。
Who this course is for:
- 已经掌握HDFS和Mapreduce相关知识,并想进一步学习Pig的学员
Instructor
赵强老师,清华大学软件工程专业毕业。现就职于Oracle(中国)有限公司高级技术顾问,在Oracle公司服务已超过10年。业界知名的Oracle数据库专家和大数据专家,精通Oracle数据库、大数据、Weblogic中间件和Java技术。同时,受聘于多家知名IT培训机构,线下培训的学员已超过万人。 发布的课程包括:大数据系列课程(Hadoop、Spark、Storm等),NoSQL数据库系列课程、Oracle数据库系列课程、Weblogic应用服务器课程、Java系列课程等等。