本节课主要内容:
1、RDD创建的几种方式
2、RDD创建实战
3、RDD内幕
RDD创建有很多种方式,以下几种创建RDD的方式:
1、使用程序中的集合创建RDD,实际意义用于测试用;
2、使用本地文件系统创建RDD,测试大量数据的文件;
3、使用HDFS创建RDD,最常用的方式;
4、基于DB创建RDD;
5、基于NoSQL创建RDD,例如HBase;
6、基于S3创建RDD;
7、基于数据源创建RDD;
RDD实战:
//通过集合方式创建RDD
val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")val sc = new SparkContext(conf)//创建RDDval rdd = sc.parallelize(0 to 100)//1+2=3 3+3 = 6 6+4 = 10 ....val sum = rdd.reduce(_ + _)println(sum)
//通过HDFS上文件创建RDD
val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")val sc = new SparkContext(conf)//创建RDDval lines = sc.textFile("hdfs://Master:9000/data/README.md")val words = lines.flatMap(line => line.split(" ")).map(line => (line, 1))val wordCount = words.reduceByKey(_ + _)wordCount.collect().foreach(println)
备注:
资料来源于:DT_大数据梦工厂
更多私密内容,请关注微信公众号:DT_Spark
如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580