http://blog.csdn.net/jiushuai/article/details/26693569
scala和spark的包都在官网找就可以了!
spark 有几种形式,standalon形式就是spark单独集群,这个会起一个进程,提供spark 的job的进度查看,而spark on yarn 不需要启动这个进程了。yarn的resourcemanage的控制台就做了spark的那个控制台的工作。。总的来说spark on yarn 的安装还是特别简单的!
java高级交流群:37341439 ,如果文章有看不懂的地方可以加群啊~我会随时回复的!!欢迎学习spark和hadoop和storm和hbase的同志进群分享学习心得啊!咱们群不是培训机构,纯粹个人学习分享,互相学习,互相提高!
1:需要在各个机器安装scala ,安装taz包
2:需要编译spark
记得编译的用户要安装scala 并且设置SCALA_HOME变量
如果报protobuf错误,可能是因为protobuf和pom.xml的版本不一致,可以修改pom.xml里面的protobuf版本号
<protobuf.version>2.5.0</protobuf.version>
用maven编译:编译命令如下:
export MAVEN_OPTS=“-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m”
mvn -Dyarn.version=2.2.0 -Dhadoop.version=2.2.0 -Pnew-yarn -DskipTests package
mvn -Dyarn.version=2.2.0 -Dhadoop.version=2.2.0 -Pnew-yarn -DskipTests package
3:编译完成后要将编译后的内核打成jar包,命令如下:
SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/sbt assembly
打包完成后会在以下目录下生成一些jar包
assembly/target/scala-2.10/*.jar
examples/target/scala-2.10/*.jar
其中:assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.2.0.jar 是内核jar。spark 的job运行需要依赖的jar包
examples/target/scala-2.10/spark-examples-assembly-0.9.1.jar 是官方的hello word程序。
4:运行hello world
需要在提交用户添加如下环境变量:
export JAVA_HOME=/usr/java/jdk1.7.0_45
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_INSTALL=/opt/hadoop
export HADOOP_HOME=$HADOOP_INSTALL
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH
export SPARK_HOME=/usr/local/spark
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_INSTALL=/opt/hadoop
export HADOOP_HOME=$HADOOP_INSTALL
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH
export SPARK_HOME=/usr/local/spark
export SPARK_JAR=/usr/local/assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.2.0.jar
export PATH=$SPARK_HOME/bin:$PATH
5:修改conf目录下的spark-env.sh,添加环境变量
export SPARK_HOME=/usr/local/spark
export SPARK_JAR=/usr/local/spark/assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.2.0.jar
export PATH=$SPARK_HOME/bin:$PATH
export SPARK_JAR=/usr/local/spark/assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.2.0.jar
export PATH=$SPARK_HOME/bin:$PATH
提交job 的命令
./spark-class org.apache.spark.deploy.yarn.Client --jar /usr/local/spark/examples/target/scala-2.10/spark-examples-assembly-0.9.1.jar --class org.apache.spark.examples.JavaSparkPi --args yarn-standalone --num-workers 1 --master-memory 1G --worker-memory 1G --worker-cores 1
如果执行的时候报这个错误,是因为/usr/local/assembly/target/scala-2.10/ 目录有2个jar包。将spark-assembly_2.10-0.9.1-hadoop2.2.0.jar删除或者移动一下
Found multiple Spark assembly jars in /usr/local/spark/assembly/target/scala-2.10:
注意::
不需要在hadoop启停用户添加
spark 和scala环境变量哦~
相关推荐
1. 解压Spark安装包 2. 配置Hadoop生态组件相关环境变量 2. 在 master 节点上,关闭HDFS的安全模式: 3. 在 master 节点上
【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf
■ 计算框架在Hadoop 中的作用 ■ YARN 的设计目的和基本架构 ...■ Apache Spark 概念 ■ YARN 如何分配集群资源 ■ YARN 如何处理故障 ■ 如何查看和管理YARN 应用程序 ■ 如何访问YARN 应用程序日志
Spark on Yan集群搭建的详细过程,减少集群搭建的时间
Spark on Yarn模式部署.docx
基于docker搭建spark on yarn及可视化桌面.doc
spark初始化源码阅读sparkonyarn的client和cluster区别
SPARK2_ON_YARN-2.4.0 jar包下载
#资源达人分享计划#
基于SparkonYarn的淘宝数据挖掘平台
本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark onyarn的实现,1.0.0里面...在第一章《spark-submit提交作业过程》的时候,我们讲过Sparkonyarn的在cluster模式下它的main clas
三种方式的spark on kubernetes对比,第一种:spark原生支持Kubernetes资源调度;第二种:google集成的Kubernetes的spark插件sparkoperator;第三种:standalone方式运行spark集群
Oozie Spark on YARN requirement failed 所需jar包:http://blog.csdn.net/fansy1990/article/details/53856608
Spark&Yarn手动安装指南
spark-yarn_2.11-2.1.3-SNAPSHOT.jar
基于Spark_on_Yarn的淘宝数据挖掘平台
Spark On Yarn完全分布式集群环境搭建文档。 分为如下几部分: 1、环境的准备; 2、Zookeeper完全分布式搭建; 3、Hadoop2.0 HA集群搭建步骤介绍; 4、Spark On Yarn搭建介绍; 5、集群启动介绍; 最新最全的java培训视频...
2014年Spark Summit于6月30日至7月2日在美国旧金山举行。Spark、Shark、Spark流媒体和相关项目及产品的主要用户聚集一地,共同探讨Spark项目开发的方向,以及Spark在各种各样应用程序中的实践情况。
java提交spark任务到yarn平台的配置讲解共9页.pdf.zip
本篇博客,Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。 文章目录准备工作cluster模式client模式[了解]两种模式的区别 官方文档: http://spark.apache.org/docs/latest/running-on-yarn.html 准备...