基于Hadoop平台的Spark框架研究

时间:2015-01-03 10:34 来源:www.fabiaoba.com 作者:陈虹君 点击:
  摘要:Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨论Spark的任务调度方式,最后讨论了Spark的环境及测试。

  关键词:大数据;Hadoop;Spark;机器学习;图计算;实时处理

  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)35-8407-02

  Spark Framework Based on Hadoop Platform

  CHEN Hong-jun

  (ChengDu College of university of Electronic Science And Technology of China, Chengdu 611740, China)

  Abstract: Hadoop is the main platform of big data mining on which you can mine big data.The scale and speed of data mining is an issue we need to consider. Spark framework is an excellent framework, which combines machine learning, graphs computing and online processing in one framework, which is a simple, powerful and efficient. This paper first discusses the Spark composition, followed by a discussion Spark task scheduling, and finally discuss the environment and test the Spark.

  Key words: big data; Hadoop; Spark; machine learnin; graphs computing; online processing

  云计算的研究与发展十分迅速,云计算的具体应用大数据挖掘更是具有很高的实用价值和商业价值。如何对大数据进行挖掘,并且如何对大数据进行快速、高效的挖掘更是值得研究。

  1 Spark—新一代大数据挖掘平台

  Spark称为快数据,比Hadoop的传统处理方式MapReduce有着很大的差别,效率至少提高100倍以上。

  Spark分为四大模块:Spark SQL-RDD(数据执行的基本单元),MLlib(机器学习)、Graphx(图计算),Spark Streaming(实时处理)。这四个部分的数据处理单元都是RDD。所以整个框架形成了大数据处理各种应用场景编程的一致性。

  同时,Spark是基于内存的编程模型,它可以把中间的迭代过程不放在磁盘中,直接数据不落地在内存中执行,极大地提高了它的执行速度。下面来介绍它的各个模块。

  2 Spark SQL

  Spark SQL允许在SQL和HiveQL中的相关查询表达式在Spark中的执行。这个组件的核心是一个新型的RDD,JavaSchemaRDD。JavaSchemaRDD是由Row对象和schema描述行中每一列的数据类型。JavaSchemaRDD类似一个关系型数据库中的表。一个JavaSchemaRDD可以通过已存在的RDD,Parquet文件,一个JSON数据集或者存储在Apache Hive通过HiveQL运行的数据来创建。

  Spark SQL程序都需要程序的入口:

  public static void main(String[] args) throws Exception {

  SparkConf sparkConf = new SparkConf().setAppName("JavaSparkSQL");

  JavaSparkContext ctx = new JavaSparkContext(sparkConf);

  //创建SQL查询的入口点,上下文。可以用来创建SchemaRDD来执行SQL查询。

  JavaSQLContext sqlCtx = new JavaSQLContext(ctx);

  …}

  3 MLlib

www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
  本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/ CSSCI核心/医学投稿辅导/职称投稿辅导。

投稿邮箱:fabiaoba365@126.com
 在线咨询: 投稿辅导275774677投稿辅导1003180928
 在线咨询: 投稿辅导610071587投稿辅导1003160816
 联系电话:18796993035

联系方式
李老师QQ:发表吧客服610071587 陈老师QQ:发表吧客服275774677 刘老师QQ:发表吧客服1003160816 张老师QQ:发表吧客服1003180928 联系电话:18796993035 投稿邮箱:fabiaoba365@126.com
期刊鉴别
  • 刊物名称:
  • 检索网站:
热门期刊
发表吧友情提醒

近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。

此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。

如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。

 
QQ在线咨询
论文刊登热线:
137-7525-9981
微信号咨询:
fabiaoba-com

友情链接

申请链接