Scala有两种类型的变量,一种是使用关键字var声明的变量,值是可变的;另一种是使用关键字val声明的变量,也叫常量,值是不可变的。这里需要说明的是,虽然声明值和变量的方式比较简单,但是有以下几个事项需要注意: 查看全文>>
大数据技术文章2020-12-17 |传智教育 |Scala声明值和变量
MapReduce是一种编程模型,用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候,每个任务的执行过程都会被分为两个阶段,分别是Map和Reduce,其中Map阶段用于对原始数据进行处理,Reduce阶段用于对Map阶段的结果进行汇总,得到最终结果,这两个阶段的模型如图1所示。 查看全文>>
大数据技术文章2020-12-17 |传智教育 |MapReduce编程模型,大规模数据集的运算
HBase分布式数据库最重要的就是存储数据,下面,从四个方面详细介绍HBase的物理存储。 查看全文>>
大数据技术文章2020-12-17 |传智教育 |数据存储,HBase物理存储机制
随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量、更好的性能以及安全性更高的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,但也有传统分布式文件系统的优点和缺点。 查看全文>>
大数据技术文章2020-12-16 |传智教育 |HDFS,HDFS分布式文件系统的优点
Spark可以从Hadoop支持的任何存储源中加载数据去创建RDD,包括本地文件系统和HDFS等文件系统。我们通过Spark中的SparkContext对象调用textFile()方法加载数据创建RDD。这里以Linux本地系统和HDFS分布式文件系统为例,讲解如何创建RDD。 查看全文>>
大数据技术文章2020-12-07 |传智教育 |创建RDD,RDD
Sqoop是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,并在2013年,独立成为Apache的一个顶级开源项目。 查看全文>>
大数据技术文章2020-12-07 |传智教育 |Sqoop,什么是sqoop
数据仓库是一个面向主题的、集成的、随时间变化的,但信息本身相对稳定的数据集合,它用于支持企业或组织的决策分析处理,基于数据仓库的定义,数据仓库此处有四个特点: 查看全文>>
大数据技术文章2020-12-02 |传智教育 |数据仓库特点,数据仓库
Hadoop是由Java语言开发的,Hadoop集群的使用依赖于Java环境,因此在安装Hadoop集群前,需要先安装并配置好JDK。接下来,就在前面规划的Hadoop集群主节点hadoop01机器上分步骤演示,如何安装和配置JDK,具体如下。 查看全文>>
大数据技术文章2020-12-02 |传智播客 |JDK的安装和配置