浅谈大数据分析技术及其应用.doc
上传者:丰儿
2022-05-26 16:40:22上传
DOC文件
18 KB
浅谈大数据分析技术及其应用
高聪 熊杰 刘彩云 摘要:该文主要介绍了大数据分析的关键技术,以及大数据分析在行业中的应用,以期对有关人员提供参考。
关键词:大数据;分布式;机器学****可视化
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)05-0005-02
开放科学(资源服务)标识码(OSID):
近年来,大数据迅速发展已经引起了政府、学术界和企业的高度重视,成了全世界都关注的热点技术。大数据时代推动了各行各业的快速发展,在快速发展的过程中会形成海量的数据,想要获取数据的价值,就要对数据进行分析与计算。每当我们在日常生活中做出任何决定,都是通过思考上次发生了什么或者将要发生什么来做出决定,这只不过是分析我们的过去或未来,并以此为基础做出决定。大数据分析技术就是通过对各行各业收集的数据、存储的数据,根据其行业的特性采用合适的方法进行科学的分析来做出决策。
大数据分析被定义为一个清理、转换和建模数据的过程,以发现对业务决策有用的信息。数据分析的目的是从数据中提取有用的信息,并在数据分析的基础上做出决策。与传统数据相比大数据具有五个特征简称5V,即volume(数据量大).ve-locity(快速响应)、variety(种类多样)、veracity(不易识别)、value(高价值低密度)[1]。这些特征也是大数据分析的挑战,为了应对这些挑战,各大互联网企业相继推出了各种不同类型的大数据处理系统,在大数据行业发展的过程中,各种大数据分析技术也得以迅速发展。本文将简单介绍一下有代表性的大数据处理系统以及分析技术及其在行业中的应用。
1 大数据处理系统
在这个数据爆炸的时代,产生的数据量在不断地攀升,想要对海量的数据进行分析,首先要考虑的就是海量数据的存储问题,受限于数据的读写速度,传统的数据处理平台很难处理各种类型的大型数据集,为了满足人们的需要,分布式处理系统成了对一定量级的数据进行分析的必要条件。本节将介绍一下几种常见的分布式处理系统。
1.1 Hadoop
Hadoop是一个开源的并行批量数据处理框架与分布式文件系统,其核心架构是分布式文件系统Hadoop Distributed FileSystem(HDFS)和大规模并行计算框架MapReduce,HDFS用来存储数据,MapReduce负责在各个数据节点上进行计算。HDFS是一个分布式的,高扩展的,可移植的文件系统,通常被用来在多台机器上存储GB到TB级甚至PB级的海量数据,并通过在多台机器上冗余备份数据来保证其可靠性,它所具有的高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。HDFS的具体特点如下:(1)存储文件量级大:HDFS适合存储TB级别以上的文件,但是并不适合小文件的存储;(2)分块存储文件:HDFS通过将完整的文件分块存储到不同的计算机里面来提升文件读取的效率;(3)流式数据访问:HDFS支持流式数据访问,但是在和MapReduce结合时,采用的是批处理的方式;(4)布置成本低廉:HDFS可以布置在普通的计算机上,这种方式可以通过几十台廉价的PC机搭建一个大数据集群;(5)容错性:
高聪 熊杰 刘彩云 摘要:该文主要介绍了大数据分析的关键技术,以及大数据分析在行业中的应用,以期对有关人员提供参考。
关键词:大数据;分布式;机器学****可视化
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)05-0005-02
开放科学(资源服务)标识码(OSID):
近年来,大数据迅速发展已经引起了政府、学术界和企业的高度重视,成了全世界都关注的热点技术。大数据时代推动了各行各业的快速发展,在快速发展的过程中会形成海量的数据,想要获取数据的价值,就要对数据进行分析与计算。每当我们在日常生活中做出任何决定,都是通过思考上次发生了什么或者将要发生什么来做出决定,这只不过是分析我们的过去或未来,并以此为基础做出决定。大数据分析技术就是通过对各行各业收集的数据、存储的数据,根据其行业的特性采用合适的方法进行科学的分析来做出决策。
大数据分析被定义为一个清理、转换和建模数据的过程,以发现对业务决策有用的信息。数据分析的目的是从数据中提取有用的信息,并在数据分析的基础上做出决策。与传统数据相比大数据具有五个特征简称5V,即volume(数据量大).ve-locity(快速响应)、variety(种类多样)、veracity(不易识别)、value(高价值低密度)[1]。这些特征也是大数据分析的挑战,为了应对这些挑战,各大互联网企业相继推出了各种不同类型的大数据处理系统,在大数据行业发展的过程中,各种大数据分析技术也得以迅速发展。本文将简单介绍一下有代表性的大数据处理系统以及分析技术及其在行业中的应用。
1 大数据处理系统
在这个数据爆炸的时代,产生的数据量在不断地攀升,想要对海量的数据进行分析,首先要考虑的就是海量数据的存储问题,受限于数据的读写速度,传统的数据处理平台很难处理各种类型的大型数据集,为了满足人们的需要,分布式处理系统成了对一定量级的数据进行分析的必要条件。本节将介绍一下几种常见的分布式处理系统。
1.1 Hadoop
Hadoop是一个开源的并行批量数据处理框架与分布式文件系统,其核心架构是分布式文件系统Hadoop Distributed FileSystem(HDFS)和大规模并行计算框架MapReduce,HDFS用来存储数据,MapReduce负责在各个数据节点上进行计算。HDFS是一个分布式的,高扩展的,可移植的文件系统,通常被用来在多台机器上存储GB到TB级甚至PB级的海量数据,并通过在多台机器上冗余备份数据来保证其可靠性,它所具有的高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。HDFS的具体特点如下:(1)存储文件量级大:HDFS适合存储TB级别以上的文件,但是并不适合小文件的存储;(2)分块存储文件:HDFS通过将完整的文件分块存储到不同的计算机里面来提升文件读取的效率;(3)流式数据访问:HDFS支持流式数据访问,但是在和MapReduce结合时,采用的是批处理的方式;(4)布置成本低廉:HDFS可以布置在普通的计算机上,这种方式可以通过几十台廉价的PC机搭建一个大数据集群;(5)容错性: