怎么建立企业云大数据?

别韦杰别韦杰最佳答案最佳答案

谢邀 这个问题比较大,我尽量简短回答。 1.数据采集需要明确一个概念,你这里指的是业务系统产生的业务数据(B端)还是说互联网产生的用户行为数据(U端),前者较为容易,后者需要做大量的准备工作; 2.数据的清洗与整理; 3.数据的存储和数据备份,这个可以放到一起讲,大数据的存储不同于传统的数据库存放,他涉及到大规模并行的计算,所以你的数据结构的设计就很重要了,考虑一下如何切分表,如何对数据更新等进行优化; 4.数据的运用,数据分析的工具很多,Excel VBA、SQL Server Integration Services(SSIS)、SAP BW/BI等都是分析数据的方法,根据企业的需求,可以选择性去学习,当然如果你学完了这些东西,基本也就到了一定阶段了,此时你可以挑出适合你公司用的工具来进一步实践,数据分析其实是个很大的学问,在这里一时半会也说不完,如果你有具体的场景和问题,也可以追问我。

以上,希望对你有帮助!

岳鹤丽岳鹤丽优质答主

大数据对于企业来说,是一个全新的挑战。企业大数据的架构方法还未成型,需要不断的探索和创新。当然,企业大数据的构建不能离开云计算平台,只有将大数据与云计算相结合,才能为企业创造更为实用的平台。

首先,要建立一个企业云大数据平台,需要利用Hadoop的分布式文件系统HDFS。Hadoop是一个能够对大量数据进行分布式存储和处理的软件框架,它支持的应用在任何附加Hadoop兼容存储(HCFS)系统的服务器上运行。使用Hadoop的用户能够了解Hadoop的系统特点:Hadoop的名称节点系统采用单点控制的思想,用来跟踪数据块的位置。当一个文件写入HDFS中时,名称节点会将文件分解成固定长度的数据块,每个数据块都会在名称节点主服务器中进行同步备份,一般每个数据块会备份3份。Hadoop采用基于消息的通信机制,Hadoop的存储管理器和工作节点间的通信采用TCP(Transmission Control Protocol,传输控制协议),而名称节点与存储管理器或工作节点间的通信会采用远程存储过程RPC(Remote Procedure Call )。这样能够使用户在云环境下使用多租户模型访问Hadoop文件系统。

然后,还要在Hadoop基础上建立Hbase,以便进行非关系型数据分析处理,建立数据模型。与关系型数据库不同的是,Hbase不会采用索引而是采用行键的字典序进行存储,其表是稀疏、多维排序的映射表,关键字为行键,其他为列。它与Google BigTable类似,BigTable将表的行按行键字典序分成若干个行区间,每个行区间成为一个单元,每个单元会由一个Master服务器进行分配和管理。

其次,为了能支持大型企业级应用分析处理,需要采用Hive数据仓库。Hive构建在Hadoop文件系统之上,存储格式为Hive。QL,它允许用户使用类似于SQL的语言查询日志,而不需要深入的掌握Hadoop编程。同时,它采用了MapReduce对查询语句进行处理,使查询语句能支持大规模数据,大大提高了执行效率。Hive的查询模型不是实时查询,而是提供延时查询。Hive还具有扩展性,可以扩展到数千个节点上,这样大大提高了其可用性和健壮形。

再者,为了提高大数据查询分析的速度和交互性,采用Pig和Mahout。Pig是一种适用于Hadoop的编程语言,它提供了在大规模数据集上查询处理的灵活性,允许用户定义函数处理大规模数据。Pig拉丁语程序会自动转化成一系列的MapReduce作业,这些作业在Hadoop集群上运行。由于Pig拉丁语是一种过程型语言,它提供了存储或者优化查询语句以增加查询语句执行速度的灵活性,Pig还支持在用户自定义函数、数据和查询结果上使用SQL语句。

Mahout是一个构建机器学习和各种大数据算法的工具包,目前包括了推荐系统、聚类算法、分类算法等。在应用时,用户不需要深入的掌握底层算法的数学模型,只需要应用Mahout即可。目前使用Mahout进行搜索,搜索结果的相关度大大增加。Mahout还采用分布式存储模型,采用HDFS模型作为分布式文件存储系统。Mahout还提供了可扩展的云计算实现模型,提高了算法模型的查询速度和稳定性。同时,Mahout与Hbase和Hive等配合,形成了更加稳定健壮的集群系统。

我来回答
请发表正能量的言论,文明评论!