企业如何靠大数据发展?
谢邀 最近一直在外边出差,正好有空来回答一下这个问题~ 目前国内企业的数据建设大体上分两种,一种是以业务为导向的数据仓库建设,一种是以技术为导向的数据挖掘、数据分析。 以业务为导向的数据仓库的建设主要体现为对业务流程的优化和监管,其目标是提高决策的精准度和效率;以技术为导向的数据挖掘、数据分析则更多地体现在对海量数据的快速处理及模型构建的能力。这两种不同导向的数据对于数据的采集方式、组织、分析工具应用都各有侧重。
目前很多企业都是在原有的数据库的基础上做一下简单的数据抽取就可以进行简单的数据分析,这种方法虽然简单,但是在数据分析的过程中存在诸多问题。首先,基于传统数据库的数据分析难以满足实时海量数据处理的要求;其次,当数据量增大到一定程度的时候,传统的关系型数据库本身所具有的性能瓶颈就使得其难以胜任复杂分析的任务;最后,传统关系型数据库是针对结构化数据的设计,然而现实世界纷繁复杂,存在大量半结构化的甚至是无结构化的数据,这些数据的分析也是传统关系型数据库无法胜任的。
为了适应新的时代要求,企业和相关从业人员需要重新思考并搭建适于大数据环境下的新的数据组织和计算框架。
1.数据采集 大数据通常涉及非结构化和半结构化数据,对于这些数据的组织传统的方案是采用数仓(Data Warehouse)的方式通过ETL将其统一加载到数仓中进行集中化管理。这是一种“过滤”式的信息提炼方法。大数据环境下,由于数据来源广泛且形式多样,采取这样的方法显然已经不行。
现在比较合适的方法是由业务部门提出自己的数据需求,IT部根据业务的需求去采集相应类型的数据并进行标准化处理。这种需求引导式的数据采集方式更适用于大数据的环境。
2.数据挖掘与分析 利用大数据的技术实现对海量数据进行快速、个性化和深度的分析是实现业务目标的关键。其中,数据挖掘是一种概念或范畴大于具体技术手段的知识发现过程。它是指从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中,挖掘出隐含在其中有价值的信息的过程。经过数据挖掘后得到的知识主要有规则、规律、特征等,而这些知识的表达都是数据的形式,因此最终的数据挖掘结果仍然表现为一个大数据集。