Hadoop应用开发基础
上QQ阅读APP看书,第一时间看更新

任务1 了解大数据现状

【任务描述】

了解大数据的概念及特征,了解大数据带来的机遇、挑战及应对策略。

【关键步骤】

(1)了解大数据的概念及特征。

(2)了解大数据时代的机遇与挑战,以及如何应对。

1.1.1 大数据基本概念和特征

1. 什么是大数据

“大数据”作为当今最热门的IT行业词汇,在互联网时代变得越来越重要。究竟什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。对于“大数据”(Big Data),研究机构Gartner给出这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2. 大数据特征

(1)4V + 1O特征

大数据量(Volume)。采集、存储和计算的数据量大。大数据时代下,每时每刻都在产生着大量的数据,比如社交网络,交通等领域,每天都会产生很多的日志文件。大数据的起始计量单位至少是PB量级的。

类型繁多(Variety)。数据种类和来源多样化。数据的种类包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等。多样化的数据对大数据处理技术提出了更高的要求。

价值密度低(Value)。随着现阶段物联网的广泛应用,接入到互联网的信息感知设备无处不在,产生了海量的数据,但数据价值密度较低,如何结合业务逻辑并通过强大的机器学习算法来挖掘数据价值,是大数据时代最需要解决的问题。

速度快、时效高(Velocity)。数据增长速度快、处理速度快,时效性要求高。在使用搜索引擎时,用户希望几分钟前的新闻能够被查到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据的显著特征。

数据在线(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特点。现在提及大数据不仅仅是“大”,更重要的是数据变得在线了,这是互联网发展背景下赋予大数据的时代特征。

(2)固有特征

时效性。数据在某一时间段内具有对决策有价值的属性,也就是说,同一信息在不同的时间具有很大的性质上的差异,这个差异就是数据的时效性。信息的时效性决定了决策在哪些时间内有效。

不可变性。数据不会改变,也就是说,大数据的变化可看作是新产生的数据条目,而不是对现有条目的更新。

1.1.2 大数据带来的机遇和挑战

随着互联网和云计算的飞速发展,物联网和社交网络的日益普及,当前社会已进入大数据时代。大数据作为一个时代、一项技术、一个挑战、一种文化,对社会的发展带来了深刻的影响。党的十八届五中全会指出,要实施“国家大数据战略”。实施国家大数据战略,必须正确认识大数据,准确把握其带来的机遇,科学应对其带来的挑战,用大智慧实现大数据的价值。

1. 机遇

(1)大数据已经成为重要的战略资源。在当今社会,资源已经不仅仅指传统的矿产、石油等资源,大数据等信息资源也成为重要的战略资源。在各行各业,每分每秒都在产生数据,企业可以通过这些数据了解市场和用户需求,做出精准营销。大数据应用已经成为提高企业核心竞争力的关键因素,数据资产逐渐成为商业社会的核心竞争力。越来越多的企业开始重视大数据战略布局。

(2)大数据人才需求大幅增长。进入大数据时代以来,对大数据处理技术人才的需求呈现爆炸式的增长,企业提供了更多的岗位需求,为想要技术转型及转换行业的人员提供了一个不错的选择。

2. 挑战

大数据时代带来了机遇的同时,也带来了一定的挑战。

(1)对现有存储方式的挑战

传统的数据存储是将数据存储在数据库中,随着大数据时代的到来,传统的数据存储方式已经不能适应存储PB量级的数据。同时新产生的数据具有多样化的特点,一些非结构化的数据也不能采用传统的结构化数据系统存储。

(2)对现有企业的挑战

大数据环境下,企业提供业务服务的传统运营模式已经不具优势,必须逐步向数据服务转型。目前企业面临的最显著挑战就是数据的碎片化,在很多企业尤其是大型企业,数据常常散落在不同部门,导致企业内部的数据无法打通,大数据的价值难以挖掘。

(3)对技术的挑战

由于大数据具有时效性强的特点,数据的价值会随着时间的流逝而降低,这就要求对数据进行快速的处理,电商以及新闻资讯的推荐系统就是很好的案例。假如推荐的内容延迟性太高,对于订单的转化效果就会大大降低,实时推荐就是大数据技术对传统技术的挑战。

3. 应对策略

如何应对大数据时代下的挑战呢?

(1)培养大数据专业人才。大数据技术有着很高的门槛,大数据建设的每一个环节都需要专业的人员完成,因此必须培养更多的掌握大数据技术的专业人才,这就需要高校和企业共同努力培养和挖掘。

(2)加快新技术的研发和创新。大力研发大数据新技术并重视其应用。