四个特征带你了解大数据的定义
大(dà)数(shù)据是当前较为火爆的一(yī)个词汇,究竟什(shí)么(me)是大数据、大(dà)数据的概念是怎样的?大数据有哪些特质,大数据有哪些技术方面(miàn)的要求,大数据对当前社(shè)会产生(shēng)了哪些重(chóng)要的影响?
国内知名大数据专家、中科院计算所博(bó)士(shì)、职(zhí)品(pǐn)汇创始人龚才春博士对此做了详尽的分析,他指出:“从常规定义来讲,大数据就是大小超出(chū)常规数据库工具(jù)获(huò)取、存储、管理和分析能力的数据库(kù),并且(qiě)也强(qiáng)调(diào),不是说(shuō)一定要超过(guò)特定TB的数(shù)据集才是大数据。这个(gè)定义并(bìng)没有诠释什么(me)是(shì)常规的数据库(kù)工具(jù),也没有诠释大(dà)数据与数据量的关系,是一个比较原始(shǐ)的大数据(jù)定义。”
而国际数据公(gōng)司(International Data CorporaTIon,简称IDC)则从四个特征(zhēng)定(dìng)义(yì)大(dà)数据:数据规(guī)模(mó)庞大(Volume)、数据更(gèng)新频(pín)繁(Velocity)、数(shù)据类型多样(yàng)(Variety)和数据价值巨大(Value)。
龚博士认为,在(zài)上述四大定义的(de)基础上,一般偏向于再加上数据处理(lǐ)复杂(Complexity),构成(chéng)相对完整的大数据的定义,这(zhè)就是大家耳熟能详的4V+1C。
1.数据(jù)规模庞大(dà)(Volume)
当数据规模很小时,属于传统的“小数据”时代的问题,已(yǐ)有非常成熟的数据存储、计算、分析、呈现方案,数据模(mó)型也有(yǒu)非常多的研究。大数据必须(xū)是规模异常(cháng)庞(páng)大的数据,只有当规模庞大时候(hòu),才有新的研(yán)究价值。
前面(miàn)已经提到,大数据的大,不是说一定要超过特定TB的(de)数据(jù)集才是大(dà)数据。由于计算能力(lì)、存储能(néng)力(lì)、分析(xī)能力的有限,现在看(kàn)起来(lái)很简单的问题,在历史上可能(néng)都(dōu)是大数据的问题。辽沈战役中,司令(lìng)员林彪对战报(bào)要求很(hěn)细,包(bāo)括每支部(bù)队歼敌(dí)多(duō)少、俘虏(lǔ)多少;缴获的(de)火炮、车辆多少;枪支、物资多少(shǎo)……一天深夜,值班参谋正(zhèng)读着一份某(mǒu)师(shī)上报的战斗缴(jiǎo)获报告(gào),那是(shì)该师的下属部队偶然碰上的一个不大的遭遇战,他们歼灭(miè)了一部分敌(dí)人,缴获(huò)了一(yī)些战利品,敌人余部逃走。林彪听了汇(huì)报(bào)后,立即(jí)口授命令,全力追击从(cóng)胡家窝(wō)棚逃走的那(nà)股敌人,一定(dìng)要把它彻底打掉。果(guǒ)然(rán)活捉了国民(mín)党新(xīn)编第六(liù)军军(jun1)长廖(liào)耀湘。这些数(shù)据在今(jīn)天看来,规模非(fēi)常非常小(xiǎo)。但在当时这已(yǐ)经是“大(dà)数据”了,林(lín)彪懂得分析(xī)数据,从缴获(huò)中手枪和冲锋枪的比例准确判断(duàn)出敌方的指挥部(bù)在(zài)胡家窝(wō)棚,这也算是(shì)大数据分析的(de)魅力。
2.数(shù)据(jù)更新频(pín)繁(Velocity)
我们知道摩尔定律揭示(shì)了处理器分析能力与时间的关系,也就是(shì)说,每隔18个月左右(yòu)处理器的分析(xī)能力翻一番。对于一个静止(zhǐ)的数据集,哪怕(pà)今天我们的处理器无法处理,存储器不(bú)好存储。随着技术的进步,未来可能变(biàn)成非(fēi)常容(róng)易处(chù)理,就像(xiàng)我们现(xiàn)在(zài)看着当年林彪分析(xī)战(zhàn)报一样,这些战报(bào)数据的处理今天已经变得(dé)非常非常容易了(le),在今天已(yǐ)经不算“大数(shù)据”了。
大(dà)数(shù)据技术,要(yào)求(qiú)我们(men)更多地想(xiǎng)出“巧妙”的分析办(bàn)法(fǎ),提成(chéng)更“优秀”的处理模(mó)型,而不能只依(yī)赖存储(chǔ)能(néng)力、处理(lǐ)水平、网络(luò)带宽等硬件设备的性能改进。所以大数据(jù)技术,对分(fèn)析对象(xiàng)要(yào)求是频繁更(gèng)新的数据集。
3.数据类型多样(Variety)
传统的关(guān)系型数据库,无论从理(lǐ)论上(shàng),还是(shì)在(zài)应用(yòng)上都非(fēi)常成(chéng)熟了。关系型数据库一(yī)般保(bǎo)存格式固定、类型(xíng)单(dān)一(yī)的数据,几十年的数据库理论、数据挖掘、数据(jù)仓库的研究,已经有相当多的研究成(chéng)果。
大数据要求我(wǒ)们的分(fèn)析对象是(shì)异构、异(yì)质的(de)数据(jù)集,可(kě)能包括文本、音频、视频等多种形式,也(yě)可能是结构化、半结构化的或无结构的。
4.数据价值巨大(Value)
如果数据没有(yǒu)价值,我们就没有分析的必要。因此,大数据要求我们处(chù)理的数(shù)据集是有巨大商业价值或社会价(jià)值的。阿里巴巴愿意花巨大(dà)代价提高推(tuī)荐系统的准确性,就是在(zài)于其(qí)推荐系统的(de)准确率的提高(gāo),能(néng)大大(dà)提高平台的(de)交易量,从而(ér)具有非常巨大的商业价(jià)值。我们在全国部(bù)署“天眼(yǎn)”系统,提高大数据技术在(zài)天眼系统的分(fèn)量,就是因(yīn)为天眼系统分析能力的一小步提升,都能在降低犯罪率、打击犯罪、保障(zhàng)人民群众安全、信用取证等方面都有巨(jù)大的社会价值。
在(zài)Value这个层面,我们(men)除了要求价值巨大外,我们一般会增加(jiā)一点要求(qiú),那就是(shì)价值(zhí)密度极低。我们常(cháng)说(shuō),大数据是(shì)一个“金(jīn)矿”,金矿就包含两个方面的含(hán)义:一方面,黄金很值钱,金矿很有价值;另一方面,金矿不(bú)是(shì)金(jīn)库,几万顿的矿砂(shā),也许只有(yǒu)几十公斤黄金,也就是说金(jīn)库的价值密度是非常(cháng)低的。大数据的(de)价值方面的含(hán)义,也要求价值密度非(fēi)常低。如果数据集中每一条数(shù)据(jù)都是非常有价值的,那也就无(wú)所谓“挖(wā)掘”了(le),没有挖掘,大数据的意义也(yě)荡然无存了(le)。
5.数据处理复杂(Complexity)
IDC公(gōng)司的大数(shù)据只有(yǒu)4V的特征,我们一般偏向于增加另一个维(wéi)度的要求:数据处理复杂。例(lì)如(rú),统(tǒng)计中国人口的平(píng)均年龄,这(zhè)个数据量(liàng)是非常庞大的,有(yǒu)接近14亿条(tiáo)记录;这个数(shù)据也是动态更新(xīn)的,每年都有几千万人出生,几千万死亡;这个数据(jù)集也可(kě)以是多样的,湖南的数据(jù)可以放在mysql中,湖北的(de)数(shù)据可以在oracle中,北京的数据(jù)可能在Txt文(wén)件中,上海的数据可能(néng)在Word文(wén)档中;这个数据集和这个分析(xī)都是(shì)有价(jià)值(zhí)的,但是平均到每一条数据,价值又非常有限。也就是说,这个(gè)问(wèn)题是符合(hé)4V特征的,但是这个(gè)问题怎么看(kàn)都“太简(jiǎn)单(dān)”了,年龄(líng)加(jiā)起来求平均即可,不能(néng)成为(wéi)真正意义上的(de)“大数据问题”。
大数(shù)据要求数(shù)据处理复杂(zá),不能脑袋一拍就可以想出办法,不能套用现有(yǒu)的、成(chéng)熟的数据库工(gōng)具简单得到答案。
【其他定义】
除了上述主流的(de)定义(yì),还有人使用3S或者3I描述大数据的(de)特征(zhēng)。
3S指(zhǐ)的是:大小(xiǎo)(Size)、速度(Speed)和结(jié)构(gòu)(Structure)。
3I指的是:
(1)、定义不明确的(de)(Ill-de.ned):多(duō)个主流(liú)的大数据(jù)定义都强调了数据规模需要超过(guò)传统(tǒng)方法处理数(shù)据(jù)的规模,而随着技术的进步,数据分析的(de)效(xiào)率(lǜ)不断提高,符合大数据定(dìng)义的数据规模(mó)也会(huì)相应不断(duàn)变大,因(yīn)而并(bìng)没有一(yī)个(gè)明(míng)确的(de)标准。
(2)、令人生畏的(InTImidaTIng):从(cóng)管理大数据到使(shǐ)用正确的工(gōng)具获取它的价值,利用(yòng)大数据(jù)的过(guò)程中充(chōng)满了各(gè)种(zhǒng)挑(tiāo)战(zhàn)。
(3)、即时的(Immediate):数据的(de)价值会(huì)随着时间快速衰减,因此为(wéi)了保证大数据的可控性(xìng),需要缩短数据搜集(jí)到获得数据(jù)洞察之间的时间,使得大数(shù)据成为真正的即时大数据,这意味(wèi)着能尽快(kuài)地分析数据对获得(dé)竞争优势至关重要。
大数(shù)据就是互联网发展到现今阶段的一种表(biǎo)象(xiàng)或特(tè)征而已(yǐ),没有必要神话它或对(duì)它保持敬畏(wèi)之心,在(zài)以云计算为代表的技术(shù)创(chuàng)新大幕(mù)的衬托下(xià),这些原本很难收集和使(shǐ)用的(de)数(shù)据(jù)开始(shǐ)容易被利用起来了,通(tōng)过各行各业的不断创(chuàng)新,大数据(jù)会逐(zhú)步为(wéi)人类创造更多(duō)的价值。