“抬头是山,低(dī)头是煤(méi)。”曾在山西传统煤矿工作8年, 整天盯在电脑屏幕前(qián)监测(cè)矿井(jǐng)瓦斯浓度(dù)的郭梅从来没(méi)有想过,有一天自己的工作会和人工智(zhì)能有了(le)联系。
两年前,因为(wéi)孩子来省(shěng)会城市太原(yuán)上学,郭梅在附近求职,做起了数据标(biāo)注。同样是(shì)盯在电脑屏幕前,现在(zài)郭梅每天的工作是给图片、文(wén)本(běn)或者声音进行标(biāo)注,再把它们交给机器训练和学习。从(cóng)一开始每(měi)天只能标注两三百(bǎi)张,到现在的日均(jun1)完成1300多(duō)张,郭梅按件计酬的收入逐渐提升,已(yǐ)高于当地平(píng)均收入水平。
人工智能行业里有句话:有多少(shǎo)智能,背后就有多少人工(gōng)。像郭梅一样,AI数据标注师(shī)成为了随着人工智能发(fā)展而出现的新兴就业岗位。2020年2月(yuè),“人工(gōng)智能训(xùn)练师”正式成为新职业并纳(nà)入国家职业分类(lèi)目录。
他们被称为(wéi)人工智能背后的人(rén)。数据采集和(hé)标注是他们的主要工(gōng)作,目的就是要(yào)教会AI认识数(shù)据,转化成AI能(néng)消化和吸收的“语言”。有了足够(gòu)多(duō)、足够好的(de)数据,AI才能够学会像人类一样去感知、思考和决(jué)策(cè),更(gèng)好地为(wéi)人类服务(wù)。
这项工作(zuò)看起来简单枯燥,但意义非常。“就像一台车没有汽油走不(bú)了,数据就是(shì)人工智能发展的燃料。有了(le)我们的数据,机器(算(suàn)法)不断迭代,就能推(tuī)动人工智能(néng)往(wǎng)更好的方向发(fā)展。” 从事数据标注的山(shān)西麟诺公司(sī)总经理李应维对第(dì)一财经表示(shì)。
“从没想过做人(rén)工(gōng)智(zhì)能”
20出头的(de)李宇龙(lóng)从未亲(qīn)眼见过(guò)自动驾(jià)驶汽车,但他的工作(zuò)却和自动(dòng)驾驶的AI算法息息相关。
他(tā)曾经在生产电子(zǐ)类产(chǎn)品的工厂工作,转做AI数据标(biāo)注后,老板交给他的第一个项目(mù)就是“车道线打点”。
简单来说,就是给无人驾驶进行车道线标注。当无人车行驶到一段路(lù)时,会自动连续拍(pāi)摄图(tú)片(piàn),李宇(yǔ)龙要做的,就是对图片上车辆所(suǒ)行驶的(de)车道旁边两侧的线进行标注,识别虚线还是(shì)实线,匹(pǐ)配所对(duì)应的属性(xìng),从而告(gào)诉人工(gōng)智(zhì)能遇到虚线时车辆可以进行(háng)变道,实线不可以进行(háng)变(biàn)道(dào)。
当时的李宇龙,还不知道数据标注师到底是什么,更对人工智能(néng)没有具体概(gài)念,老板只交给他一套规则,让他按照(zhào)规则(zé)在电脑(nǎo)上认车道线。好学(xué)的他在短时间内(nèi)就掌握了规则和难点,总(zǒng)结出了标注车(chē)道(dào)的规律。
他把自己的(de)工作比作“幼教(jiāo)“,当他(tā)拿出一个红苹(píng)果给(gěi)机器并教会它识别,再拿一个绿苹(píng)果给(gěi)它时,因为颜(yán)色差异,机器就(jiù)无法认出了。李宇龙的工作(zuò)就(jiù)是不断地帮助机器识别(bié)不同的颜色、大小,甚至是被咬(yǎo)了一口的苹果或是坏苹果,直到随便拿出一个苹果,它都(dōu)能(néng)认出来。
李宇龙告诉第一财经记者,数据标注(zhù)的(de)工作是“按(àn)件计酬”,他的(de)日均收入在300元左右。数据显示,2019年,太原市的城镇(zhèn)居民全年人均(jun1)可支配收入36362元。他说,自己的工资水(shuǐ)平在(zài)整(zhěng)个基(jī)地标注师日均收入中处于中等水(shuǐ)平,“据(jù)我(wǒ)了(le)解,有人(rén)日均收入甚(shèn)至能破千(qiān)。”
对(duì)于(yú)自(zì)己的工作(zuò),李宇龙说,刚开始(shǐ)接(jiē)触时,只把它(tā)看做一个(gè)重(chóng)复性(xìng)的工作,并(bìng)没有想太多。直到后来(lái)接触项目多(duō)了,涉及(jí)的领域包括教育(yù)、安防、金融、交通医疗和电商等,每天都在挑(tiāo)战学习能力,也会想要更深入(rù)了(le)解(jiě)自己标注的内容可以应用到(dào)的行业。 虽然(rán)还没(méi)有坐过无(wú)人车,但他说(shuō),现在看到无人驾驶的时候,会(huì)想到这(zhè)里(lǐ)面也(yě)包含了自己的(de)标(biāo)注成果。
像李(lǐ)宇龙(lóng)、郭梅的工作一样,第一财(cái)经记者(zhě)看到(dào),在每一间数据标注(zhù)的办公室里,都是类似的工作场景:一排排电脑屏(píng)幕(mù)前,年轻的数据标注(zhù)师根据各自分(fèn)配的任(rèn)务,对文本、图片、语音和视(shì)频做标记(jì)、标重点(diǎn)、打标签、框(kuàng)对象、做注释等方式对数据集作出标注(zhù),他(tā)们(men)可(kě)能(néng)在为(wéi)无人车标注车(chē)道线、红绿灯,也可能(néng)是在为肺部(bù)影像标注病毒数据(jù)。
以人脸为(wéi)例,目前能实现对约150个特征点(diǎn)的标注。疫情期(qī)间,采集大量的戴口罩的人脸(liǎn)照片后,数据标注师对人脸的眉(méi)毛、眼镜、颧骨等(děng)人(rén)脸(liǎn)关键点进行(háng)精(jīng)准标注,标注(zhù)特(tè)征点越多(duō),AI就越(yuè)能精确识(shí)别出戴口(kǒu)罩场景下的人脸。最终实(shí)现(xiàn)即使不摘口罩,也能精(jīng)确测量体温,或是(shì)通过人脸闸机。
是不是(shì)“AI富士康”?
数据(jù)标注产业促进(jìn)了(le)不少城镇和农村就业,在河南(nán)、河北、贵州等地,还(hái)出(chū)现了一些(xiē)特色的“数据标注村(cūn)”。
据IDC统计,全球每年生产的数据量将从2016年的(de)16.1ZB猛(měng)增至2025年的163ZB,其(qí)中80%-90%是非结构化数据,这些数据经(jīng)过清洗与标注才能被唤醒价值。在我国(guó),每年需要进行标注的语(yǔ)音数据超(chāo)过200万(wàn)小(xiǎo)时(shí),图片则有数亿(yì)张,这就产生了源源不断(duàn)的清洗与标(biāo)注需求(qiú)。 李(lǐ)应(yīng)维对第一财经记者说, 他预计明年企业的用工将翻一倍,从160多人扩展到300人左右。
李应维公(gōng)司所在的百度(山西)人工(gōng)智(zhì)能(néng)基础数据产业基(jī)地,已经成为中国(guó)人员和产(chǎn)值规模第一的单体数据标注基地。AI数据标注师从业(yè)人员(yuán)超过2000人,实现营业收入超(chāo)亿元,企业入驻35家。该基地(dì)计(jì)划在未来5年培养(yǎng)5万名AI数据标注师(shī),并(bìng)引(yǐn)入(rù)更(gèng)多AI合作(zuò)伙伴(bàn)。
百(bǎi)度(山(shān)西)人工智能基础数据产业基地负责人尉赤告诉记者,人工智能是个(gè)高速发(fā)展的行(háng)业,数据服务又与人(rén)工智能息(xī)息(xī)相(xiàng)关。“我(wǒ)们的(de)线上(shàng)众包注册用户有将近2000万人(rén),目(mù)前每个月(yuè)在线上为(wéi)我们提供服务的人将近5万人。如果按照行业(yè)增长(zhǎng)速度来看(kàn),培(péi)养(yǎng)5万人(rén)还不一定(dìng)够。”
不过,数据标注师看上去是(shì)人工智能领域一个“入门”工种:技术(shù)门槛低,招工人群范(fàn)围广泛。他们(men)通过每天数千次的重复动作,和最前沿科技的人工智(zhì)能(néng)产生联系。也因此(cǐ),外界给这个行业贴上了“AI富士康”的标签。
数据标注带来了技术红利,但如果人工智能(néng)发(fā)展到一定程(chéng)度,甚至有可(kě)能够取代数据(jù)标注师的工作。
艾瑞咨询在一份人工智(zhì)能相关报告指出,随(suí)着算法需求越来越旺(wàng)盛,依赖人工标注不能满足市场需求,因此增强数据处理(lǐ)平台持续学习能力,由机器持续学习(xí)人(rén)工标注,提升预(yù)标注和自(zì)动标注能力对人工的替代率将成趋势。此外(wài),随着 AI对数据的要求越来越高,数据标注行业也正逐步进入精细化阶段。
对(duì)于数(shù)据标(biāo)注这一职业的未来,李应(yīng)维对记者(zhě)举例,自(zì)己(jǐ)公司一名员工入职后,因为表现(xiàn)优异(yì),不久(jiǔ)已被百度公司聘用。而且,数(shù)据标注(zhù)师也在为人工智能(néng)培养和发现人才。
尉赤则认为,目前(qián)大家更多地聚焦在数(shù)据加工这件事,但如果再往前(qián)看,更多的是数据的优化、还有一(yī)些(xiē)相关的解决方案。数据标注(zhù)是一个很好的入门,进来之(zhī)后有机会更深(shēn)度(dù)参与(yǔ)到产业链协作当中,例(lì)如后续当数据标注越来(lái)越机器化,人工(gōng)和自(zì)动化之间要有机的协同,这也对员工提出了更高的要求。
此外,当数据标(biāo)注越来越机器化,人工(gōng)智能训练师是一个转换工种的(de)机(jī)会,标注员们现在标注数据(jù),未来可能向数据治理、数据(jù)解决(jué)方(fāng)案(àn)设计和项目管理(lǐ)等方向发展(zhǎn)。
例如,现在李宇(yǔ)龙的工作重心(xīn)已经转向培训,同时接(jiē)触(chù)到更多的项目管理,根据每个项(xiàng)目对应(yīng)的特点判(pàn)断与之匹(pǐ)配的能力(lì)。 在他(tā)看(kàn)来,自己比很(hěn)多传统(tǒng)行业的人们更早地接触到未来的发展方向和(hé)未来(lái)的生活、工作场景,“看到了未来的发展需求(qiú),也(yě)就(jiù)比别人更早找到更多发展机会。”