编者按:本文来源投中网,作者步日欣,悉地网经授权转载。
在人工智能(AI)高大上的科技光环背后,存在一个被大部分人忽略的环节,这是一个劳动密集型的链条,这个链条上的工人,拼命在用自己重复性、机械性劳动,来训练一个强大的人工智能系统,进而革掉自己工作的命……
训练别人,革自己的命。这不仅是一个科技问题,更像是一个哲学问题。
人工智能的核心是机器学习,是教会机器如何像人类一样认知世界,如何像人类一样思考。这只是一句话的简单概括,在实际中,远比这一句话要复杂的多。教会机器认知世界,在AI领域,被称为“训练”,而训练需要的是海量的数据。
我们常说AI训练用的海量数据,仍然需要人工采集和整理,属于劳动密集型产业。那些每天坐在电脑旁边,不断整理采集来的数据,准备培养机器认知世界所需要的素材的人,被称为“数据标注员”,跟富士康流水线上的工人并没有什么本质的不同。
1、教会机器像人一样思考不容易
教会机器像像人一样思考,并不是一件容易的事情。养育一个有血有肉、智力健全的娃娃,尚且能逼疯一个老母亲,更何况教会以沙子为原材料的机器去思考?
笔者上一篇文章里曾形象描述了人工智能的原理,类比一下三岁小孩认知世界的过程。三岁小孩是怎么知道如何分辨猫和狗的?是因为来自大人的不断灌输,这是一只猫,这是一只花猫,那是一条狗,那是一条哈士奇狗……训练出孩子的认知,猫的基本特征,狗的基本特征,再看到一只动物,符合猫的特征的,就是猫,符合狗的特征的,就是狗。这样一个“养娃”的过程,对应到人工智能的三大核心要素,在大人的不断灌输(算力)下,给孩子介绍猫和狗(数据),孩子在脑子里形成了判别猫和狗的基本认知(算法)。
因此,为了让机器跟三岁孩子一样去认知,就需要准备足够的海量数据来灌输给机器,来教会机器认知。而这些用来训练机器认知模型的数据,必须是基于人类认知加工过的“熟数据”,而且必须是正确的“熟数据”。
否则,就如同一开始教育孩子的方法和基础认知都错了,ABCD都教错了,就别指望孩子英语能学好。
而且,机器面对的世界不仅仅是猫和狗,而是整个物理世界,包括图像、视频、声音、各种感知和情感等等,这么一个复杂的世界,需要更加复杂且海量的数据来支撑机器认知世界。
所以目前的人工智能,都是细分领域的人工智能,专门针对图像的、专门针对文字的、专门针对语音的……离着构建一个完整的人,还相差甚远。
而产生这些训练机器认知的数据,不但要符合人类认知体系,还要有规则有标签,更要数量庞大,是一个劳动密集型行业,因此,说成高科技行业的富士康不为过。
2、机器学习的原理
机器学习分为监督学习和无监督学习。
所谓监督学习,就是通过已有的训练数据去训练得到一个最优模型。在监督学习中,训练数据必须是有输入和输出的数据,也就是有一定规则的数据。根据对训练数据的分析,机器可以训练出一个模型,这个模型内嵌认知世界的规则。
所谓无监督学习,是让机器自主分析杂乱的数据,从而得到这些数据中的一些规则/规律,类似于科研探索,在没有发现科研成果之前,对于研究的对象和结果是未知的。最典型的无监督学习是聚类,也就是分类,让机器自己将对象进行分类聚合。
目前流行的AI,主要还是依赖监督学习,所以才有了海量数据处理的“富士康工厂”。
举个例子,如果想要一台计算机能够准确识别猫,那就必须给计算机输入大量的不同的猫的照片,每幅照片都需要做上大量标注,图片里的哪个区域是猫、什么品种、什么颜色、尾巴、耳朵……只有有了这些标注,训练数据才能成为“熟数据”,才能够让计算机在这些数据的基础上,形成自己认知猫的模型。
人工智能可不仅仅是认知猫狗这么简单,而是认知整个世界……
3、机器需要学习什么
要正确认知这个世界,机器需要学习的东西太多了。
认识这个世界已经不容易了,更何况还要理解这个世界。他的表情是友善还是敌意?他说的话是玩笑还是认真?他写的歪歪扭扭的手写字到底啥意思……
每个细分领域,机器都在深度学习。目前比较流行的AI领域有图像、视频、音频、文本……应用领域主要集中在安防、无人驾驶、电商零售、智能机器人等多个垂直领域。所有这些领域,都需要海量的训练数据,需要海量的数据标注。
比如上周BUPT AI Club会议上,大家热议的首都机场刚安装的表情识别系统,根据每个人表情的不同,对于紧张表情的乘客加强安检措施。这就需要系统不但能实现人脸识别,还能识别人的表情。
比如用在自动驾驶上的场景识别,需要准确识别路况、路标等信息,并能够准确分辨模糊路标,防止伪装路标的欺骗等等。
比如AI扫描仪,如何识别不同人、不同笔迹的手写字体,特别是医生开的处方……
4、如何教会机器学习
有了大量的数据,并不是把这些杂乱的数据一股脑儿全部交给机器,他们就能自动长大成人。这些数据也需要标记和注释,被标记、标注、着色或突出显示,以标记出差异、相似性或类型。
数据标注种类繁多,如分类、拉框、区域、描点等等
分类标注,俗称打标签,将数据的所有属性都打上标签,比如人的照片,可以有性别、年龄、肤色、头发等等各种属性标签;文字可以有主语、谓语、宾语,名词动词、语气、感情等各种属性标签。
拉框标注,主要应用于图像和视频领域,就是用框选的方式把目标对象标注出来,比如把人的脸、各种不同物品标注出来,可用于人脸识别和场景识别。
区域标注,准确标注出区域的范围,比如自动驾驶中行车道、路面的范围等等。
描点标注,要求更为精确了,在不同图像上进行大量的描点,有有助于机器进行对比识别,主要用于识别,人脸识别、动作识别等等。
比如人脸识别,通过分析对比这68个点的特征,可以精准实现人脸识别。当然了,描的点越多,训练得到的模型准确率越高。
5、数据标注行业状况
以上说了机器学习的本质,是需要给机器输入海量的、不同场景的带标注数据,数据量越大、标注越准确,得到的AI模型准确率也就越高。
衡水中学的题海战术,用在了人工智能上而已。
这些海量的数据标注,都是流水线上工人手工完成的,一张一张图片,一帧一帧声音,一个一个单词地标注……顶着高科技光环的人工智能数据标注,其实与富士康流水线并无本质的差别。
在众包网站上,一件件任务被发布,明码标价。
在流水线上,一个个员工盯着屏幕,或者在一张张图片上不断地标注关键点,或者在交通图上框选路灯、指示牌,或者在无人便利店标注不同的商品并加上备注,或者……
而随着人工智能行业的兴起,对训练数据的需求也指数级增长,对于数据标注员的数量要求也随之增长,在流水线上,为人工智能的成长和强大,源源不断地提供弹药,也许他们是最后一批被革命的手工业者。
本文(含图片)为合作媒体授权悉地网转载,不代表悉地网立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。咨询微信客服
0516-6662 4183
立即获取方案或咨询top