AI 数据标注不是“脏活累活”

发布时间:2024-02-06 05:05:16   作者:92993环球直播网  

  与 AI “台前”的繁荣、高光形成鲜明对比的是,数据标注往往居于幕后,常被人忽视,也受到一些偏见,“血汗工厂”、“AI 富士康”、“新型民工”...随着 AI 深入落地对数据提出更高的要求,数据标注行业也从草莽生长阶段慢慢地过渡到更精细化的成长期。

  数据是机器学习的基础,机器学习建立在数据建模基础上,丰富的标签是机器学习成功建模的前提。

  监督学习是目前应用最广泛的机器学习算法,该方法强依赖标注数据,它通过学习大量标注的训练样本来构建预测模型。深度学习也需要大量数据的“投喂”,以深度学习为代表的机器学习框架都需要在大型的监督数据集上进行训练,百分点首席算法科学家苏海波曾表示,深度学习只有在拥有充足标注数据的场景下才能发挥它的威力,但在很多实际的应用中却只有少数的标注数据。

  AI 技术在全场景的落地以及大数据时代的到来产生了海量、指数级别的数据,数据获取也相对变得容易,然而,想要获得大量的已标注数据却并不是特别容易,往往需要付出很大的人力、物力、财力成本。在医疗 AI 等专业门槛较高的细致划分领域,缺乏标注数据就成了阻碍行业发展的“绊脚石”,腾讯优图实验室总监郑冶枫曾在接受 AI 前线采访时表示,医疗数据标注“难”一方面体现在顶尖的医疗数据标注人才缺乏,另一方面,临床、科研任务重,很多医疗专家没时间和精力做数据标注。

  在标注平台的选择上,会依据图像、语音数据、数据来源、客户的真实需求等综合决定。以语音合成数据标注为例,会标注其音字、韵律、音素时间点、词性等标签。

  人工智能的繁荣催生并壮大了数据标注行业,也创造了大量的就业岗位。有多个方面数据显示,目前中国的全职数据标注从业者有约 20 万人,兼职数据标注从业者有约一百万人,全国从事数据标注业务的公司约有几百家。

  在数据标注行业流行着一句话,“有多少智能,就有多少人工”。数据标注是AI发展中至关重要的一环,却常常容易被人忽视。

  相对而言,数据标注是AI领域“入门级”的工种,单从工作流程看,其技术上的含金量较低,人是这项工作中最大的影响“因素”,久而久之,“劳动密集型”成为外界给数据标注行业贴上的一个标签。

  上述务工者也由此成为了人工智能浪潮中的参与者,尽管待遇上远远少于其他人工智能从业者,但相较传统的体力工作,数据标注员的工作倒是更轻松,体面。不过,硬币的另一面是,这项工作流程简单,单调乏味,数据标注员日复一日重复“画框”的工作..... 关于数据标注行业是“脏活累活”、“数据民工”的论调也四散而起。

  AI 本身发展非常迅速,随着应用产品落地,对数据的要求慢慢的升高,对数据采标人员的素质也提出了高要求“。

  考虑到外包团队服务的品质难以把控等因素,标贝科技所承接的项目主要是依靠自有数据标注团队,其在天津、长春等城市设有数据团队,兼职人员则视项目大小临时扩容,遴选兼职人员时更考虑专业水平,要求具有语言、方言背景,或者有数据标注经验,无经验者要经过至少 6 个月培训。

  缪冠琼表示,数据标注行业的发展越来越趋向于专业化,早期多以中文数据标注为主,现在随着多语种、方言、个性化标注等发展标注需求的增加,并不是随便“拉来”很多人就可以做的,要专业的人才。此外,“血汗工厂”这种情形多出现在行业早期且多针对于只有数据标注一项业务的小团队,它们承接不了一些复杂的、定制化的项目。从工作量上看,结合客户的真实需求,以语音标注为例,标贝科技的数据标注员一个人工作一天的有效标注语音时长为 1 小时。

  缪冠琼认为,受数据安全和品质衡量准则不断的提高及有关数据政策出台影响,一些不满足行业标准及客户的真实需求的将会被市场淘汰。她补充,“行业目前正处于一个上升的、加快速度进行发展的阶段,整体在朝着个性化、专业化的方向发展,从早期较简单的、通用的数据过渡到更复杂的个性化的、场景化的数据,对于很多细致划分领域,需要大量真实的模型进行标注去迭代模型,而非简单的通用数据能够完全满足的”。

  为降低人力成本,提高效率,不少网络技术公司及第三方数据服务商在开发自己的标注工具。去年 10 月,Google 发布了用于完整图像标注的人机协作接口 Fluid Annotation,利用它标注图像中每个对象和背景区域的类标签与轮廓,可将标注数据集的创建速度提高三倍。数据标注众包平台也不断涌现,京东众智、百度众测、figure-eight、亚马逊的 Mechanical Turk 等。