数据采集数据标注是做什么的:是通过线上线下的方式,完成多场景下的数据收集,包括文本采集、语音采集、图像视频采集及问卷调研等,当然不同类型的数据采集需要用到不同的采集工具,比如大部分照片和视频采集使用手机即可,语音采集数加加有专属的采集APP。一定要按照要求的采集工具进行数据采集,否则数据将是无效数据。数据标注:是对文本、语音、图像、视频等众多类别数据,进行多类型的筛选、标点、分类、提取服务,如人脸拉框、车辆标注、语音转写、视频打签等。我用过数加加众包平台,上面的任务都非常轻松且不乏趣味。周末逛街逛超市时随手一拍,平日等公交地铁时做做手势,甚至在家躺床上休息时录段语音,都可以完成任务
1.采用众包结构:顾名思义,就是把需要完成的任务分发给大众志愿者(也就是市场上说的兼职)。这其中就出现了众包公司。众包公司联系到需求数据标注的客户,和客户建立合作关系后,将客户需求传达给合作的大众志愿者,从而形成一个“需求公司——数据标注众包公司——多个大众志愿者”这样一个众包结构 。
2.这种众包结构的优点就是可以组织起社会上的大众志愿者进行数据标注,而大众志愿者不用占用太多的公司资源,劳动力成本相对较低。对于数据标注众包公司费用支出的核心——人工来说,无疑是可以极大的减少公司的运营成本,从而使公司自身在面对需求数据标注的客户时的报价更具有竞争力。
3.当然,众包结构的缺点和优点一样显而易见。需要拥有大量的志愿者基数 由于上游客户的需求可能千变万化,同时客户的需求很大概率都是阶段性的,这就要求众包公司合作的大众志愿者首先自身得是稳定的。但是由于大众志愿者就是利用闲散时间进行工作的这种特性,长期稳定的大众志愿者几乎不太可能,这就要求数据标注众包公司必须拥有庞大的大众志愿者团队,形成一个体系。才能保证在发放任务的时候总是有充足的大众志愿者进行合作。
4.其次沟通成本高昂。当大众志愿者的数量能够满足任务要求时,我们又不得不面对另一个事实:数据标注众包公司在与需求公司洽谈合作时只能有针对性的进行数据标注类型的选择。如果在选择数据标注项目上普遍撒网,就会面对公司自身需要投入巨大的精力去培训那些不断更迭的大众志愿者。而很多时候公司在大众志愿者合作方面节约下来的成本,其实已经全部转嫁到了公司培训、纠错诸如此类的沟通环节。
5.数据保密也困难。目前国内的AI公司,AI实验室还没有形成井喷之势。但就现阶段而言依然有众多AI公司,AI实验室在进行着高度重叠的产品研发。对于有标注需求的公司来说,如果被标注数据都是真金白银获取来的,那么倘若在众包环节众包公司处理不当,很有可能AI公司辛苦获取的数据就成了其他AI公司的嫁衣。
6.无法给予需求公司灵活的服务。因为大众志愿者拥有流动性的特点,一旦需求公司改变原有标注需求,数据标注众包公司是没有办法在较短的时间进行调整的。同时,数据标注众包公司的客户群体也相对单一,由于大众志愿者的群体特点,数据标注众包公司只能把更多精力放在需要大批量数据标注,同时标注规则相对简单的需求公司。但是AI的训练是一个阶段性的过程,基本上都是:小批量找特征训练——较小批量简单场景训练——较小批量复杂场景训练——大批量训练。在数据标注众包公司砍掉处在第一阶段的AI公司和AI实验室的时候,其实也就是砍掉了相当一部分潜在客户。
7.有了众包结构里的兼职架构,下面就着重介绍一下全职架构,也就是工厂结构。工厂结构相较于众包结构形式上要简单一些,省去了中间众包商这个环节,进而形成了一个“需求公司——数据工厂”这样的工厂结构。相较于数据众包公司,数据工厂的优点就是标注人员稳定,能做到需求方和数据标注方即时沟通,沟通成本大大降低。同时,由于数据是以一对一的形式进行传递的,也大大降低了数据被泄露的可能性。
8.虽然工厂结构可以有效的规避很多众包结构中存在的种种问题,但是依旧有很多问题他是没办法解决的,选择标注公司的困难,在市场上可能有成百上千个工厂结构的数据标注公司,但是有数据标注需求的公司应该如何选择呢?
9.人工成本风险较高 首先因为是全职,不论有没有任务,都涉及一个员工薪酬的发放。其次,需求方公司的需求有大概率是呈周期性的,就是有可能这周公司有项目做,下周可能就没有了。这就会映射出一个工厂结构的数据标注公司非常尴尬的处境:合同期限内需要完成的大项目可能需要大量人员进行参与。可是一旦合同结束了,公司却又没有找到后续能够进行人员分配的项目,这就会给数据标注公司的运营带来挑战。
10.造成的结果就是专业的数据标注、采集小团队没有标注工具,开始逐渐向拥有更好技术资源的大平台靠拢 。与之形成对比的是,花费巨大资源打造专业全职标注团队的数据公司,却也受困于人力成本不得不把一些业务外包给小团队。总之为全球的人工智能行业助力是我们的初心。