首页 > 在线阅读 > 详情
澳鹏科技:专注于倾注人类智慧的数据服务
《华东科技》     发布时间:2021-01-16 17:38:13.0    

2018年,中国的人工智能行业融资规模达3832亿元人民币,无论融资总额还是融资次数均排名世界第一。2019年,政府工作报告中明确提出将深化人工智能研发应用,打造工业互联网平台,拓展智能,为制造业转型升级赋能。


搭载AI顺风车 ,AI数据服务攀新高

随着人工智能应用的大规模落地,人工智能数据需求呈爆发式增长。尽管如此,2019艾瑞咨询的研究报告指出,目前需求方在选择数据服务时往往会遇到数据安全、采标能力、数据质量、管理能力、服务能力等痛点。对于数据安全,需求方希望基础数据服务商有明确具体的安全管理流程,对数据传输、存储以及结项后的数据销毁等环节比较重视。在采标能力方面,需求方算法越来越贴近业务,希望数据服务商对于自动驾驶、工业等有一定门槛的领域有采集能力,并且能理解客户意图,配合标注,甚至可以提出标注建议;根据市场反应,大多数数据服务公司首次交付项目时,数据的准确率普遍偏低,都需要一到两次的返工,故需求方对无效数据少、准确率高的公司更加青睐。对于执行效率,一般AI基础数据服务商都能在项目周期内完成,但管理能力较弱的公司很难在兼顾多个项目时做到精力集中、高质量地服务客户,同时执行团队的素养与信誉也是重要的影响因素。服务意识是一项软实力,需要AI基础数据服务商能够积极配合、快速响应需求方要求。

澳鹏科技(Appen)1996年于澳大利亚成立,是一家为人工智能及机器学习提供数据服务的上市公司(股票代码:APX)。经过20余年在专业领域的不断深挖及对市场需求的把控,澳鹏在数据语音语意、文字、图像、视频等领域的数据采集、数据标准化、数据标注、数据翻译和转注等服务达到了全球较前列的水平,其业务覆盖130多个国家和地区、支持180多种语言的各类AI数据层服务,为全球高科技、汽车、消费电子、电子商务、金融服务、医疗健康及科研机构等行业提供高质量、高效、安全的数据服务。

2019年10月14日,澳鹏投资200万美元建立的澳鹏(Appen)中国数据服务交付中心暨澳鹏科技(无锡)有限公司宣布正式开业,这也标志着澳鹏立足中国,布局中国AI数据服务产业进入崭新阶段。澳鹏(Appen)全球高级副总裁、大中国区总经理田小鹏博士谈道:“我们的行业对数据有四个基本的要求:一是速度,AI需要快速地变革、快速地应对场景、快速地提供服务。二是质量,高质量的数据可以带来较好的AI服务。三是安全性,所有数据都带有很多的安全性问题,要注意保护隐私。四是规模,在AI的数据中一定需要多样化,而不希望有偏见,不同的人看这个世界的感觉是不一样的。无锡的分公司是我们布局的一家全球交付的AI数据中心,也是我们的一个起点,将来我们会思考在中国南部和北部进一步展开布局。”


强强联手,打造端到端训练数据解决方案

澳鹏拥有成熟的数据工程管理方法论和技术辅助,以保证稳定的高质量交付。其AI数据平台具备优良的用户体验和机器学习辅助标注技术,大大提升了数据标注和工程效率;规模化和私有化众包数据标注,能使工程人员快速响应顾客的交付需求。这也是澳鹏能够为全球高科技、汽车、消费电子、电子商务、金融服务、医疗健康及科研机构等行业提供高质量、高效、安全的数据服务的关键所在。

2018年,澳鹏投资3亿美元收购美国Figure Eight 数据标注平台,此次收购可谓强强联手。Figure Eight(此前名为CrowdFlower)是一个使用自动化工具将未经标记的文本、图像、音频和视频数据转换为高质量人工智能训练数据的机器学习软件平台,2007年创立于旧金山,在人工智能生态系统中发挥了关键性作用,仅2018年就提供了3.25亿条人工评判的数据。Figure Eight发布了包括机器学习辅助数据标记和视频目标追踪在内的多种不同的创新性能力,增强其平台性能。这些创新性能力用于打造高质量的训练数据集,比单靠人工标记能够提速多达50倍。

高效的云管理平台与可扩展升级、经验丰富的多语种众包资源,再加上Figure Eight所具备的机器辅助标注功能、面向客户的创新性SaaS平台,从而可打造出端到端训练数据解决方案。整合后的业务主要定位于满足机器学习和人工智能技术开发过程中对训练数据日益增长的数量、品质和速度方面的要求。这也进一步增强了澳鹏在数据收集、标注、翻译、转述等领域产品平台的高效化和自动化。

澳鹏(Appen)全球高级副总裁、大中国区总经理田小鹏博士


提升创新服务能力,助力中国人工智能产业发展

随着大型科技公司、银行等机构尝试利用人工智能来改善其产品和服务,人工智能这一行业正迅速成为一个繁荣产业。人工智能发展带动了为机器学习和人工智能平台开发高质量的人工标注数据行业的蓬勃发展,尤其在自动驾驶领域,其广泛使用的AI深度学习算法,需要大量训练样本进行不断的算法优化,这些训练样本就是被标注过的原始数据。田小鹏说:“每个人都在试图减少对数据的依赖,因为数据是昂贵的,而且处理起来也很复杂,但人工智能对语言数据的胃口并没有减弱的迹象。相反,尽管存在这些挑战,包括深度学习在内的有效技术越来越依赖于大量数据,这一点是无可辩驳的。”

虽然一般情况下“数据越多越好”,但客户准确地知道他们在寻找什么更为重要。通常,收集数据的数量取决于预算,除了成本高昂,收集和处理信息也很复杂,语音数据的多样性、技术考虑以及所需的大量招聘工作等因素都导致了数据收集工作的复杂性。对此,田小鹏表示:“澳鹏深刻理解中国在未来将是世界上较大的人工智能市场,中国具备丰富的人工智能应用场景、中国客户快速响应和成本竞争的要求,同时对知识产权注重、数据安全的保护,让中国市场成为澳鹏未来发展的重要战略区域。澳鹏总部授权澳鹏中国实现独立自主的商业管理、经营和面向中国市场的数据服务产品/平台研发。借助澳鹏公司的优秀的产品、服务和运营经验,为中国人工智能相关行业的产业化、智能化、国际化以及本地人才的培育贡献力量。”

2019艾瑞咨询的研究报告指出,单纯依据客户各个项目的诉求进行数据采集和标注属于被动执行,主观能动性低、行业边界有限,各家公司的产品和服务趋于同质化、竞争呈胶着状态,制约着AI基础数据服务的发展。通过对需求方的研究,发现除安全性、质量、效率等核心关注点之外,越来越多的需求方对数据服务公司产生了主动服务的需求,希望数据公司能够更懂算法技术,更懂需求场景,甚至能参与到算法的研发中来,给出数据采标方面的优化建议,这也为数据服务商形成差异化竞争带来了契机,尤其是在AI落地阶段,在垂直场景中能够形成一套集调研、咨询、设计、采集、标注为一体的AI基础数据整体解决办法,将在收入和业务边界上实现突破。而澳鹏通过其超过100万名经严格验证的全球众包资源群体——覆盖130多个国家超过180种语言——支持公司的全球客户。

对于未来的发展,田小鹏表示,由于高质量的数据获取聚焦难,越来越多AI公司期望用大量未标注的数据通过机器自学后,形成数据模型,然后再对数据进行分类、标注。这种趋势下整个市场未来对需要标注的数据量会减少,但同时所呈现的AI场景日趋增多。如何用更有效的技术通过选取少量数据样本进行标注、训练模型,反馈信息,再选取少量数据样本标注、训练,这种主动学习的策略也将会被采纳。未来也将有越来越多的模拟数据用于机器学习模型训练。澳鹏进入中国,希望凭借自己这20多年的经验,以及优秀的产品和全套的服务体系帮助中国的企业,帮助整个AI技术实现大幅提升。同时澳鹏也将持续创新,快速提升企业的自身发展。


联系我们
欢迎洽谈内容、广告等各项合作业务
投稿邮箱:hdkj_sh@163.com
投稿热线:021-53080015
服务热线:021-53082351

2021年11月刊

电子刊物订阅渠道

请扫描上方二维码

上海《华东科技》杂志社有限公司 版权所有 沪ICP备12026464号-1 沪公网安备 31010402008474号 电子营业执照