机器学习公有云服务中国市场份额第一的AI平台,到底做对了什么

图灵汇官网

华为云ModelArts如何实现快速发展?

近日,国际权威研究机构IDC发布的《中国AI云服务市场(2020上半年)跟踪》报告显示,华为云一站式AI开发平台ModelArts在中国市场份额排名第一,达到29%。

报告指出,华为在国内市场具备先天的认知优势,开发者对华为的技术、产品和品牌有较高的信任度。其中,华为云一站式AI开发平台ModelArts在行业内的知名度非常高。这表明,在ModelArts平台上学习AI技术已经成为越来越多开发者的首选,ModelArts也逐渐成为行业AI落地的首选平台。

众所周知,市场份额是衡量产品实用性的关键指标。用户评判产品的标准非常简单:产品是否真正解决了问题?例如,能否实现降本增效,产品是否安全可控等。

作为一站式AI开发平台,华为云ModelArts的用户关注的问题包括:上手门槛高不高?成本和效率如何?数据隐私能否得到保护?模型能否自主把控?

接下来,我们将从这些问题出发,探讨市场份额第一的华为云ModelArts是否解决了这些问题。

1. 门槛、成本和效率

一位从传统IT转向AI软件研发的技术总监表示,在早期研发阶段,他们遇到了许多棘手的问题,如数据收集、处理、模型训练、管理和发布等环节,AI开发大多采用“作坊式”工作模式。这种模式不仅效率低下,而且不利于新人培养,导致培训成本居高不下。同时,模型上线后的性能受到物理硬件的限制,横向扩展耗时耗力,资源利用率也无法有效保障。

这位技术总监提到的主要问题集中在门槛、成本和效率三个方面。门槛方面,推动AI发展的四大核心要素——算法、算力、数据和知识,每个都有一定门槛。成本方面,传统的“作坊式”工作模式流程冗长,涉及人员较多,人力和物力成本高昂。效率方面,这种模式容易重复劳动,资源复用率低。

在这种情况下,华为云ModelArts进入了这些开发团队的视野。

为什么是ModelArts?

在自然语言处理领域,BERT的问世是一个重要里程碑事件。它让社区体验到“预训练”的好处:只需简单的迁移策略,就能使模型在下游任务中表现良好,使该领域由手工调参和依赖机器学习专家的时代进入大规模、可复制的大工业生产阶段。这一经验同样适用于其他领域,华为云ModelArts的通用预训练模型架构——EI-Backbone就是这一路径的先驱之一。

EI-Backbone通过整合算法模型、算力、数据和知识,实现模型选择自动设计、参数配置自动调优,在几分钟内完成模型训练,无需依赖专家经验就能大幅提升模型精度,显著降低AI应用门槛,缩短开发流程,提高开发效率。该架构提供了一种“预训练模型+小样本微调”的高效训练模式,使开发者能够在行业小样本数据上训练高精度模型。在医疗等优质数据稀缺的场景中,这种方法尤为有用。例如,在医疗影像分割领域,过去需要成百上千例标注数据才能进行训练,但在EI-Backbone的支持下,只需几十例甚至十几例标注数据即可完成,节省了超过90%的标注成本。

效率提升和成本节约还体现在算力方面。华为全联接大会2020发布的最新版华为云ModelArts 3.0在集群规模、任务数量以及分布式训练各个环节进行了针对性优化,并支持弹性训练。弹性训练是指华为云ModelArts提供的两种模式:一是Turbo模式,可以充分利用空闲资源加速现有训练任务,训练速度可提升10倍以上,并且不影响模型的收敛精度;二是经济模式,可以通过最大化资源利用率提供极致性价比,在大多数典型场景下可提升性价比30%以上。这种降本增效的效果在实际业务场景中非常明显,无论是对AI开发者的低成本快速上手需求,还是对行业AI智能转型的需求,都是最合适的解决方案。

2. 数据掌控

AI模型性能的提升离不开大量多源数据。如果企业只用有限、单一来源的数据进行训练,得到的模型可能不够准确或泛化性较差。在此背景下,各个数据拥有方不可避免地要进行合作。

然而,许多行业的数据涉及用户隐私、行业机密等问题,数据拥有者不愿或不能将数据上传至一个数据中心进行模型训练,形成了一个个“烟囱”或“孤岛”。

华为云ModelArts的用户大多属于这种类型,他们身处医疗、政务、金融等安全和隐私要求极高的领域,因此必须严格控制数据流向,确保数据不出库。

数据不能出库,但模型参数可以。这就是华为云ModelArts提供的联邦学习解决方案。在华为云ModelArts 3.0中,用户可以各自利用本地数据训练模型,不交换数据本身,只通过加密方式交换更新的模型参数,实现云边协同训练。此外,华为云ModelArts 3.0不仅支持横向联邦学习,解决对齐数据的问题,还支持纵向联邦学习,可以轻松处理训练样本ID堆叠多的数据。

对于使用华为云ModelArts实现行业AI落地的用户来说,引入联邦学习不仅解决了数据隐私问题,还节省了数据方面的成本。众所周知,医疗、制药等领域的数据标注难度非常大,需要领域专家的介入,因此成本非常高。通过联邦学习,各数据拥有方可以在这一技术的保护下实现数据价值的交换,显著降低成本。

3. 模型掌控

模型从实验室走向生产环境是一个令人担忧的过程。开发者和企业会担心模型精度不够高、功能不够好、可解释性差、可信度低等问题。在这些问题没有明确之前,没有人敢大规模部署这款模型。

华为云ModelArts的成功之处在于,它在一定程度上缓解了这种“不透明”带来的顾虑,将自动评估、诊断后得到的模型精度、功能、可解释性、可信度等信息展示在一个“面板”上,让用户直观地看到自己模型的基本情况。

这种评估非常细致,仅精度方面就有准确率、精确率、召回率、F1值、混淆矩阵、ROC曲线、数据敏感度分析等多项指标。这些指标可以帮助用户有针对性地进行调优,让用户做到“心中有数”,放心部署。

哪些行业已经采用了华为云ModelArts?

目前,华为云ModelArts已在金融、医疗、药物研发、自动驾驶等多个领域得到广泛应用。

在金融领域,华为云ModelArts已应用于金融票据OCR识别。由于金融票据格式多样,细微差异大,需要AI专家长时间进行票据AI训练,因此业界识别准确率普遍不高。针对票据模型开发、训练数据标注、模型训练、调优和部署等难点,华为云ModelArts通过数据集分类、自动学习、迁移学习等方法,使高级AI开发者无需手动调参,轻松操作数据标注工具,实现快速部署。

在医疗领域,去年11月,《Radiology》杂志发表了华为云EI创新孵化实验室、华中科技大学电子与信息工程学院、华中科技大学同济医学院附属协和医院放射科联合团队的最新研究成果:使用华为云ModelArts开发的一套基于CTA影像的脑动脉瘤检测算法。该算法的灵敏度高达97.5%,帮助医生临床诊断灵敏度提升约10个百分点,漏诊率降低5个百分点,同时有效缩短了医生的诊断时间。

在药物研发领域,2020年,华为云EI与中国科学院上海药物研究所签署了联合创新合作协议,将华为自主研发的FedAMP算法和AutoGenome算法应用于药物研发的AI任务中,精准预测药物水溶性、心脏毒性和激酶活性。中国科学院院士、中国科学院上海药物研究所研究员蒋华良与华为云共同发布了基于ModelArts平台的药物联邦学习服务,以解决研发数据高壁垒、高成本以及高保密性的问题。实际应用证明,通过华为云EI联邦学习训练后的模型,准确度远超传统联邦学习和深度学习算法。

回顾过去一年,华为云ModelArts在抗击新冠疫情方面也发挥了重要作用。其参与的联合科研团队在2020年2月筛选出了五种可能有效的新冠抗病毒药物。此外,华为云还依托AI昇腾集群服务和ModelArts推出了AI+CT医学影像分析服务,利用计算机视觉与医学影像分析技术对患者的肺部CT多发磨玻璃密度影(GGO)及肺实变进行分割和量化评价,并结合临床信息和实验室结果,辅助医生更高效、精准地区分早期、进展期与重症期,助力疫情防控工作。

技术赋能行业离不开一个低门槛、高效率且安全可靠的工具。华为云ModelArts这类AI开发新工具的出现是实现技术普及的重要条件,使“学AI,用ModelArts”成为开发者群体的新风尚,也将使行业AI落地的开拓者们亲手触碰到未来。

本文来源: 图灵汇 文章作者: 飞之家