ai镜像工具怎么使用_ai切片工具怎么使用_cad镜像工具怎么使用

其实,docker 技术不止应用于大赛,更逐渐成为 AI 开发者的必备技能之一。天池成了很多开发者第一次接触 docker 的场景。这么多年来,我们培养了一批又一批的开发者,培养他们的 docker 使用习惯。很多学生赛后跟我说 docker 很好用,他们在实验室已经用起来了。因为实验室往往是多个同学共用一台服务器,大家可能使用的环境都不一样,用了 docker 大家可以互不影响。

除了电子书,我们去年也尝试发布了一个竞赛工具包——ai-hub。这是一个 Python 包,并不局限于竞赛,在日常开发中也会经常用到,主要目的是方便大家在云端进行开发、训练。

ai切片工具怎么使用_cad镜像工具怎么使用_ai镜像工具怎么使用

其中的 inferServer 模块已在大赛中得到了广泛应用。借助该模块,我们通过简单的几句调用就可以完成模型到服务的转化。

未来,我们会继续围绕开发者的需要开放更多功能模块,比如右边 Notice 模块。这个模块一直是我自己用的。因为训练模型是一个耗时的操作,开始训练后我需要去忙别的事情,但是我又希望训练异常或者训练结束时能够第一时间得到通知,这样可以节省我的时间和算力,快速开始下一个尝试。Notice 就提供了一个消息通知的能力,同时它也支持发送 plot 图像到手机端,因为云端往往没有显示器,想要看一下 loss 曲线或者某张图片其实是挺麻烦的,有了 ai-hub 就可以 plot 到手机端查看图表。

最后,我想讲一下 TCC 的愿景。我们希望 TCC 是做最公正的模型评估排行,做最专业的赛事保障,筛选最优秀的算法

TCC 致力于为选手提供公平公正的竞赛环境,通过技术的与时俱进和持续创新来保证赛题的权威,为参赛选手提供更好的参赛体验。

希望在大家的共同努力下,我们可以用算法解决更多实际的商业或社会问题。

陈漠沙:人工智能基石建设——数据

大家好,我今天报告的题目是《人工智能基石建设:数据集》。我会从以下两个方面来进行陈述:第一部分我会整体介绍一下天池数据集;第二部分我会介绍下天池数据集的生态。

天池数据集简介

我们先从三组关键词说起。

ai镜像工具怎么使用_ai切片工具怎么使用_cad镜像工具怎么使用

第一组关键词是 AlphaGo 围棋战胜李世石、自动驾驶和 AlphaFold 破解蛋白质分子折叠结构。「AlphaGo 围棋战胜李世石」是 16 年的一则新闻,标志着深度学习技术的兴起;最近几年,「自动驾驶」也从人类幻想开始逐步走向商用;今年年初,又有了一条很令人振奋的消息:AlphaFold 破解蛋白质分子折叠结构。这些关键词的背后体现的是人工智能技术(AI)。

第二组关键词是大家比较熟知的,它其实更多是从数据层面来阐述的,包括大数据、数据技术,还有最近比较火爆的数字经济。这背后体现出的就是大数据,我们叫 Big Data。

第三组关键词包括分布式计算、云计算、CPU、GPU,这背后体现的是算力ai镜像工具怎么使用,我们把它统称为 Cloud。

ABC 整体组成了人工智能的三驾马车:数据对应 Big Data,算力对应 Cloud,算法对应 AI。这三个元素之间是相辅相成的:数据规模的增加对算力提出了更高的要求;算力提升之后又会促进算法的提升;算法性能提升以后又会反过来反哺数据和算力。它们整体形成了一个正向的循环,保证了技术不断的迭代发展。

在这里面,数据是非常关键的一环,它是整个人工智能技术发展的基石。接下来我会从数据的角度来谈一下天池数据集建设的思路以及我们的一些经验。

首先我先介绍一下什么是天池。天池是阿里巴巴于 2014 年推出的、面向全球的高端数据竞赛平台。经过这么多年的发展,天池目前已经承办了 400 多场机器学习、大数据的比赛,沉淀了 60 多万的大数据爱好者。这些开发者分布在 98 个国家的 4300 多所高校中。可以说,天池是中国目前最大的人工智能开发者社区。天池的比赛横跨很多行业,包括电商、金融、医疗、交通以及自然科学等多个领域。

通过比赛入口沉淀了这么多数据集以后,我们其实在想怎么能把这些数据集更好地组织起来,让它去服务社区的开发者。为此,我们提出了一个系统化的建设思路。

首先来看我们的使命。我们的使命是让开发者有机会接触和使用大数据,运用算法解决社会或者业务问题。我们的目标是通过制作并开放阿里集团脱敏后的精品数据集,联动第三方数据集提供方(比如高校、企业、事业单位)共建有影响力的 AI 科研数据平台,助力人工智能新基建发展。

从数据集的使用情况来看,其实科研占了非常大的比重。很多学生在写毕业论文的时候就已经在使用天池的数据集了,很多高校也使用天池的数据集发表了一些有影响力的工作,比如在 AAAI、ACL 等国际顶级会议上发表一些论文。

讲完天池的整体概况之后,我们来看一下天池数据集在行业里面的具体应用情况。

以电商领域为例,我们提供了覆盖广告点击率预测、淘宝服装搭配、电商标题预测等核心场景的一些数据集。在自然科学领域,我们也做了气象预测(比如降雨量预测)等一些关注民生的赛题数据。在交通领域,我们有航班调度、路径规划等有意思的赛题数据。这些赛题都来源于真实的业务场景。我们希望通过数据来撬动算法的应用与创新,更好地推动人工智能算法在行业里面的落地与应用。

在思考数据集在行业中的价值的时候,我们提出了这样一个观点:建设行业多任务标准数据集是人工智能技术规模化应用的前提。这一结论的得出是基于以下思考。

首先,行业在数字化转型的过程中,缺乏标准数据集和数据集标准,导致有些成果无法量化或者公开化评估。在今年刚颁布的「十四五规划」中,我们可以看到:在数字经济章节,国家首次提出了要建设重点行业人工智能数据集。这也呼应了我们的观点。

其次,算法模型的落地需要提升模型的泛化能力。过往都是算法在某个特定数据集或者某个特定任务上表现优异,迁移到其他数据集或任务上性能就会有很大落差。如何提升模型的泛化能力和通用性?一个很自然的思路就是构建一个多任务的数据集榜单或者 benchmark 来进行模型泛化能力的评估。

这两个行业痛点是我们提出行业多任务数据集背后的思考逻辑。

下图是我们在医疗领域做的一个多任务数据集榜单工作。这是一个中文医疗信息处理挑战榜,由中国中文信息学会医疗健康与生物信息处理专业委员会发起、天池以及其他从事医疗 AI 研究的单位共同协办,目标是建设成为医疗信息处理领域最权威的 benchmark,以促进行业的发展。

这个榜单囊括了信息抽取、医学临床试验入组/出组筛选分类、医学问答等常见的医疗 AI 任务,包括 8 个公开的任务。榜单一经推出便得到了业界的广泛关注。参与打榜的选手包括各大知名高校和医院科研单位。欢迎大家扫码参与或提出建议。

天池数据集生态

在介绍完数据集之后,我来讲一下天池数据集的生态。

我们知道,光有数据集是不够的,我们需要思考如何发挥数据集的价值。为此,天池为开发者创造了一站式的学、练、赛开放平台,目标是全方位地提升开发者、人工智能从业人员的算法水平,帮助他们积累更多实践经验。

在「学」这个板块,我们提供了天池 AI 训练营,目标是为 AI 入门玩家提供从零到一的完整学习路径。此外我们也推出了天池读书会,每周会定期邀请行业大咖来给开发者分享热门书籍和实战经验,让大家学习更有效率。

在「练」这个板块,我们提供的天池 Notebook 是基于阿里巴巴机器学习 PAI 提供的 DSW 平台,提供了 IDE、计算资源一体化的实战平台。开发者可以在 notebook 上使用数据集,基于数据集开发算法,也可以通过优秀选手分享的解决方案来提升自己的能力。

经历了学和练之后,开发者们可以在比赛中一展身手,把自己所学应用到真实应用场景的数据集中,来验证效果,比如全球人工智能技术创新大赛。

很多选手通过天池一站式的学、练、赛平台和天池数据集掌握了人工智能技术。从这方面来讲,天池平台是在做一件公益性质的事情。

最后给大家提醒一点,如果要使用我们的数据集去做一些研究工作,并且要发表的话,大家需要进行规范的学术引用,格式如下:

如果有研究成果发表,大家需要通过天池的公共邮箱做一个申报,来获取激励。

圆桌论坛:天池学长的成长分享和业务思考

Q1:阿里云天池平台如今承载了电商、金融、工业、医疗等上百种场景的赛事,已合作或服务了百余家机构,这些赛事运作也为天池平台沉淀了海量的、高质量数据集,漠沙老师可否向我们科普下天池是如何参与这些数据集制作的?这应该是个门槛很高的事情吧?

陈漠沙:我们在做数据集的时候是非常讲究专业性的,要求专业的人来做专业的事情。从赛题的命制到数据的采集、标注,我们都有非常专业的团队来支撑。在拿到标注数据以后,我们还会有一个非常严格的质检流程。从而保证放出来的数据是高质量、高规格的。

Q2:所以我们可以理解天池平台的运作实际上需要大量的人力、物力、成本,那么天池作为一个有影响力的 AI 开发者社区,做这件事情的出发点是什么?尤其是在一家商业公司中,对天池的利好和挑战分别有哪些?

陈漠沙:这个问题其实让我想到了天池的初心。在 14 年的时候,大数据这个概念是非常火爆的。我们在走访一些高校的时候也发现,很多高校都已经开设了大数据的课程或者讲座,甚至还有一些学校成立了大数据学院。但当时的一个痛点是,老师和学生其实是接触不到企业大数据的。所以我们就在想,能不能把阿里的一些业务数据集开放给高校做科研。后来考虑到一些竞技性的因素,我们就把它做成了比赛。

在天池的发展过程中,我们发现很多复杂的算法其实还需要有比较强的算力。这些算力的成本是比较昂贵的,对绝大部分学生来说都不太现实。因此,我们就免费开放了天池实验室,学生可以在天池 Notebook 上玩转大数据,开发自己的算法。最终,我们是希望把天池打造成一个学习、比赛一体化的平台。

我们希望通过数据集更好地去服务科研和创新,同时助力传统行业进行数字化转型,让人工智能技术在业务场景中发挥更大的价值。我们的使命是让开发者有机会接触和使用大数据,并且通过算法来解决真实的社会、业务场景问题。天池会一直坚持自己的初心,让这个社会变得更美好。

Q3:从开放的天池平台中有收获的同学应该不少,乐乐也是其中一员。你作为曾经的天池大赛冠军,现在参与天池平台的架构设计、赛题开发、以及答辩评审等,天池平台对你有怎样的影响?特别是现在从事天池平台自身的建设,又有哪些体会?

盛乐乐:我觉得最大的体会应该是更看重模型的实用性。过去几年,我们有很多大赛并没有把模型效率作为大赛指标,但是在答辩环节经常会有专家老师询问选手模型的推理效率,并且很看重模型效率是否满足实际应用场景的需要。因此,TCC 应用后,我们也逐渐把模型效率考核纳入竞赛指标,让更多选手能在模型设计之初就将实用性考虑进来,从而推进优秀算法的可落地性。竞赛和实际应用不一样:在竞赛里面,分数是模型好坏的唯一标准;但是实际应用需要关注模型的实用性,包括如何落地、模型效率、泛化能力等。所以作为竞赛平台方,我们也在不断改进我们的评测机制,从而让竞赛不再只关注单一的指标。

Q4:今天收看节目的同学除了乐乐的心路经历,肯定也特别想了解参赛秘籍,可以给我们剧透一些吗?

盛乐乐:如果有秘籍的话,我就去打比赛了,哈哈~ 不过其实大赛也是不断轮回的过程,不同的场景和数据解决的是相同或者相似的问题,要学会利用历届大赛,把历史大赛分类总结。比如去年江小白的酒瓶瑕疵检测就对应了今年的广东工业瓷砖瑕疵检测。不同的场景数据,相同的瑕疵检测问题。直接借鉴历史大赛的代码分享和技术文章,再认真学习下当时的答辩视频,你也可以在新的大赛中获得很好的成绩。我觉得这算是一条秘籍吧。

Q5:所以参加天池竞赛到底需要哪些技术能力?门槛怎样?

盛乐乐:首先你需要选定一个方向,如 CV、NLP,然后找到对应的学习路径。天池平台其实也为刚入门的同学提供了一个类似知识树的页面。通过这个页面,你可以看到每个方向最简短的学习路径,对这个领域有一个大致的了解。

同时,你要学会边学边练,从学习赛开始。学习赛是我们从历届比赛中筛选出来的一些优秀比赛,已经有很多前辈在学习赛里面沉淀了很多优秀资料。一般的学习赛都会有一个 baseline,你可以从 baseline 开始,学习他们的代码,然后融会贯通。到了正式的比赛(大概两三个月的时间),如果你能坚持下去,在正式赛里面不断地和其他同学交流、学习,然后尝试这个领域不同的一些算法,那么两个月之后,你就会不知不觉地发现其实自己的能力已经得到了非常大的提升。这个时候,在这个领域里面,其实你已经有了相当丰富的经验了。

要参加天池的比赛,除了专业能力,你还要掌握基础的 docker 能力,才能完成大赛的提交。这部分可以参考我前面分享的面向 AI 开发者的 docker 电子书。其实你只需要掌握如何把自己的代码打包成镜像在云服务器上运行起来即可,不需要精通所有的操作,docker 是工具,满足需要即可。

Q6:我留意到刚才乐乐一直在强调数据集的使用。看起来在天池平台上,整个的使用体验和市面上的数据集概念是有明显区别的。漠沙老师,天池在数据集的构建方面到底有哪些特点?

陈漠沙:我觉得天池数据集有四个特点。第一个特点是,它是跟天池大赛结合起来的,我们也有很多独家的产业数据集在里面。第二点是安全性。因为针对不同安全等级的数据,我们会提供不同的安全策略来保证数据的安全。数据在我们平台上的安全系数是比较高的。第三点是系统性的一站式数据集托管平台。从数据的上线、申请到后续的论文引用,我们提供的是一个一体化的系统服务。如果你的数据集有一些论文代码,你也可以借助直播等形式在天池平台上做一些解读。最后一点就是刚刚说的专业性。在数据集的建设过程中,我们会整合阿里巴巴内部及外部的一些专家资源。以我们最近推出的一个中文信息处理挑战榜单为例,这个数据集由中国中文信息学会医疗健康与生物信息处理专业委员会发起,我们在参与过程中得到了阿里达摩院、阿里健康和夸克浏览器等兄弟部门的帮助,可以保证榜单的专业性和权威性。

Q7:其实业内一直都热衷讨论的话题就是如何让数据真实有效的同时,确保隐私和安全,这点天池是怎么做到的呢?

陈漠沙:首先一定要重视的一个问题是数据的合规性,比如像人脸、患者电子病历等涉及生物指纹的数据我们是不能去开放的。一些医学影像的数据,虽然我们平台有开放,但也是患者签署知情同意书之后才拿来做比赛的。我们背后有一个非常专业的法务团队帮我们去做审核。拿到数据以后,如果它的合规性没有问题,我们内部还有一个非常严格的审核机制。第一道是机器审核,用于拦截恐怖、色情等不健康的内容,保证开放出去的数据集是健康合规的。开放之后,如果社区开发者反馈说数据有问题,我们运营同学也会第一时间去跟进、审核,发现有问题就会下架。

在技术层面,我觉得阿里巴巴在数据开放层面走得是很靠前的ai镜像工具怎么使用,比如数据如何脱敏,如何打水印,这些研究成果已经在天池中采用了。另外,我们还会跟进一些非常前沿的数据安全技术,比如联邦学习、区块链,不断升级我们的数据安全策略。

最后,从平台层面来讲,盛乐乐老师提到了 TCC 这样一个平台。数据开放模式包括以下几种:1)数据可下载;2)数据可见、不可下载;3)数据不可见、不可下载。针对不同的数据安全等级,TCC 会采取不同的数据安全策略。

综合以上三点,我们其实是能比较好地保证数据隐私和安全的。

Q8:天池平台在这方面的建设确实领先行业,相信未来会有越来越多的开发者通过平台了解更多技术,也一同加入平台的建设,两位老师可以给屏幕前的选手们一点寄语吗?鼓励鼓励!

盛乐乐:第一,坚持到最后才会胜利。其实我之前也参加过一场天池竞赛。竞赛就是逆水行舟。当时,我们是每天早上 8 点起来看排行榜更新。如果你前一天没有去更新你的成绩,就是没有往前走,第二天你一定就被别人超越了。在排行榜上,你可以看到今天你比昨天下降多少名。所以说找到一个志同道合的队友相互鼓励非常重要,比如我就是很难依靠自己走到最后的一个人。

第二,对数据的理解要深入。新手往往容易忽略数据集的重要性而放大模型的重要性,这是个误区。通常情况下,数据和模型花的时间要尽量做到五五分。当你的模型优化遇到瓶颈时,一定要回头看看数据。

第三,保持学习,尽量多尝试不同的方法。你在参加比赛的时候会遇到各种选手,大家各自用不同的方法。尽量把常用的方法都跑一遍。真正地自己跑一遍之后,你才能发现每一个方法到底有什么好,有什么不好,最后才能融会贯通,得到最优的一个解决方案。

陈漠沙:我觉得乐乐老师刚才的分享已经非常精彩、非常到位了。我想从其他角度提几点要求。第一点,我希望学生在取得好的成绩之后能够把经验分享给我们的社区,让社区更加繁荣。第二点其实要回到天池的初心,我们是做技术公益的。我们希望学生在参加这个比赛,通过数据集解决一些真实场景问题的时候,能有更多的思考。想一想如何能通过技术促进国家、社会的发展。

四期AI青年说,精彩不断

「AI青年说」系列活动共有四期,邀请多位嘉宾就 NLP、CV 以及本届大赛进行技术解读与圆桌讨论。点击阅读原文,收藏直播间,持续关注「AI青年说」系列活动。

©THE END

限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: muyang-0410