大模型“画龙”,小数据“触眼”
加快企业智能化转型
小数据和高质量数据的应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据对模型进行微调,使模型更精准地服务于具体的应用场景。从这个角度来说,未来基础模型完成下游任务时,小数据会起到关键作用。
王金桥
中国科学院自动化研究所研究员
如今,大数据已经成为人工智能的“标配”。在训练人工智能模型的过程中,如果想让它变得更聪明,大量多样的数据必不可少。然而最近,著名人工智能学者吴恩达在展望未来十年人工智能的发展方向时表达了不同的观点。他认为,小数据和高质量数据的应用还是未来的趋势。
中科院自动化所研究员王金桥表示,小数据和高质量数据的应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据对模型进行微调,使模型更精准地服务于具体的应用场景。从这个角度来说,未来基础模型完成下游任务时,小数据会起到关键作用。
大多数应用场景很难获得高质量的大数据。
算法(模型)、计算能力和数据可以说已经成为推动人工智能发展的三大因素,其中数据尤为重要。在很多互联消费场景中,我们经常被精准的人工智能推送“击中”。平台系统通过对消费者消费习惯和购物偏好的分析,来判断和引导消费者的潜在需求,而这一切都是建立在大量丰富的数据样本基础上的。平台利用大数据,构建适合该领域的特殊模型,实现精准推送。
这些体验可能是普通消费者对大数据和人工智能最直接的印象之一。吴恩达在采访中还表示,在过去的10年里,由于用户数量庞大(有时甚至数十亿),面向消费者的企业获得了非常庞大的数据集,这使得人工智能能够进行深度学习,并为企业带来许多经济效益。但他同时强调,这一规则并不适用于其他行业。原因是不是所有的场景都能产生丰富的大数据样本。
事实上,“生活中,场景中80%或90%的问题都是小样本问题。”王金桥表示,在很多应用场景中,由于训练样本很难获得,只有极少量的数据,缺陷检测就是一个典型案例。缺陷检测,即利用机器视觉技术检测和识别特定的缺陷。这种检测在很多领域都有应用,如航空航天、轨道交通、智能汽车等。由于实际生产生活中总有少数缺陷产品,缺陷检测的训练样本数量很少。
即使对于样本丰富的场景,训练数据的标注也越来越困难。王金桥介绍,目前人工智能使用的训练数据主要是人工标注,但面对海量数据,人工标注往往需要行业经验,普通人很难识别出标注的区域。另外,对于每一个应用需求,都需要人工智能专家来设计算法模型。型号越多,开发成本就越会继续增加。
吴恩达还表示,在消费互联网行业,我们只需要训练几个机器学习模型,就可以服务10亿用户。但是在制造业,一万个厂商会造一万个定制款。而要做到这一点,往往需要大量的人工智能专家。
从目前行业的发展趋势来看,基础模式可能是解决上述问题的一个方向。
以基本模型为“基础”的小数据微调
“近年来,业界开始重视研究和开发基本模型或通用模型来解决上述问题。”王金桥说,首先用大量数据预先训练一个模型。在前期训练中,让这些模特见多识广是首要任务。在训练过程中,模型会看到这方面的各种数据,增加知识以应对未来的各种情况。之后,在下游任务中使用特定场景数据进行微调。
比如自然语言处理(NLP)领域的一个大型模型,如果要用它来完成对话、问答等下游任务,只需要在这个下游任务中使用少量的数据,对这个大型模型进行微调,就可以达到很好的效果。也有研究结果表明,只使用原专属模型的5%-10%的数据样本对大模型的数据进行微调,就可以获得与专属模型相同的精度。
“从大型号到小型号,实现一个型号做多项任务,可以说是当前行业发展的一个变革。”王金桥说,这不仅降低了开发难度,也大大降低了开发成本。以前每一个算法都需要深度学习专家来设计和训练,现在只需要在大模型下进行微调,模型的设计和架构也变得相对简单。中小企业只需要在大模型上上传自己的数据即可。
此外,使用这种方法,模型的误报率也会降低。基础模型见过丰富多彩的数据和场景,在处理具体任务时,拥有海量的知识储备,更好地准备应对具体的小场景应用。
不过,吴恩达在采访中也表示,前期培训只是要解决问题的一小部分。更大的问题是提供一个工具,让用户选择正确的数据进行微调,并以一致的方式标记数据。当面对大数据集的应用时,开发者通常的反应是,数据有噪音也没关系,所有的数据都会按照顺序收集,算法会进行平均。然而,如果研究人员能够开发出标记数据不一致的工具,并为用户提供一种非常有针对性的方法来提高数据质量,这将是一种更有效的获得高性能系统的方法。
多模态或大型模型的未来发展方向
作为生产众多小模型的“基地”,模型的性能显得尤为重要。它的认知能力越接近人类,在它身上产生的小模型性能就越好。
人类在探索外部环境时,拥有视觉、听觉、触觉等认知手段,通过语言对话等形式实现互动交流。其中视觉信息约占70%,听觉和触觉信息约占30%。“同样,要制作大模特的性别
能更加优秀,更趋近人类的认知能力,就涉及到训练中的数据融合问题。”王金桥指出,我们熟知的语言生成模型GPT-3,能够生成流畅自然的文本,并完成问答、翻译、创作小说等一系列NLP任务,甚至可以进行简单的算术运算。但其和外界交互的主要方式还是进行文本交流,缺乏图像、视频等多模态融合。每一种信息的来源或者形式,都可以称为一种模态。如人有触觉、听觉、视觉、嗅觉;信息的媒介有语音、视频、文字等。人的认知模型可以说是一个多模态的集合。
要让基础模型的预训练更接近人类的认知模型,也需要进行多模态融合。即让模型通过机器学习的方法实现处理和理解多源模态信息的能力,如图像、视频、音频、语义之间的多模态学习。多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。
“这一两年,大模型的数量呈现爆发式增长,且有从单一模态模型转向多模态模型的趋势。”王金桥说,具备了多模态能力的基础模型,在具体应用场景中健壮性更好,在异常和危险情况下系统的生存能力更强,今后多模态基础模型或将成为未来基础模型发展的一个重要方向。
终于改了!618前,手机淘宝正式改名为淘宝。记者发现,目前在AppStore等各大应用商店里,原来手机淘宝APP的名称已经变成了淘宝。据悉,这是
2021-05-27 16:54太火爆了,工厂订单已经排到了下个月!5月26日,犀牛智造计划排产总监陈哲发了一则朋友圈。天猫618预售启动后,一批尝试即卖即产服饰商家销
2021-05-27 16:55为提振投资者信心,美的近来真的很努力。对于意兴阑珊的资本市场,这家家电巨头接连打出了回购牌、增持牌以及王炸——进军新能源汽车产
2021-06-01 10:42日前,有网友向工信部提交信件表示:把动能回收功能与加速踏板相结合,让加速踏板具有明显制动效果这一设计违背常理、违背汽车百年驾驶习惯
2021-06-01 14:35如今消费者选购空调时,除了基本的温度调控功能,更多人倾向关注附加了自清洁、除菌、新风、净化、舒适等健康理念和功能的产品,但这些
2021-06-04 14:43