阿里AI鲁班技术原理详解

Abstract:阿里双十一祭出AI设计师鲁班大人,具有=p6设计水平。本文重点介绍鲁班的技术原理、设计师与鲁班的合作、以及对设计师职业未来的思考。
//做专业领域的超能AI(监督学习),一定需要专业的资深人士设计数据模型;要想AI进化,需要不断喂给AI标注的数据(把设计数据化)且评估输出结果。数据量级非常重要!
//三大模块:风格学习 + 行动器 + 评估网络。
//关键部分:领域研究 + 数据链路 +算法框架。

介绍

阿里鲁班AI设计师担任双11的banner设计,数量高达4亿张,平均每秒完成8000张。

原理

1
2
3
graph TD
A[领域研究]-->B[数据链路]
B-->C[算法框架]

领域研究:领域专家设计数据模型,即找到该领域专家深入研究该领域的经验知识,构建一套机器可以学习的数据模型。视觉设计专家把设计问题抽象成“风格-手法-模板-元素”这样一套数据模型,即把多年视觉设计经验变成机器可学习的“数据”。

数据链路:定义好数据模型——> 抓取和标注数据—> 对数据集进行分类和管理

在这个过程汇总,如果处理数据给算法训练的更新频次,用什么数据去验证模型,如何评估模型效果,离线模型与在线数据在产品端如何打通?这一系列的数据问题就需要一套清晰的数据链路设计。

算法框架:算法框架由算法科学家来制定,数据和算法的关系就像汽油和发动机,两者密不可分。产品设计师需要与算法讨论,把业务场景和数据问题输入给算法。

三大核心模块

00

1.风格学习模块(规划+元素):

对大量设计素材的数据集进行结构化标注——> 输入深度序列规划网络—>输出空间+视觉的设计框架

01

  • 标注:让机器理解该幅设计有哪些元素组成,比如它的商品主体,花的背景,蒙版;定义设计手法和风格,手法指这些元素为什么可以这么构成,风格指当这些元素构成之后,它从美学或者视觉角度看是一个什么感受,让机器知道它是用什么组成。
  • 训练:准备设计的原始文件,比如一系列花朵和设计方法,输入到深度学习网络中。该网络具备一定记忆功能,可以记住设计步骤中复杂的过程。经过这层神经网络学习之后,会得到一个设计框架。从技术上理解,它是一堆空间特征和视觉特征构成的模型。从设计师的视角来看,它相当于设计师脑里在做一组设计之前那个大概的框架印象。
  • 分类器操作:提前收集版权图库,以及自己造设计元素的方式,输入到元素分类器中。分类器会把这些元素分布到各个类型里,比如背景、主体、修饰,也会完成图片库的提取。

2.行动器:批量输入元素,由元素分类器进行学习,按照视觉特征和类型分类

02

04

  • 行动器的作用:根据需求选取设计框架,并从元素中心选取元素,遍历状态空间,规划出多个最优生成路径,完成图片设计;
  • 强化学习:行动器会在不断试错中更聪明、更智能

3.评估网络:对输出产品评分;智能生成的结果经过评估网络,对结果进行打分并反馈给神经网络

  • 工作原理:输入大量的设计图片和评分数据,经过训练后,让机器学会判断设计的好坏。

03

技术挑战

1.缺少标注数据:今天所有的人工智能都基于大规模结构化标注数据,设计这件事情连数据都没有完成在线化,更别说标准化、结构化的数据。

2.设计的不确定性:设计是个很不确定的东西,设计需求把握和结果评估都存在人类主观意识。比如你无法给机器输入“高端大气的海报”这样的指令。

3.无先例可循

注:鲁班做的AI是可控的视觉生成。可控,指的是根据商业的需求、业务的需求,智能地进行控制;视觉生成,则表明鲁班解决的是视觉从无到有的问题。

设计师的未来

鲁班:P6设计师水平

p4有被替代的风险

训机师的出现

  • 为鲁班的进化提供规模更大、更丰富的数据,并且对于很多风格相关的事情实现“结构化数据”的转换
    现在的阿里设计师,变成要去学习鲁班系统,学习如何训练机器,同时在美学方面做把控
  • 鲁班的基础是来源于设计师的设计模板素材和元素素材,因此会有两个设计师角色每天去训练鲁班,一个负责帮助鲁班完成最新的风格学习(风格学习),让鲁班不断进化,不断掌握更好的设计技巧。另一个的角色则是对鲁班设计出来的成果进行评估(评估网络),告诉鲁班什么样的设计才是最好的。
  • 设计师的核心职责,在于把设计变成数据化
  • 鲁班从0到P6,也是设计师+算法工程师的合作成果

Reference

详解阿里海报设计AI“鲁班”

拿钱去买猫粮和狗粮嗷 ~