大部分时候,提到产品体验,大家首先会想到产品功能和视觉表现:产品功能是不是满足用户需求,产品界面中的布局、按钮、图标、色彩看起来是不是精妙绝伦。
阅读文章 >
Hi~
重新认识一下,我叫AI钉三多!
关注钉钉设计的同学对这只雨燕应该不陌生了,没错,它就是高度敏捷、充满韧性、不服输不放弃的钉三多!你可以在很多场合见到它的身影,比如钉钉发布会、钉钉品牌物料&视频、甚至街道海报、商场大屏等等;钉三多是阿里巴巴动物园里面为数不多的以黑色为主要肤色的品牌IP角色,自面世以来以其鲜明的特征性与辨识度,深受圈内外人的喜爱。AI时代,钉三多将以更好状态、更丰富的形象,乘风而来!
钉三多的原型是尖尾雨燕,是世界上飞行最快的鸟类之一,且有着最耐久的长途飞行能力,翼长脚小,被冠以“永不落地的无脚鸟”之名。
钉三多的名字灵感,来自于经典影视剧《士兵突击》的许三多一角,许三多的出身平凡、信念坚定、不懈努力,给观众留下深刻印象;钉钉早期的创业故事也正是如此,像这只“无脚鸟”一样决绝而浪漫,也像许三多一样勇敢且坚定地追求信念。
AIGC彻底打破传统创作的局限性,你可以无门槛无差别式创作,你的天马行空,AI来买单。
其次,创作成本也是要着重考究的方面,以Stable Diffusion、Midjourney为代表的工具化AI产品,以工程化的方式,进行标准化的生产,可以在明确的条件下无限输出,创作时间成本大大降低。
最后,多风格多模型,也决定了创作者可以进行多样式的创作,总有一款风格适合你,总有你能用到的模型,它总会给你意想不到的惊喜。
底层逻辑:我们使用线上部署版Stable Diffusion进行模型训练,Lora模型依附于SD大模型使用,相比于SD大模型,Lora模型更适合进行具象风格化的定制,更迭、修改、调整的成本也会小很多。在开始前,我们明确了几个原则:
品牌一致性:保证模型的稳定性,高度统一生成的形象,能以最高的成功率生成符合钉钉IP规范的角色形象。
丰富拓展性:保证模型拥有较强的泛化能力,可以跳脱训练时投入的已有素材,高质量泛化出不同的物品、形态。
充分迭代:AI在不断的更迭,风格化模型也同理,尝试训练一遍就成功是不现实的,过程中充分回收成功案例,查漏训练参数问题,不断改进不断优化,让钉三多永远都以最好最新的姿态见到大家。
明确项目原则以后,开始进行训练的准备工作。
1. 训练集素材准备
训练集是整个项目中最重要的环节,直接决定了训练出模型的质量如何,好的训练集一定是画面风格一致、元素风格一致、形象与画面的占比一致、关键词描述清晰、明确。在训练集准备工作阶段,首先遇到一个大难题:已有的钉三多视觉素材中,单体3d素材充裕,姿势多,表情多,但缺乏在3d场景中的运用,已有素材大多是裸身,缺乏身着衣物的素材。
这时候就要充分借助AI的能力,在原有基础素材(无背景、无衣物)的基础上,结合手绘线稿或素材抽离的线描,勾勒出想要的形体、衣物,借助ControlNet的条件控制能力,输出可供我们投入训练集使用的新素材;场景可以单独绘制,3d风格的背景也可以搭配使用Midjourney,批量输出多个精品3d场景,作为训练集单体输入素材的一部分。模型训练其实不是0-1的过程,而是从0-1,1-2,2-3…所有生成、创作的优秀素材都可以反哺进训练集中,继续训练,高品质的素材可以帮助训练成的模型出图效果更稳定、更高品质。
2. 训练集素材打标
依次根据每张素材的画面内容,进行批量化打标,这一环节的作用是为了帮助AI更好的理解我们理想画面中每个物品、视角、角色,分别是什么,这个环节的工作也直接决定了Lora后期的泛化水平。
多次反复打标以后,我们沉淀了一套模版化的打标框架:分别描述“谁,在哪儿,做什么”。
“谁”:顶层节点先明确好触发词,与固定形态有关的、且是画面中比较核心的元素,都可以利用/(ip)/的格式进行编辑;IP形象的特征也比较明确,黑色的皮肤、蓝色的嘴巴、胸口有白色的闪电符号,都是构成它的必需条件;搭配一些装饰品、衣物等共同构成“谁”和“角色形象”这个概念;
“在哪儿”:接下来可以描述画面背景方面的内容,例如在什么地方,这个地方有什么东西,室内还是室外,什么季节,天气如何等等,共同构成“在哪儿”这个概念;
“做什么”:这里就是影响画面丰富性的环节了,三多在画面中,是什么姿态,是否有手持、脚踏等互动性物品,是以什么样的心情,什么样的站位,在做这件事情,搭配镜头描述,例如俯拍、正视、仰视等描述词,共同构成“做什么”这个概念。
最后,将这件事情循环几十次,训练集工作完成,就可以投入炼丹炉静候佳音!
3. 大功告成,开始进行使用前测试
一个好的模型必须经受“拟合度测试、泛化性测试、良品率测试”三重严苛考核,如果在测试环节出现过拟合、无泛化、成功率低等问题,那这个模型的可用性将会被大大降低。
拟合度测试
首先,将训练出的多轮多个safetensors集中起来,用寻常的画面关键词进行分头测试,来选取表现最稳定、画面最好的模型版本与权重,如下图可见,safetensors-000006,在权重0.7-0.8时表现最佳,再多测试几轮后依旧得到了这个结论,所以模型safetensors-000006,出图权重0.8成为了我们最终采用的模型和权重参数。
泛化性测试
利用训练集画面素材中没有出现过的物品、场景、姿势、形态,进行无差别跑图测试,观察是否可以输出结构结实、正确无误的对应元素。这里我更迭了超过五个版本,之前的每个版本在泛化性测试中都表现得不尽人意,无法彻底跳脱训练集画面而构成全新的画面。在多次调整训练集,反复回炉重造以后,泛化性得到了极大的改善,在一些特殊节日测试中,场景、衣物、与物品的互动等方面表现极佳。
良品率测试
顾名思义,是对直出图的成功率测试,合格的Lora成功率应该保障在70%或以上,这里我们进行了同文不同画的测试,观察一批次能输出多少张无缺陷无硬伤的合格画面。经过多次尝试与回炉重造,最终良品率达到了82%,通过测试,可以进行下一步部署与使用环节!
1. 准备工作
首先进行海报的画面构思:万圣节是西方节日,深受年轻人喜爱,逢节必备的三件事:着装扮鬼、出门游街、索要糖果。结合钉三多的角色属性,立马有了思路。
抽象一些画面基本元素来体现万圣节,必备的一些物品有:南瓜、糖果、异装、城堡、鬼魂、夜晚…
2. 与钉钉的结合,体现钉钉品牌属性
钉钉近一年充分拥抱AI,“魔法棒”的概念深入人心,于是将角色的“异装”概念进行一轮升级,赋予钉三多扮“魔法师”的形象,魔法师应有的形象特点为魔法帽&斗篷、骑行的扫把、魔法棒…刚好与钉钉AI魔法棒概念相吻合;着装主题色也决定采用蓝紫渐变,来呼应钉钉的主题色。
3. 结构化撰写Prompt
依照上面提到过的提示词结构,我们可以分模块撰写Prompt:
触发词:dingsanduo/(ip)/
谁:3d character, c4d, there is a white lightning bolt symbol on the chest, solo, (3d动漫角色,c4d作品风格,角色胸口有一个白色的闪电符号,单人)
在哪儿:on Halloween night, against the backdrop of a castle, there is a pumpkin lantern. The mouth of the pumpkin lantern is wide open, filled with candies, there are bats in the air.
(在万圣节之夜,在城堡的背景下,有一盏南瓜灯笼。南瓜灯笼的嘴巴张开着,里面装满了糖果。地上有落叶和棒棒糖,夜空中可以看到有蝙蝠在飞)
做什么:On the ground, there are fallen leaves and lollipops. A figure is wearing a purple shiny scale cloak with a gradient of blue and purple. On the head is a purple magic hat. The person is brandishing a magic wand that sparkles with stars. Riding on a flying broomstick,
(三多穿着一件闪亮的鳞片斗篷,蓝色和紫色渐变。头上戴着一顶蓝紫色的魔法帽,挥舞着一根闪闪发光的星星魔杖,骑在飞天扫帚上,飞翔)
4. 得到了我们想要的画面
结合一些扩图、局部重绘能力进行微调,搭配提前准备好的海报文案,就完成啦!
不同于体验设计、服务设计,AIGC领域没有绝对唯一的衡量标准,也没有站在山顶上的人,每一个研究AIGC的人都是勇敢的攀登者,都在摸索上山的道路,路途中充满了随机与惊喜,没有人知道这座山有多高,没有人知道谁走在最前面,每个人都有自己专属的上山路,哪怕这条路并不好走,哪怕这座山还在不停地“长高”。
在此钉钉设计中心感谢投身在这个领域的所有先行者,有了你们的勇敢探索、不畏试错、无私分享,才有了当下AIGC的蓬勃发展,百家争鸣。
欢迎关注作者微信公众号:「钉钉用户体验」