如何利用 AI 做乘法，制作一款龙年贺卡小程序

2024年2月4日 · 阅读需 5 分钟

2022 年底 AIGC 的出现，让 2023 年成为通用人工智能元年。

这是最好的时代，利用 AI，之前仅能存在幻想中的事物落地成现实。

只需要寥寥几句话，就可以描绘一张斑斓的画，真实而又丰富的画。

目前 AI 生图的大模型不多，大名鼎鼎的有 Midjourney，不过它闭源，并且国内用户使用不方便。

Stable Diffusion，一款免费开源，而又强大的 AI 生图模型，正在成为 AI 绘画的宠儿。

比如这张庆祝新年的图片，正是出自 Stable Diffusion 之手：

Stable Diffusion 支持文生图（通过提示词文字生成图片）、图生图（通过垫图+提示词文字生成图片）、文生视频、视频生成视频。

如下是一个图生图的例子，通过一张手绘的垫图（左侧），生成一张真实的苹果图片（右侧）：

还有比如前阵子抖音比较火的 AI 变换视频：

为了探索 Stable Diffusion 想象力的边际，在临近甲辰龙年之际，我们决定开发一款龙年贺卡小程序，效果图如下：

我们选择了一个叫做 Comfy UI 的开源框架，基于工作流的交互，让 Stable Diffusion 的编排和出图更加方便和快捷：

Comfy UI 官方介绍称之为：“最强大的 Stable Diffusion 的图形化操作界面”

虽然有 Comfy UI 加持，但在一开始，就碰壁了，无法生成文字，如下：

左边这张「龙年大吉」是我们输入给 Stable Diffusion 垫图，右边是图片是基于垫图和提示词生成的图片。

可以看到，文字根本是混乱的。

这个痛点强如 Midjourney 也无法解决，这是由于文字的特殊性。

就说汉字，书体有篆书、隶书、楷书、行书、草书等，排列有从左往右、从右往左、从上往下等。

另外一种解决思路是，我们把文字也作为垫图之一，比如这张「龙年大吉」的图片：

生成结果：

这个方案似乎能走得通，但是很快又遇到麻烦，对于稍微复杂的字，生成效果就不行了，比如「甲辰臻祥」：

为了解决这个问题，加上时间的有限性，只能在产品层面做出改动，贺卡图片由模板 + 主体图片组成，模板提前预制，主体图片则由 AI 生成，不包含文字：

另外一个问题，就是涉及到人物，像手部、面部比较复杂的内容时，生成效果较差，如下小女孩的手部：

这个解决方案较多：

有了如上的探索，我们终于开始我们的乘法之路。

首先是选定关于新年的元素（Element），比如龙、财神爷、灯笼、白鹤等元素。

其次是风格（Style），我们探索了十多种 Stable Diffusion 生成的风格：

Stable Diffusion 稳如老狗，各种风格都驾驭得住。

通过 $Element \times Style$ ，我们为每一个元素生成对应的风格图片。

乘法的力量是不言而喻的，在几周时间，我们为了贺卡小程序生成了上万张图片。

AIGC 之前，这绝对实现不了，能做的，只是加法，并且还需要专业的设计师。

假设一个设计师 5 分钟出一张图，一万张图片，不眠不休，至少要 34 天：

10000 \times 5 \div 60 \div 24 = 34.7222222222

这种人力成本、时间成本，一下子就被 AI 打下来了。

目前 AI 还处于早期阶段，相信随着时间推移，AI 能力会更强，应用的场景会更广，拭目以待。

目前小程序也以及正式上线，名字很有年味，叫做「画年」

操作简单，选择一个钟意的模板，一键生成：

如果不满意，可以调整配图 or 祝福语：

如果你有拜年贺卡需求，不妨体验一下这款小程序，目前免费使用。