{
"title": "简述AIGC",
"tags": [
"post",
"AIGC",
"AI",
"AI作画"
],
"sources": [
"xlog"
],
"external_urls": [
"https://kerronex.xlog.app/jian-shu-AIGC"
],
"date_published": "2023-03-24T09:20:00.000Z",
"content": "**AIGC(AI Generated Content)** 是由 AI 生成的内容,其特点是自动化生产、高效。\n\n这个是最近流行起来的词,随着自然语言生成技术 NLG 和 AI 模型的成熟,AIGC 逐渐受到大家的关注,**目前已经可以自动生成文字、图片、音频、视频,甚至 3D 模型和代码**。\n\n## 发展\n\n目前来看内容的发展可划分四个阶段:\n\n1. 专家生成内容(Professionally-Generated Content,PGC)\n2. 用户生成内容(User-Generated Content,UGC)\n3. AI 辅助生产内容(AI-assisted Generated Content)\n4. AI 生成内容(AI-Generated Content,AIGC)\n\n目前我们仍处于一、二阶段为主,第三阶段为辅的境况。\n\n## 商业化\n\n商业化是非常重要的,商业化越顺利才越有动力去研究发展,当然理论层面的也具有一定的意义,能具体落地那就会极大加速其技术的发展进程,目前 AIGC 有 3 个商业化的方向:\n\n### 通过 AI 生成文字\n\n比如自动写邮件和广告营销文案,这要归功于 OpenAI 的 GPT-3 AI 语言模型,目前大多数 AI 生成文字类项目都使用该模型(GPT-4 已发布,并且预计今年发布 GPT-5,注意关注这个迭代速度)。\n\n前段时间爆火的 ChatGPT 目前来看商业化进行的不错,算是安全着陆了,后面估计发展会更加迅速,这种先发优势一旦发展起来就很难追赶,上来就对搜索引擎开刀,也难怪 Google 都慌了。\n\n文字方面应该不需要多说,ChatGPT 的火爆出现了大量的相关文章视频,着实给科普了一把。\n\n说到这,下面是官方给的 GPT-3 的训练资料语言的占比,**简体中文占比 0.02%**,再看看我们这人口大国,就很。。。中文互联网已死(现在是内容农场的天下啦!)。\n即使如此,ChatGPT 对于中文问题的回答质量却意外的高,快谢谢 GPT 隐式学到的翻译能力。\n\n![image](ipfs://bafybeidgj4uafyg5lseepmubkqsh67dyllk74k4wbcpldqi2grcrvvwyxi)\n\n\n### 利用AI作图\n\n主要技术是结合多模态神经语言模型 CLIP 和图像去躁扩散模型 Diffusion,仅仅提供一些关键词描述就可以自动生成图片。\n\n目前这个方向有火的趋势,有可能是下一个 ChatGPT,还记得应该是去年吧,**NovelAI** 泄漏导致的二次元作画狂潮。\n\n关于这个下面我会贴一下它的发展给各位参考;\n\n目前来说,**Stable Diffusion 是目前普通用户的主流**,最近很火的一个 LoRA 是 **Chilloutmix**,感兴趣的可以去了解一下,B 站一搜一大把,可以看看现在的 AI 作图发展到什么地步了。\n商业化方案那无疑是 midjourney。\n\n### AIGC的底层技术模型开发\n\nOpenAI 和 StableAI 是这个方向的龙头,也是融资金额最大的。\n\nOpenAI 背后有微软,据说给了很多的算力资源,为此不惜裁撤自己的部门,算力确实是一个很关键的问题,说白了还是高端芯片。\n\nGoogle 表示有点难受,明明是最多 AI 专利的拥有者之一,很多底层方案也是 Google 开源,但是实际落地上就是干不过人家,也许这就是大公司的通病。\n\n## AI 作图发展\n\n### 早期突破\n\n2014 年,对抗生成网络(GAN)诞生,真正“教会” AI 自己画画。\n\nGAN 包含两个模型,一个是生成网络 G、一个是判别网络 D。G 负责把接收到的随机噪声生成图片,D 则要判断这张图是 G 画的、还是现实世界就存在的。\n\nG、D 互相博弈,能力也不断提升,而当 D 不再能判断出 G 生成的图片时,训练就达到了平衡。\n\nGAN 的开创性在于,精巧地设计了一种“自监督学习”方式,跳出了以往监督学习需要大量标签数据的应用困境,可以广泛应用于图像生成、风格迁移、AI 艺术和黑白老照片上色修复。\n\n但其缺陷也正来源于这一开创性:由于需要同步训练两个模型,GAN 的稳定性较差,容易出现模式崩溃。以及另一个有趣的现象“海奥维提卡现象”(the helvetica scenario):如果 G 模型发现了一个能够骗过 D 模型的bug,它就会开始偷懒,一直用这张图片来欺骗 D,导致整个平衡的无效。\n\n模型也会躺平,这鸡贼的特性,真是有人的风格。\n\n### 大幅提升\n\n2020 年,一篇关于扩散模型(Diffusion Model)的学术论文,大幅提升 AI 的画画水平。\n\n扩散模型的原理是“先增噪后降噪”。首先给现有的图像逐步施加高斯噪声,直到图像被完全破坏,然后再根据给定的高斯噪声,逆向逐步还原出原图。当模型训练完成后,输入一个随机的高斯噪声,便能“无中生有”出一张图像了。\n\n这样的设计大大降低了模型训练难度,突破了 GAN 模型的局限,在逼真的基础上兼具多样性,也就能够更快、更稳定的生成图片。\n\n扩散模型在AI业界的“起飞”源于 2021 年 1 月,Open AI 基于此开发出 DALL-E 文字生成图片模型,能够生成接近真实生活但并不真实存在的图片,让 AI 业界震了三震。但由于在像素空间进行了大量计算,这一模型仍存在进程缓慢、内存消耗大的缺陷。\n\n### 批量生产\n\n2022 年夏天诞生的 Stable Diffusion,让高大上的学术理论变得“接地气”。\n\n去年8月,Stability AI 将扩散过程放到更低维度的潜空间(Latent Diffusion),从而开发出了 Stable Diffusion 模型。这个模型带来的提升,在于资源消耗大幅降低,消费级显卡就可以驱动的(建议显存 6G+),可以操作也更为方便,普通人也可以体会到人工智能惊艳的创作能力。\n\n而且开发团队还把所有代码、模型和权重参数库都进行了开源(~~有的抄了~~)。\n\n### 相关资源\n> 注意:部分资源不适宜上班时间浏览,NSFW 警告。\n> 会写 Prompt 才是核心竞争力,配合 ChatGPT 不错的效果。\n\n热门:Stable Diffusion + Chilloutmix + Koreandolllikeness\n\n社区方面:\n- https://huggingface.co\n- https://civitai.com\n- https://prompthero.com\n\n配套:\n- [stable-diffusion-webui](https://github.com/AUTOMATIC1111/stable-diffusion-webui)\n- [低成本体验生成 AI 小姐姐照片](https://medium.com/@croath/%E4%BD%8E%E6%88%90%E6%9C%AC%E4%BD%93%E9%AA%8C%E7%94%9F%E6%88%90-ai-%E5%B0%8F%E5%A7%90%E5%A7%90%E7%85%A7%E7%89%87-85ffa7c13cd7)\n- https://replicate.com/pharmapsychotic/clip-interrogator\n\n最近 bing 也公布了它的作画:https://www.bing.com/create ,体验后还不错的样子。\n\n最后,搭建环境麻烦?本地算力不够?\n可以试试白嫖 Google 的 colab,这个就自己摸索吧。\n不过也有一些人分享了一键运行脚本,关键词:\n- sd-1click-colab\n- NovelAILeaks API Backend (4chan Ver.)\n\n## 关于语音\n\n语音这方面我不确定现在很成熟的文字转语音技术算不算 AI,但确实是越来越自然,也已经大规模的商业化使用中,对于模仿感兴趣的可以参考 Real-Time Voice Cloning 和 MockingBird,号称只要 5 秒音源就可以模拟你的声音。\n\n因为它相对来说很成熟了,所以诈骗等灰产都用上了,之后要跟家里老人嘱咐电话声音不可信。\n\n## 关于从业者\n\n上述技术的发展必然会给我们的工作带来一定的影响,未来相关的行业必然不会需要太多的人工,现在的文字、绘图等相关的从业者一定要与时俱进,有句话说的好,AI 不是要淘汰所有的从业者,而是优化掉不会使用 AI 的从业者。\n\n举个例子,ChatGPT 可以极大提高你的效率,但是前提是你要会提问,能够提出或者描述好一个问题。\n前面说过现在很火的根据描述生成图片的,最难的是那些 prompt 应该怎么选,据说这种关键词职位有极高的薪资。\n\n但愿新的一轮潮流我们不要闭关锁国,不要继续落后。\n\n这些 AI 工具尝试过就知道,确实是可以显著提高生产力,也有人说 AI 的奇点已经到来,之后的 AI 发展会是指数级别的。\n\n## 碎碎念\nOpenAI 真的很牛逼,但是也不是每条路都顺利,就比如在 AI 作图上,虽然率先提出了 Diffusion Model,并且也有自己的产品 DALL-E,但是终究还是让 Stable Diffusion 成为主流,也许这就是一个开放环境带来的竞争力。\n\n在这个中文互联网极度糟糕的环境下,一个个都是信息孤岛,所谓的互联网根本看不到互联,看到的只是互相屏蔽,疯狂引流 App;\nChatGPT 的出现带来了一丝转机,对于英文渣,终于可以摆脱恶心的关不掉的弹窗、嵌入广告、登陆 / 关注 / 付费后查看低质量文章,摆脱这种『特色』,提高自己的效率。\n\n我国的 AI 技术储备其实也很厉害,只不过我们的技能树应该主要点在了人脸识别,舆情等方向。\n\n另一个有意思的方面,AI 作画越来越有真实感,可能会重新洗牌福利姬类似的灰色产业,毕竟相比之下毫无竞争力。\n\n对于视频的生成,也有很多人在做了,最近就刷到一些,还有实时替换人脸(DeepFaceLive)等等有趣的东西。\n\n## 参考\n- https://36kr.com/p/2111870770153858",
"attributes": [
{
"value": "jian-shu-AIGC",
"trait_type": "xlog_slug"
}
]
}