Note-51478-5

Token ID: 1

ERC-721 1 Transfers
Metadata

{
  "title": "简述AIGC",
  "tags": [
    "post",
    "AIGC",
    "AI",
    "AI作画"
  ],
  "sources": [
    "xlog"
  ],
  "external_urls": [
    "https://kerronex.xlog.app/jian-shu-AIGC"
  ],
  "date_published": "2023-03-24T09:20:00.000Z",
  "content": "**AIGC（AI Generated Content）** 是由 AI 生成的内容，其特点是自动化生产、高效。\n\n这个是最近流行起来的词，随着自然语言生成技术 NLG 和 AI 模型的成熟，AIGC 逐渐受到大家的关注，**目前已经可以自动生成文字、图片、音频、视频，甚至 3D 模型和代码**。\n\n## 发展\n\n目前来看内容的发展可划分四个阶段：\n\n1. 专家生成内容（Professionally-Generated Content，PGC）\n2. 用户生成内容（User-Generated Content，UGC）\n3. AI 辅助生产内容（AI-assisted Generated Content）\n4. AI 生成内容（AI-Generated Content，AIGC）\n\n目前我们仍处于一、二阶段为主，第三阶段为辅的境况。\n\n## 商业化\n\n商业化是非常重要的，商业化越顺利才越有动力去研究发展，当然理论层面的也具有一定的意义，能具体落地那就会极大加速其技术的发展进程，目前 AIGC 有 3 个商业化的方向：\n\n### 通过 AI 生成文字\n\n比如自动写邮件和广告营销文案，这要归功于 OpenAI 的 GPT-3 AI 语言模型，目前大多数 AI 生成文字类项目都使用该模型（GPT-4 已发布，并且预计今年发布 GPT-5，注意关注这个迭代速度）。\n\n前段时间爆火的 ChatGPT 目前来看商业化进行的不错，算是安全着陆了，后面估计发展会更加迅速，这种先发优势一旦发展起来就很难追赶，上来就对搜索引擎开刀，也难怪 Google 都慌了。\n\n文字方面应该不需要多说，ChatGPT 的火爆出现了大量的相关文章视频，着实给科普了一把。\n\n说到这，下面是官方给的 GPT-3 的训练资料语言的占比，**简体中文占比 0.02%**，再看看我们这人口大国，就很。。。中文互联网已死（现在是内容农场的天下啦！）。\n即使如此，ChatGPT 对于中文问题的回答质量却意外的高，快谢谢 GPT 隐式学到的翻译能力。\n\n![image](ipfs://bafybeidgj4uafyg5lseepmubkqsh67dyllk74k4wbcpldqi2grcrvvwyxi)\n\n\n### 利用AI作图\n\n主要技术是结合多模态神经语言模型 CLIP 和图像去躁扩散模型 Diffusion，仅仅提供一些关键词描述就可以自动生成图片。\n\n目前这个方向有火的趋势，有可能是下一个 ChatGPT，还记得应该是去年吧，**NovelAI** 泄漏导致的二次元作画狂潮。\n\n关于这个下面我会贴一下它的发展给各位参考；\n\n目前来说，**Stable Diffusion 是目前普通用户的主流**，最近很火的一个 LoRA 是 **Chilloutmix**，感兴趣的可以去了解一下，B 站一搜一大把，可以看看现在的 AI 作图发展到什么地步了。\n商业化方案那无疑是 midjourney。\n\n### AIGC的底层技术模型开发\n\nOpenAI 和 StableAI 是这个方向的龙头，也是融资金额最大的。\n\nOpenAI 背后有微软，据说给了很多的算力资源，为此不惜裁撤自己的部门，算力确实是一个很关键的问题，说白了还是高端芯片。\n\nGoogle 表示有点难受，明明是最多 AI 专利的拥有者之一，很多底层方案也是 Google 开源，但是实际落地上就是干不过人家，也许这就是大公司的通病。\n\n## AI 作图发展\n\n### 早期突破\n\n2014 年，对抗生成网络（GAN）诞生，真正“教会” AI 自己画画。\n\nGAN 包含两个模型，一个是生成网络 G、一个是判别网络 D。G 负责把接收到的随机噪声生成图片，D 则要判断这张图是 G 画的、还是现实世界就存在的。\n\nG、D 互相博弈，能力也不断提升，而当 D 不再能判断出 G 生成的图片时，训练就达到了平衡。\n\nGAN 的开创性在于，精巧地设计了一种“自监督学习”方式，跳出了以往监督学习需要大量标签数据的应用困境，可以广泛应用于图像生成、风格迁移、AI 艺术和黑白老照片上色修复。\n\n但其缺陷也正来源于这一开创性：由于需要同步训练两个模型，GAN 的稳定性较差，容易出现模式崩溃。以及另一个有趣的现象“海奥维提卡现象”（the helvetica scenario）：如果 G 模型发现了一个能够骗过 D 模型的bug，它就会开始偷懒，一直用这张图片来欺骗 D，导致整个平衡的无效。\n\n模型也会躺平，这鸡贼的特性，真是有人的风格。\n\n### 大幅提升\n\n2020 年，一篇关于扩散模型（Diffusion Model）的学术论文，大幅提升 AI 的画画水平。\n\n扩散模型的原理是“先增噪后降噪”。首先给现有的图像逐步施加高斯噪声，直到图像被完全破坏，然后再根据给定的高斯噪声，逆向逐步还原出原图。当模型训练完成后，输入一个随机的高斯噪声，便能“无中生有”出一张图像了。\n\n这样的设计大大降低了模型训练难度，突破了 GAN 模型的局限，在逼真的基础上兼具多样性，也就能够更快、更稳定的生成图片。\n\n扩散模型在AI业界的“起飞”源于 2021 年 1 月，Open AI 基于此开发出 DALL-E 文字生成图片模型，能够生成接近真实生活但并不真实存在的图片，让 AI 业界震了三震。但由于在像素空间进行了大量计算，这一模型仍存在进程缓慢、内存消耗大的缺陷。\n\n### 批量生产\n\n2022 年夏天诞生的 Stable Diffusion，让高大上的学术理论变得“接地气”。\n\n去年8月，Stability AI 将扩散过程放到更低维度的潜空间（Latent Diffusion），从而开发出了 Stable Diffusion 模型。这个模型带来的提升，在于资源消耗大幅降低，消费级显卡就可以驱动的（建议显存 6G+），可以操作也更为方便，普通人也可以体会到人工智能惊艳的创作能力。\n\n而且开发团队还把所有代码、模型和权重参数库都进行了开源（~~有的抄了~~）。\n\n### 相关资源\n> 注意：部分资源不适宜上班时间浏览，NSFW 警告。\n> 会写 Prompt 才是核心竞争力，配合 ChatGPT 不错的效果。\n\n热门：Stable Diffusion + Chilloutmix + Koreandolllikeness\n\n社区方面：\n- https://huggingface.co\n- https://civitai.com\n- https://prompthero.com\n\n配套：\n- [stable-diffusion-webui](https://github.com/AUTOMATIC1111/stable-diffusion-webui)\n- [低成本体验生成 AI 小姐姐照片](https://medium.com/@croath/%E4%BD%8E%E6%88%90%E6%9C%AC%E4%BD%93%E9%AA%8C%E7%94%9F%E6%88%90-ai-%E5%B0%8F%E5%A7%90%E5%A7%90%E7%85%A7%E7%89%87-85ffa7c13cd7)\n- https://replicate.com/pharmapsychotic/clip-interrogator\n\n最近 bing 也公布了它的作画：https://www.bing.com/create ，体验后还不错的样子。\n\n最后，搭建环境麻烦？本地算力不够？\n可以试试白嫖 Google 的 colab，这个就自己摸索吧。\n不过也有一些人分享了一键运行脚本，关键词：\n- sd-1click-colab\n- NovelAILeaks API Backend (4chan Ver.)\n\n## 关于语音\n\n语音这方面我不确定现在很成熟的文字转语音技术算不算 AI，但确实是越来越自然，也已经大规模的商业化使用中，对于模仿感兴趣的可以参考 Real-Time Voice Cloning 和 MockingBird，号称只要 5 秒音源就可以模拟你的声音。\n\n因为它相对来说很成熟了，所以诈骗等灰产都用上了，之后要跟家里老人嘱咐电话声音不可信。\n\n## 关于从业者\n\n上述技术的发展必然会给我们的工作带来一定的影响，未来相关的行业必然不会需要太多的人工，现在的文字、绘图等相关的从业者一定要与时俱进，有句话说的好，AI 不是要淘汰所有的从业者，而是优化掉不会使用 AI 的从业者。\n\n举个例子，ChatGPT 可以极大提高你的效率，但是前提是你要会提问，能够提出或者描述好一个问题。\n前面说过现在很火的根据描述生成图片的，最难的是那些 prompt 应该怎么选，据说这种关键词职位有极高的薪资。\n\n但愿新的一轮潮流我们不要闭关锁国，不要继续落后。\n\n这些 AI 工具尝试过就知道，确实是可以显著提高生产力，也有人说 AI 的奇点已经到来，之后的 AI 发展会是指数级别的。\n\n## 碎碎念\nOpenAI 真的很牛逼，但是也不是每条路都顺利，就比如在 AI 作图上，虽然率先提出了 Diffusion Model，并且也有自己的产品 DALL-E，但是终究还是让 Stable Diffusion 成为主流，也许这就是一个开放环境带来的竞争力。\n\n在这个中文互联网极度糟糕的环境下，一个个都是信息孤岛，所谓的互联网根本看不到互联，看到的只是互相屏蔽，疯狂引流 App；\nChatGPT 的出现带来了一丝转机，对于英文渣，终于可以摆脱恶心的关不掉的弹窗、嵌入广告、登陆 / 关注 / 付费后查看低质量文章，摆脱这种『特色』，提高自己的效率。\n\n我国的 AI 技术储备其实也很厉害，只不过我们的技能树应该主要点在了人脸识别，舆情等方向。\n\n另一个有意思的方面，AI 作画越来越有真实感，可能会重新洗牌福利姬类似的灰色产业，毕竟相比之下毫无竞争力。\n\n对于视频的生成，也有很多人在做了，最近就刷到一些，还有实时替换人脸（DeepFaceLive）等等有趣的东西。\n\n## 参考\n- https://36kr.com/p/2111870770153858",
  "attributes": [
    {
      "value": "jian-shu-AIGC",
      "trait_type": "xlog_slug"
    }
  ]
}