轩辕春秋文化论坛 - Powered by Discuz! Board

标题: 关于ai形象的探索 [打印本页]

作者: 普罗_puluo 时间: 2024-4-17 18:42 标题: 关于ai形象的探索

前段时间玩了玩网上公开的ai模型，发现头像和地图的生成效果较好，而形象基本上没有端倪。后来想了下，网上公开模型大部分都是扩散模型，不太适合搞像素，所以想尝试下对抗模型（GAN）。

最近在学校的服务器上手搭了一个styleGAN网络，来尝试一下ai生成形象的效果。（目前只是摸索阶段，尚无证据表明这条路可以走通）

一、styleGAN算法与网络结构：
使用的神经网络是styleGAN2-ada架构的变种，整体上服从卷积生成器-特征鉴别器的对抗架构。

GAN的训练过程如下：
[attach]150257[/attach]

①首先先从数据集中采样真实（人画）的形象图片去训练鉴别器，让鉴别器具备识别形象图片的能力
②生成器开始生成形象图片，初期生成的很差，会被鉴别器鉴定出是“生成的垃圾图”，从而督促生成器进化
③生成器进化后生成了比较优秀的形象图片，骗过了鉴别器的眼睛，从而督促鉴别器进化
④重复②~③的训练步骤，使得生成器和鉴别器协同、对抗进化，鉴别器眼睛越来越尖，生成器越来越会模拟形象，最终生成以假乱真的形象图

二、数据集：
凡事都要从最简单的阶段做起，首先尝试的是单帧形象生成，我一共取了12个mod的全部mov形象，去除了女性、工兵（如炮车辎重）、动物和全部旧比例形象，一共收集了5500张单帧形象。
普造：
[attach]150258[/attach]

特造：
[attach]150259[/attach]

三、实验概述：
硬件设备：Rtx4090 24G
python环境：3.9
训练轮数：1200轮
训练时长：5小时

四、生成结果：
[attach]150260[/attach]
[attach]150261[/attach]
[attach]150262[/attach]
[attach]150263[/attach]

----------------------------------------------分割线----------------------------------------------

五、多帧生成网络：
单帧比较稳定了之后，我尝试扩展到4帧训练（左、前、后、喘四帧）。
这里我对网络的结构做了一点调整，原初的鉴别器是直接对4帧合起来的图像进行鉴别，我这里又额外添加了一个单帧鉴别器分别对4帧单独进行鉴别。换言之，现在的鉴别器是一个合体图像鉴别器一个单帧图像鉴别器。
[attach]150276[/attach]
合体鉴别器是为了保证生成的4个形象分别是左、前、后、喘四个状态，单帧鉴别器是为了保证四个状态中的每个形象都像人。

六、数据集：
将每个形象的左、前、后、喘四帧拼接起来：
[attach]150264[/attach]

七、生成结果：

[attach]150265[/attach]
[attach]150266[/attach]
[attach]150267[/attach]
[attach]150268[/attach]
[attach]150269[/attach]
[attach]150270[/attach]
[attach]150271[/attach]
[attach]150272[/attach]

八、图生图
使用的是pixel2style2pixel神经网络，可以将图像降维到隐空间中，通过微量调整后再使用GAN生成，便可以实现形象的轻微编辑：

[attach]150273[/attach]
[attach]150274[/attach]
[attach]150275[/attach]

接下来是9帧的联合生成实验

未完待续………………………………………………………………………………

[ 本帖最后由普罗_puluo 于 2024-4-17 19:12 编辑 ]

图片附件: 0.png (2024-4-17 18:42, 52.7 K) / 该附件被下载次数 202
http://xycq.org.cn/forum/attachment.php?aid=150257

图片附件: 1.png (2024-4-17 18:47, 351.87 K) / 该附件被下载次数 213
http://xycq.org.cn/forum/attachment.php?aid=150258

图片附件: 2.png (2024-4-17 18:47, 304.46 K) / 该附件被下载次数 235
http://xycq.org.cn/forum/attachment.php?aid=150259

图片附件: fakes001140(1)(1).png (2024-4-17 18:42, 1.74 M) / 该附件被下载次数 267
http://xycq.org.cn/forum/attachment.php?aid=150260

图片附件: fakes001140(1)(2).png (2024-4-17 18:42, 1.75 M) / 该附件被下载次数 249
http://xycq.org.cn/forum/attachment.php?aid=150261

图片附件: fakes001140(1)(3).png (2024-4-17 18:42, 1.79 M) / 该附件被下载次数 228
http://xycq.org.cn/forum/attachment.php?aid=150262

图片附件: fakes001140(1)(4).png (2024-4-17 18:42, 1.75 M) / 该附件被下载次数 221
http://xycq.org.cn/forum/attachment.php?aid=150263

图片附件: 7.png (2024-4-17 18:42, 416.93 K) / 该附件被下载次数 232
http://xycq.org.cn/forum/attachment.php?aid=150264

图片附件: 0_res.jpg (2024-4-17 18:42, 650.67 K) / 该附件被下载次数 235
http://xycq.org.cn/forum/attachment.php?aid=150265

图片附件: 1_res.jpg (2024-4-17 18:42, 609.98 K) / 该附件被下载次数 215
http://xycq.org.cn/forum/attachment.php?aid=150266

图片附件: 2_res.jpg (2024-4-17 18:42, 638.5 K) / 该附件被下载次数 205
http://xycq.org.cn/forum/attachment.php?aid=150267

图片附件: 3_res.jpg (2024-4-17 18:42, 626.9 K) / 该附件被下载次数 210
http://xycq.org.cn/forum/attachment.php?aid=150268

图片附件: 4_res.jpg (2024-4-17 18:42, 626.39 K) / 该附件被下载次数 254
http://xycq.org.cn/forum/attachment.php?aid=150269

图片附件: 5_res.jpg (2024-4-17 18:42, 625.45 K) / 该附件被下载次数 248
http://xycq.org.cn/forum/attachment.php?aid=150270

图片附件: 6_res.jpg (2024-4-17 18:42, 611 K) / 该附件被下载次数 227
http://xycq.org.cn/forum/attachment.php?aid=150271

图片附件: 7_res.jpg (2024-4-17 18:42, 634.13 K) / 该附件被下载次数 231
http://xycq.org.cn/forum/attachment.php?aid=150272

图片附件: 20.png (2024-4-17 18:47, 61.72 K) / 该附件被下载次数 245
http://xycq.org.cn/forum/attachment.php?aid=150273

图片附件: 21.png (2024-4-17 18:47, 62.81 K) / 该附件被下载次数 213
http://xycq.org.cn/forum/attachment.php?aid=150274

图片附件: 22.png (2024-4-17 18:47, 120.74 K) / 该附件被下载次数 239
http://xycq.org.cn/forum/attachment.php?aid=150275

图片附件: 23.png (2024-4-17 19:09, 60.35 K) / 该附件被下载次数 195
http://xycq.org.cn/forum/attachment.php?aid=150276

作者: 普罗_puluo 时间: 2024-4-17 18:45

占楼，9帧的实验会放到该楼

因为筛选spc形象实在是太费眼了，所以这个实验的数据集一直还没做出来，搁置中………………

[ 本帖最后由普罗_puluo 于 2024-4-17 19:30 编辑 ]

作者: 普罗_puluo 时间: 2024-4-17 18:45

占楼，atk动作生成的实验会放到该楼

作者: 普罗_puluo 时间: 2024-4-17 18:46

占楼，形象生成的综合探究会放到该楼（有生之年）

作者: 59054695 时间: 2024-4-17 18:51

看来，以后，
【一分钟内，我要XXX形象】
不是梦

作者: 李老头 时间: 2024-4-17 19:45

幸事一件啊，刚好用上了时代前沿的生产力

作者: 苍龙决梨花乱 时间: 2024-4-17 21:01

想象过用ai创作形象，没想到大佬竟然真的在探索，还得是普罗大佬啊

不过这样有个问题：形象作者会允许自己的作品被拿来炼丹吗

作者: 普罗_puluo 时间: 2024-4-17 21:15 标题: 回复 #7 苍龙决梨花乱的帖子

现在还处于研究阶段，不会公布数据集也不会发布任何训练模型，暂时不涉及侵权的问题

如果有朝一日这条路走通了，申请授权的工作是肯定要做的（不过也是有生之年系列了）

作者: yjx814325116 时间: 2024-4-18 09:37

我草，罗！

作者: 531048020 时间: 2024-4-18 10:19

一代版本一代神带带版本信罗神

作者: 十里风波恶 时间: 2024-4-19 13:21

大佬牛掰

作者: 程军超 时间: 2024-4-19 14:38

导入头像，来生成S形象就牛掰了

作者: 神___ 时间: 2024-4-21 01:00 标题: 关于用AI图生图的效果与原图的对比

普罗大佬真厉害

向大佬学习

我好久没画图了，之前也一直在研究AI，在这方面能力我还太弱
也尝试过图生图效果，发现跟原画相比相差不大，
（用了洗隋录第8张画的原稿图与 AI图生图的对比）
也有可能是在AI探索和领悟不够深入，暂时先慢慢学起来，
随着科技不断深入，发现自身能力越来越弱，
现在也只能跟着时代慢慢前进……

[ 本帖最后由神___ 于 2024-4-21 01:12 编辑 ]

作者: 普罗_puluo 时间: 2024-4-21 03:58 标题: 回复 #13 神___ 的帖子

ai地图我也仅有一点探索，待我整理一个新帖？

作者: 落花逝流水 时间: 2024-7-28 09:17 标题: 人才呀。我要跪了哈

作者: szwd1997 时间: 2024-8-1 23:49

比较期待楼主的成果。

像头像ai很好可以解决，地图也不难，维度就是形象，就是不要求精美，目前也很难解决。

s稍微好点，r的女形象太少了。

作者: leo003 时间: 2024-9-9 16:11

准备常来此贴蹲守，蹲一蹲研究进度

作者: solyleo 时间: 2026-5-11 04:55

大佬居然24年就开始研究了，然而时至26年，AI画像素图尤其是曹操传这种低像素的，依然是个大问题。

看来真的是有生之年了，哈哈

欢迎光临轩辕春秋文化论坛 (http://xycq.org.cn/forum/)