男同 表情包 “经营机视觉被GPT-4o闭幕了”(狗头)
今夜之间男同 表情包,CV 被大模子"处理"了(狗头)。
万物皆可吉卜力之后,GPT-4o 原生多模态图像生成更多玩法被开荒出来。
一个男友回头相貌包,不错秒变语义分割图。
也不错秒变深度图。
这下不光上一代 AI 绘制用具和假想师,经营机视觉接头员也哭晕在茅厕了。
这是 NASA 前工程师测试特斯拉自动驾驶系统的伪装"隐形墙",在 GPT-4o 眼前也无所遁形。
这下 OpenAI 欺诈接头掌握 Boris Power 如故把脑筋动到了自动驾驶,称只需要考试最弘远的基础模子,然后微调。
3D 渲染鸿沟也惨遭辣手,GPT-4o 不错生成 PBR 材质(基于物理渲染的材质),纹理、法线贴图等平直来一套。
关于这些能力,也有东谈主合计没什么大不了的,Stable Diffusion + ControlNet 就不错全部驱散。
但不成否定,靠扩大基础模子鸿沟就能作念到,亦然令东谈主出东谈主预思的。
这波 GPT-4o 原生图像生成的时间细节,OpenAI 是极少也莫得公布(粗节也莫得公布)。
但照旧有东谈主从 System Card 中发现了蛛丝马迹。
与 DALL · E 是一个扩散模子不同,GPT-4o 图像生成是原生镶嵌在 ChatGPT 内的自回来模子。
还有东谈主不雅察图像的生成经过,发现很可能是多圭臬自回来的组合,先生成一个狡猾的图像,填充细节的同期,狡猾图形本人也在变化。
自回来模子凭据之前的像素或 patch 展望下一个像素或 patch,取得更好地革职请示,以及图像裁剪的能力。
网曝黑料但也有东谈主援用发 OpenAI 职工 Allan Jabri 晒出的板书图,建议在解码阶段仍然有可能用了扩散模子。
针对这一猜思,更具体的驱漫动作不错参考 Meta 等 24 年 8 月的一篇论文:使用一个多模态模子同期展望展望下一个 token 和扩散图像。
临了,微信评述区能发图片了,接待全球把更多 GPT-4o 意旨玩法晒出来~
GPT-4o Native Image Generation System Card
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
https://arxiv.org/abs/2408.11039v1
参考连络:
[ 1 ] https://x.com/fofrAI/status/1905289275316326679
[ 2 ] https://x.com/a_karvonen/status/1905372299814932963
一键三连「点赞」「转发」「防卫心」
接待在评述区留住你的思法!
— 完 —
速抢席位!中国 AIGC 产业峰会不雅众报名通谈已开启 � � ♀️
首批嘉宾曝光啦 � � 百度、无问芯穹、数势科技、生数科技、像素灵通等十数位 AI 鸿沟创变者将王人聚峰会,让更多东谈主用上 AI、用好 AI,与 AI 一同加快成长~
4 月 16 日,就在北京,一齐来深度求索 AI 如何用 � �
� � 一键星标 � �
科技前沿明白逐日见男同 表情包