开源,生图格局迎来巨变
就在刚刚,StableDiffusion3Medium如约而至。
几天前,StabilityAI在社交平台X上官宣,SD3Medium将在6月12日正式开源。
这一次,没有跳票,它是真的来了。
20亿参数大小,笔记本也能玩转SD3Medium
据StabilityAI官方博客介绍,SD3Medium模型包含20亿个参数,能够生成更高质量、更细腻的图像。
得益于模型较小的尺寸,SD3Medium尤其适合在消费类PC和笔记本电脑以及企业级GPU上运行。
SD3Medium特点如下:
克服常见的手部和面部瑕疵,无需复杂工作流程即可提供高质量图像。
理解涉及空间关系、构图元素、动作和风格的复杂提示。
在生成文本方面取得前所未有的成果,无人工痕迹和拼写错误。
低VRAM占用,适用于标准消费级GPU,也不会降低性能。
能够从小数据集吸收细微细节,使其非常适合定制。
在训练SD3Medium上,StabilityAI花了不少心思。
据介绍,StabilityAI采用合成数据和筛选过的公开数据来训练模型。
StabilityAI在10亿张图片上进行了预训练。微调数据集包含3000万张针对特定视觉内容和风格的高质量美学图片,以及300万张基于偏好的数据图片。
像所有模型一样,该模型有时也会「三观不正」,输出生成一些不准确、有偏见或有害的内容。
为此,StabilityAI对SD3Medium做了很多检查工作,包括让专业团队(像红队测试那样)从内外部找问题。
在训练模型时,StabilityAI给AI用的数据也都是精心挑选过的。
StabilityAI还特别强调,所有使用者都得遵守SD3Medium的使用规则,按照自己产品的要求和规定来设置防护措施,防止传播不良内容。
附上HuggingFace项目地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium
AI生图迎来史诗级进化,网友玩疯了
第一波下载模型的网友已经开始玩疯了。
X用户@recatm让SD3Medium生成的骷髅头,光影效果处理得当,明暗对比也拉满了。
在他看来,SD3Medium还解决了两大难题,一是色彩过猛、对比度太狠,以往逼真肖像分分钟变「辣眼照」的尴尬,二是解决了jpg伪影、像素渣和糊一脸的朦胧美等问题。
向左滑动查看更多内容
老人脸上的褶子和衣服的质感,细腻得让人想伸手去摸一摸,很难让人相信这居然是AI生成的,
冰块与阳光的浪漫邂逅,晶莹透亮,美得让人心颤,仿佛每一缕光线都是大自然的调色盘。
轮廓的鲜明、色彩的巧妙搭配,狮子像素画在有限的像素中达到了尚可的表现力。
网友@toyxyz3分享的照片更是直观地展示了StableDiffusion模型的进化轨迹,不过,各花入各眼,相比之下,你更喜欢哪个版本生成的图片。
StabilityAI官方也在博客中晒出了一些SD3Medium的得意之作。
从样张中也可以看到,生成的图片具有极高的逼真度,色彩搭配十分和谐,几乎可以与真实拍摄的照片相媲美。
又比如,以前生成图片文字足以让人头大,但点满文字渲染技能的SD3Medium,也不再轻易「乱码」了。
开源界的英雄,却成了最先倒下的明星公司?
从SDXL、StableAudio、StableVideo,再到今天升级的SD3Medium,在过去的一年里,StabilityAI发布的产品可谓是一波接一波。
但与产品稳定的发布节奏截然相反的是,这家公司的技术团队动荡不断,高层及技术人才像走马灯似地换。
全球最大AI开源社区HuggingFace首席执行官曾预言,2024年某个当红的AI公司会破产,或者以极低的价格被收购。
现在,几乎大部分人都认为StabilityAI最有可能成为这个应验者。
说到这儿,就不能不提一嘴StabilityAI的前CEOEmadMostaque。
Mostaque的上份职业是对冲基金经理,大部分时间在搞石油交易,虽然拥有计算机科学学位,但之前从未创办或入职科技公司,还有说大话和抢功劳的毛病。
比如,他在融资时将亚马逊称为「战略合作伙伴」,其实两者只是普通的甲乙方。
他说Stability正在为数十家客户构建定制AI模型,但被问到具体的名字时,只透露了一家印度控股公司和一个非洲国家。
更迷的是,明明公司已经资金困难,Mostaque和他曾经担任公关主管的妻子,与公司财务之间的关系还不清不楚。
而出走StabilityAI后,Mostaque又开始了新的创业项目,业务方向将集中在政务、医疗保健和教育,他介绍道「将大模型想象为一名毕业生——你仍然需要对他们进行工作培训。」
高管和人才走得走、散得散,StabilityAI自己能不能稳住阵脚,仍是个未知数。但今天的主角SD3Medium也用实际行动给外界一个响亮的回答。
要知道,在这AI圈子里,一开始大家都爱听故事,梦想、未来啥的随便聊,瑕疵也能睁一只眼闭一只眼。
但现在光靠画大饼可不够,得拿出真本事,才能让投资者心甘情愿掏腰包,
StabilityAI依然称得上开源英雄,开源,生图格局迎来巨变但跟Midjourney一比,日子过得紧巴巴的,这也是目前开源模型所面临的窘境。
开源虽美,但公司得先生存,才能谈发展嘛。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。