开云体育官方网站 - KAIYUN

开云体育官方网站 实测千问新模子, 阿里作念了个最懂华文的AI画师。

发布日期:2026-02-12 22:32    点击次数:191

开云体育官方网站 实测千问新模子, 阿里作念了个最懂华文的AI画师。

提到这两年的AI生图开云体育官方网站,全球最大的体感念到即是变化。最运转画手指都会劈腿,但现时许多AI生成的图片如故真假难辨了。

尽管图像才气越来越逆天,但在有些细节上AI依然会穿帮。比如笔墨,越过是华文。

对于AI生图模子来说,淌若汉字渲染污蔑成鬼画符、二次剪辑时也不行控,本来好的所在也被改坏了,这么的AI离信得过的出产力器用确乎还差了语气。

不外,就在2月10日,阿里巴巴推出了千问大模子系列的最新图像生成大模子,Qwen-Image-2.0开云体育官方网站。作为千问大模子最新的生图底座,它不仅能直出2K高清图、赈济1KToken的超长指示,还有个最关节的特色是,它懂华文。

在巨擘的AIArena测评中,Qwen-Image-2.0在文生图领域踏进Top3,图生图领域位列Top2,看上去跟谷歌NanoBananaPro等海外最强模子也能掰掰手腕。

那么,这个新模子到底是真能打,照旧PPT战神?

为了考据它的才气,咱们径直从汉字生成、复杂排版、高清修图到逻辑连贯性四个维度进行深度测评,带全球一探究竟。

先从此次主打的汉字生成上提及,在以往的AI生图模子中,生成英文单词尚且不时拼写失实,更遑论结构复杂、笔画粘稠的汉字。

咱们率先从基本的书道撰写上运转,要求不同的模子为咱们展示楷书书道,教唆词如下:

长条宣纸竖直在深棕色古朴桌子上,从上到下写着:“凌空踏虚,难成干秋之业”,左侧从上到下写:“求真求实,方能善作善成”,左下是一个红色钤记。摆布放着砚台和羊毫,低光照,低曝光,冷色调,字体为楷体书道,字体大小保持一致,章法严谨。

从图片恶果上来看,Qwen-Image-2.0模子率先对纸张的质感,桌面的细节描摹都相等传神,笔墨上也莫得出现贴图感,与图像交融的可以,钤记的潦倒恶果也很确认。

对比NanoBananaPro,后者在书道的墨色质感上更胜一筹,但把千字写成了干,教唆词中要求的字体一致也莫得保持住,而是把第二句话当成了书道正文后的题名。

热身收场,咱们赓续测试笔墨生成的重头戏,要求Qwen-Image-2.0模子渲染王羲之的《兰亭集序》,即从“永和九年”到“亦将有感于端淑”的324字全文。

与此同期,咱们也生成了两幅NanoBananaPro的版块进行对比。

先看谷歌Gemini的NanoBananaPro,生成文本天然相对明晰,但贴图感比较重;在第三方平台调用NanoBananaPro的API生成时,发现画面十分细巧,但汉字的细节如故所有崩溃了。

执行上,据建造团队高慢,在千问Image-1.0时期他们团队就曾尝试过这一挑战,但以失败告终。而在Qwen-Image-2.0的测试中,戒指却相等令东说念主战抖。

模子不仅将全文基本正确地渲染出来,由于字体填塞明晰,一些字上你也概况看出王羲之书道的影子,反不雅NanoBananaPro则是用了字库的正楷字体。

在字体生成和长文本上暴露可以,那淌若把文本换成其他笔墨呢,咱们让模子尝试把绢本的红楼梦判语更换成不同东说念主物及书体,来测试模子的文本剪辑才气。

比如这是用Qwen-Image-2.0生成的林黛玉判语图,领受行楷字体,看起来相等精采。

而当我让Qwen-Image-2.0把这张图中东说念主物及判语改成李逵时,模子自动采选了更逼近东说念主物秉性的粗体正楷,kaiyun体育app色彩管制保留了林黛玉的心理。

除了字体上的优秀暴露,Qwen-Image-2.0此次还主打了“多”的意见——字多、话多、教唆词多。

旨趣很淘气,生成一张好意思瞻念的征象图容易,但要生成一张带数据、带逻辑、排版复杂的交易PPT,曾是AI的恶梦。

为了测试Qwen-Image-2.0能否胜任复杂排版的交易PPT需求,咱们找了一段对于天外算力贬责决策的综述,一齐作为教唆词输入进去,教唆词长达1400个字,要求左中右三栏布局,包含大都笔墨、绿色进程条、折线图、柱状图。

从戒指上看,天然PPT无法径直分层剪辑,但图中的进程条、折线图、柱状图,看起来都作念的很邃密无比。一些小字,放大后依然明晰尖锐,莫得涓滴虚化。这收获于模子对小物体和笔墨细节的极致描绘才气。

此外,咱们还发现Qwen-Image-2.0在排版和盘算推算上也有我方的巧念念。

这是咱们要求模子生成的12幅杭州好意思景水彩画海报,可以看到,Qwen-Image-2.0对海报的标题有益作念了色泽处理,还加多了晕染恶果,而在教唆词中并莫得要求这一丝。

说到现实景点,Qwen-Image-2.0此次也主打2K高清影像,并能生成更逼近真实的。

但这种高清能作念到什么地步呢,咱们测试了天然界复杂纹理,要求模子生成丛林里的变色龙,以及触摸树叶的穿毛衣女孩。

可以看到,对于变色龙鳞片,眼部细节,蕨类植物的细节,还有毛衣的毛绒感,东说念主物手部的红润气色,模子都把抓得相等纯碎。要不标注AI生成的话,确乎很容易把它当成是真实的照相作品。

历史上第2026010期排列三已开出22期奖号了,历年同期奖号分别为:227、416、538、453、284、862、929、917、039、688、416、862、823、261、167、425、011、743、648、888、281、143,详细统计见下表:

一、直选248分析:排列三最近3期分别开出直选号码:126历史出现次数为6次、509历史出现次数为6次、248历史出现次数为5次,kaiyun sports本期注意历史上已开出6次左右的直选号码。

再比如,要求模子生成朔方农村冬宇宙雪后的春节场景,戒指也相等传神,积雪、结冰河面、植物和墙体的结霜,不同物资的反光恶果都有筹商到。

另一个细节是,有在乡村生存过的东说念主都知说念,夯土墙体禁闭确乎像图中一样,从墙角运转的。模子对世界常识的了解程度可见一斑。

淌若说单图是爆发力,那么多图一致性即是耐力。咱们挑战了在一张图中渲染多个子场景的漫画。

比如网络模子的世界常识和生图才气,制作联系的科普漫画。

这里我采选的主题是康德《结净感性批判》中的四个经典二律背反命题,要求Qwen-Image-2.0面向幼儿制作形而上学科普四格漫画。

从作风和逻辑上来看,这些漫画都挑不出什么大过失,何况笔墨赓续保持了明晰相识,每个格子的图像作风也所有调解。

再比如,要求模子生成陆续说念电影的分镜草稿。一样教唆词条目下,先看NanoBananaPro的暴露:

很确认,NanoBananaPro保持了教唆词要求的草稿作风,但笔墨细节上出现了多处崩溃。

而Qwen-Image-2.0对草稿的和会似乎更匹配影视行业的需求,给出了更逼近视频呈现恶果的图像,每个小图也更容易看到色泽恶果的呈现,连墨镜反光都能准确显现对面脚色,画面细节相等惊艳。笔墨上少许出现细节崩溃的所在。

就连连贯的故事剧本,现时也能通过AI一次性生成了,完成度还相等可以,这对于漫画家、电影分镜师来说着实是善事。

看到这也许有不雅众要问了,咱们只展示Qwen-Image-2.0和NanoBananaPro的案例,是不是不够客不雅呢?是以在终末一个案例中,咱们还对模子的图像才气,逻辑,语义和会,排版对王人,以及小字的细节进行了一场概括大考验。

教唆词要求模子生成一张包含文生图、干支编年、公历、农历、历本、节沐日、星期以及调休安排的春节日期,并要求在加班日期记号。

由于这项测试不仅测试模子的字体才气,还对长文本才气苛刻了要求,要同期兼顾公历、农历、历本还有节沐日调休安排,文本密渡过大,逐行列念念考也会导致模子防卫力破钞,因此为了概括对比各家大模子的特色,咱们还拉来了国内其他厂商的文生图大模子的不同版块,以及千问前代的Qwen-image-2512模子。

戒指高慢,四种模子的作风和槽点都各不换取。很确认能看到,信得过概况和会逻辑并基本完成生成的,独一Qwen-Image-2.0和NanoBananaPro(下图上方为NanoBananaPro生成)。

一样过去代模子对比的话,Qwen-image-2512模子的汉字细节崩溃了(下图左),但另一家文生图大模子不仅笔墨细节崩坏,干支编年唠叨(2026丙午当成了2014甲午),还无法对王人准确的日期和星期。

更新后的版块依然笔墨崩坏,还把丙午写成了两午。从这也能看出此次Qwen-image-2.0的向上有多大。

不外,比拟NanoBananaPro,Qwen-Image-2.0在日期第三行也出现了确认的防卫力穷乏,正月初七一栏运转发生失实。

但NanoBananaPro在举例初字上的部首细节如故产生崩坏,而Qwen-Image-2.0的字体细节上确认优于其他,只可说千问团队这波真没夸口,果然下了很大功夫。

那么问题来了,为啥千问Qwen-Image-2.0已而支棱起来了?

咱们盘问了Qwen-Image-2.0的建造团队,他们的本领施展东说念主告诉咱们,为了优化笔墨生成,他们在底层架构上作念出了一些改动。

率先,为什么过去的模子写字总会崩?本领行家告诉咱们,中枢难点在于VAE(变分自编码器)的压缩机制。

淘气来说,VAE本体上是一个压缩器用,这种压缩是有损的。在传统的VAE压缩经过中,图像中的笔墨、线条、边际等密集的细节往往会被行为念噪点而被隐隐化。

当VAE试图把压缩后的数据收复回图顷刻,模子记不清笔墨原本的具体结构,只可脑补,因此导致笔墨隐隐、笔画丢失。

而Qwen-Image-2.0在两个关节维度进行了升级,率先是栽培VAE上限,团队重构了VAE算法,使其在处理高频信息时的重构才气大幅栽培,确保笔墨的骨架在压缩与解压经过中不失真;其次是增强生成建模,优化了底层的DiT(DiffusionTransformer)架构,让模子在生成阶段就具备更强的全局磋磨与细节描绘才气。

这两者网络,才使得长文本的分析和小字也能在画面中明晰尖锐。

抛开笔墨才气,Qwen-Image-2.0的另一个亮点还在于生图与剪辑二合一。

现时市面上大多数AI的生图和剪辑是分开的模子。这导致生图模子懂语义但不行控,剪辑模子可控但不懂复杂的语义。是以你会看到,用笔墨指示让AI剪辑生成的问题时,不时会有谩天昧地的恶果,比如说减肥照,你让它减肥它反而把你造成良子了。

Qwen-Image-2.0团队在这里作念出了一个果敢的本领决策:将生图和剪辑合二为一,使用兼并套权重。

这意味着模子在进行图像剪辑任务时,依然保留了生图时普遍的语义和会才气。比如下图为换取教唆词下Qwen-Image-2.0生成的减肥照。

更离谱的是,尽管才气大幅增强,但Qwen-Image-2.0的执行模子尺寸(Size)比拟一代(20B参数)反而更小了。

更小的模子使得推理老本裁减,通俗端侧部署,何况带来了更快的生图速率,这也让Qwen-Image-2.0在哄骗上有了更高可能性:

天然这一版块也会更新在QwenChat里免费怒放给全球用,但对于这么强而有劲的模子,开源社区的需求也会相等大。毕竟如斯精悍的体积,可以说是为个东说念主显卡腹地部署量身定作念。

淌若异日能怒放权重,联接开源社区生态,Qwen-Image的影响力想到还会更进一竿,毕竟现时HuggingFace上如故有了相等多的此前数款Qwen-Image联系模子的滋生模子,实火一丝不为过。

总体来看,天然现时的Qwen-Image-2.0输出的依然是位图,距离可剪辑矢量图还有距离,在极致的逻辑推理上比拟谷歌也仍有空间。但在国内来说,它的出路可以说相等可不雅。

在图像AI如故越来越真假难辨的时期,谁能更好地贬责终末一公里的哄骗困难,比如笔墨、逻辑、剪辑才气的进一步提高,谁就能在出产力的变革中执牛耳。

Qwen-Image-2.0,无疑代表国产模子交出了一份高分答卷。





Copyright © 1998-2026 开云体育官方网站 - KAIYUN™版权所有

nxyc-kaiyun.com 备案号 备案号: 

技术支持:®开云体育  RSS地图 HTML地图