你在这里

人之所以异于GPT者几希

把乔治·修拉名作《大碗岛的星期天下午》(Un dimanche après-midi à l'Île de la Grande Jatte)放入GPT-4V做多模态理解,生成文字描述。

再将该文字描述给到DALL-E 3据此生成图。

可见多模态理解实际上也是某种信息压缩方式,只是更贴近人类。人之所以异于GPT者几希?

原帖作者wong2。

GPT-4V对图1进行多模态识别后的文字描述:

这幅艺术作品描绘了一个宁静的户外场景,位于公园旁边的一个水域,可能是一条河流或湖泊。图像以点彩画的独特风格为特征,其中小而明显的彩色点按照图案涂抹以形成图像。

前景:

在左下方,有一个年轻男子斜躺在草地上。他穿着一件卷起袖子的白衬衫和红色长裤。他看起来很放松,手肘撑在头后面。就在他右边,有两个绅士坐着。一个穿着黑色西装和礼帽,拿着一根拐杖,而另一个则戴着平顶帽。两人似乎在交谈。
一只棕色的狗呈现出一种俏皮的姿态,朝着草地上的一只小松鼠瞧去,后者正试图接近一块食物。
向右边看,有一个穿着黑色长袍和长裙的女士。她拿着一把长长的黑色羽毛伞,似乎在观察周围。一个穿着白色连衣裙和蝴蝶结的孩子站在她旁边。
中景:

公园里分散着几个人物。有些人坐在草地上,享受野餐,而其他人则站着交谈。
其中引人注目的人物包括拿着遮阳伞和阳伞的女性,保护自己免受阳光照射。一位穿着长裙的女士用一把大红伞突出了来。
中间的一个男孩似乎在小池塘里玩玩具帆船。右边的另一个人物似乎在弹吉他。
公园里点缀着树木,为一些人提供阴凉。他们的影子投射在绿草地上。

背景:

宁静的水域占据了图像的左侧。其表面漂浮着几艘小白帆船。
人们站在水边,有些拿着钓竿。远处还可以看到一座桥,以及建筑物和尖塔。
上面的天空清晰,呈淡蓝色调,点缀着同样的点彩效果,暗示着晴朗的天气。
整个图像是颜色和活动的和谐融合,描绘了19世纪末至20世纪初公园中一个悠闲的下午。

关键词: 
栏目: 

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer