支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 漠影
         最近几天,支付宝App中悄然出现了一项新的AI应用——“探一下”。在“扫一扫”页面下方切换至“探一下”就能体验。
图片
与传统的识物、搜题等视觉搜索应用不同,“探一下”的核心亮点为探索。识图辨物只是开始,在此基础上,有探知识探灵感探文本等能力板块。
从视觉搜索到智能推荐信息,“探一下”可成为一本随身的“视觉百科全书”。逛展时,打开“探一下”对准画作,背后的故事、历史背景、艺术风格都一览无余。踏青时,打开“探一下”对准花朵,不仅能识别出名称、科属,还有文化、园艺的相关知识。
图片
“探一下”也可以识别同款商品、给出药物使用指南,或是翻译外文菜单,并链接到支付宝丰富的商业生态,提供用车、医疗等服务,使用场景很广泛。
图片
当切换至探灵感功能时,它可以根据场景灵活配文,可幽默、可治愈,在宠物、办公等场景,还会有“读心”、“卷王”等定制滤镜,适合想晒图但不知道怎么写文案的人。
图片
这些实用、有趣的功能背后,其实是视觉搜索产品在GenAI(生成式AI)时代范式转变的缩影,告别过去的传统判别式方案,多模态大模型驱动的AI视觉搜索方案正逐渐走向规模化应用。
在海外,Google Lens这一爆款视觉搜索产品,已凭借GenAI成为谷歌增长最快的查询类型之一,每月视觉搜索调用量超200亿次。依托于扫一扫的用户群体、支付宝的庞大商业生态圈以及蚂蚁的技术积累,“探一下”会否成为国内对标乃至超越Google Lens的现象级产品呢?
一、视觉搜索赛道火热,理解分析能力亟待突破
过去20多年中,传统的文字搜索引擎已成为了搜索的标准形态。不过近几年来,原本作为文字搜索补充的视觉搜索已经逐渐走到台前。2022年,谷歌开发的视觉搜索应用Google Lens每月执行的视觉搜索任务已超过120亿次,2024年这一数字已达200亿次,并持续快速增长。
从用户角度来看,视觉搜索能提供超越文字限制的直观搜索体验,还能帮助用户发现更多相关信息,从而激发新的创意与灵感。在传统文字搜索增长进入稳定期后,视觉成为众多互联网科技企业发力的重点之一。
从商业价值的角度来看,视觉搜索能在电商、社交媒体等领域提供全新的体验,成为连接用户与商业服务的重要桥梁,催生新的商业模式与价值。国内与国际的淘宝、亚马逊等电商平台纷纷推出相关服务,正是出于这一考量。
然而,在中国,现象级的视觉搜索产品尚未出现。许多厂商的视觉搜索基于AI1.0时代的判别式基础视觉算法,依托大量数据,专注于某一垂直领域,如搜题、识花、购物等,未能实现破圈。
图片
即便是具备“识万物”能力的产品,也大多停留在了“识你所见”的层面,并且在复杂场景上的表现并不理想。当用户需要了解图片背后的更多信息时,仍需链接到搜索引擎的结果,理解分析能力成为上一代视觉搜索的明显短板,亟待突破。
共 1 页 1 条数据