
华人媒体艺术家赵宇峰(Yufeng Zhao,音译)与数据新闻记者丹尼斯(Matt Daniels)日前利用光学文本辨识(OCR)技术,扫描过去18年来的800万张谷歌街景影像,创建起一张涵盖纽约市的「可搜索街头文本地图」。项目总共截取约1亿3800万段文本,从店招、车贴、标语到涂鸦标记,全数标上地理座标,以贴纸、路牌、街头涂鸦与店铺招牌解析整座城市的「源代码」。
该项目发表于数据艺术网站The Pudding,结合社会语言学研究与城市寻宝游戏,该计划同时推出交互搜索平台AllText.nyc,让用户能以视觉方式浏览这些文本汇集。只要用户输入「gold(金)」、「halal(清真)」、「beware(小心)」等词汇,都能看到各自的分布地图,不少结果都在意料之内,例如「pizza(披萨)」在五大行政区共出现11万1290次,「Sabrett」品牌的热狗车几乎遍布街头。
另一些发现则具地理意涵,像是「luxury(奢侈)」尽管遍布全市,但在哈德逊广场(Hudson Yards)特别密集,「iglesia(教会)」则精准标示出西语裔社区、而「jerk(肉干)」则多数出现在牙买加餐厅门口,意为一种烤肉方式。数据中最常见的词汇则是市政警语,包括「stop」、「no」、「do not」、「only」、「limit」等充满限制性的词汇主宰了纽约街景。
数据库中也不乏和华人相关的词汇,例如「Chinese(中文、中餐)」排名281位,「Chinese Restaurant(中餐厅)」排第510位,而「Chinese Food(中餐)」则排在第666位。就连「Flushing(法拉盛,同时也意为冲洗、脸红)」一词也进入了榜单,排名547。而从地图分布来看,「法拉盛」一词其实不仅仅来自法拉盛社区,还来自链接布碌仑(布鲁克林)和皇后区的法拉盛大道(Flushing Avenue)。
尽管街景技术源于谷歌,但真正探索其潜力的是像赵宇峰这样的独立创作者,过去意大利艺术家Cirio就曾将谷歌街景的人物剪影打印成真人大小的贴图,放回到当初出现的街道位置,形成一种诡异的「幽灵再现」,挑战数据采集与隐私的边界。
赵宇峰今年27岁,来自上海,现居布碌仑,活跃于数据可视化、影像语言处理与体验设计领域。他曾在上海纽约大学取得交互媒体艺术与计算机科学双学位,同时在卡内基梅隆大学取得人机交互硕士学位。
