人工智能的妙用：谷歌公布图像字幕技术

程序员文章站 2022-09-21 16:09:04

近日，有消息称，谷歌已经公布了一个新的图像字幕系统，它可以智能识别照片上的内容，并自动对它用自然语言进行描述并标记。虽然之前已经有智能系统可以自动标记图像，识别出其中的某个物体，但谷歌的这项技术可以描...

近日，有消息称，谷歌已经公布了一个新的图像字幕系统，它可以智能识别照片上的内容，并自动对它用自然语言进行描述并标记。虽然之前已经有智能系统可以自动标记图像，识别出其中的某个物体，但谷歌的这项技术可以描述得更全面，比如它的描述可能是“两只狗在草地上玩”或“带粉红色帽子的小女孩在吹泡泡”等。这可以说是人工智能/人工学习领域的一次重大突破，因为该软件系统是谷歌使用大规模模拟神经元处理数据的最新研究成果。没有人对识别场景的规则进行编程，这一神经网络是自己“学”会处理数据的。看来人工智能也并不总是让人担心会毁灭人类，或许还能在晚上捧着儿童绘本给小孩子们讲讲睡前故事什么的，是不是也挺让人暖心的呢？

传统图像识别的困境

现在我们已经应用的成熟图像识别技术采用的是“模板匹配”的算法，按照信息的获取——预处理——特征抽取和选择——分类器设计——分类决策这样的顺序进行识别。听起来似乎还不错，识别的准确性也确实很高，不少扫描仪就是采用这样的算法来识别文字的。但这种模型强调图像必须与模板完全符合才能加以识别，而事实上人不仅能识别与脑中的模板完全一致的图像，也能识别与模板不完全一致的图像。例如,人们不仅能识别某一个具体的字母A,也能识别印刷体的、手写体的、方向不正的、大小不同的各种字母A。同时,人要识别的图像是大量的，如果要求所识别的每一个图像在脑中都有一个相应的模板，那也是不可能的。这是模板识别天生的阿格硫斯之踵，也是很多辞书类APPs可以通过摄像头直接识别书本上的文字并翻译，但却对你的手写体视若无睹的原因。

人工智能的妙用：谷歌公布图像字幕技术

笔者的老师中就有从事交通标志识别研究的，主要工作就是在数量巨大的图片中找到交通标志，并对其加以识别。听起来和目前已经颇为成熟的车牌号码识别技术没有什么区别，但在实际操作中却表现得异常困难。同一地点不同时间的图片往往不能够完美地识别出相同的结果，图像上来自各方的干扰往往也难以准确地排除。这些问题都是由模板识别造成的。虽然目前已经有较为先进的汽车开始装配交通标志识别系统，但图像识别在其中的作用并不大，汽车所以能够识别交通标志，主要是依赖交通部门和汽车公司的数据与离线地图提供商的地理信息系统进行匹配而取得的，图像识别只是一个有益的补充而已。

图像识别在中国

说到中国市场上的图像识别/处理公司，微软与汉王绝对是不能不提的。除了双方都做得不错的汉字手写识别（目前，汉字的手写识别依然是基于模板识别算法的，不过加入了更加高级的模糊模式——相似性识别技术）外，汉王的生物识别技术与微软的大数据处理技术都在社会生产生活中得到了充分的应用。汉王推出的各类指纹、面部识别打卡机真是“引无数白领尽折腰”啊！微软在上海的大数据处理中心也是中国实用性最强的农业大数据处理中心之一，不少农业研究所都会将自家的数据交给他们处理。

我曾经有幸参观过一所农业大数据研究所，他们在实验地区布置了大量的摄像头以检测麦田的生长状况，没有安装摄像头的农户也可以通过智能手机将麦田的图像上传到云端。这些图像会由研究所的专家进行分析后再将结果反馈给农户。仅仅几百个摄像头，几十部智能手机就代替了过去需要数十名农技人员亲自下田勘察才能得来的数据与报告。而最终这些图像、数据会被发送至位于上海的微软大数据处理中心进行综合处理，计算机会根据图像、数据做出判断，精确地测算出这一年的产量或者遭遇病虫害的风险。这些技术的应用理应使人感动，它们真真切切地证明了科技使生活更美好。

谷歌与图像识别

此次的图像字幕技术让谷歌在图像识别领域又进了一步。早在谷歌还没有撤出中国市场的时候，谷歌就曾推出过图像搜索引擎。虽然准确率总不能让人满意，且还会搜索出一些完全没有联系的图片，但在当时的确不失为一个创举。尽管不少网友都曾调侃“敢不敢把自己的照片谷歌一下”，但就我进行的几次实验而言，谷歌图片搜索还是有一定准确度的，它曾经成功地通过我拍摄的黄浦江的照片搜索出了许多上海的夜景照片。

如果此次的消息属实，谷歌的图像字幕技术已经拥有了近乎人类的识别能力的话，那么该技术将会把整个图像识别技术领域推向更高的层次。我们可以想象，在未来，这项技术也许可以被用在盲人导盲或者阅读上，这是一个非常了不起的成就。而且由于这项技术所具有的“可能性”——没人对识别场景的规则进行编程，这一神经网络是自己“学”会处理数据的——我们有理由相信其还可以发挥更多更加奇妙的作用。

真正的人工智能时代，来了！

上一篇：玻璃厂里幽默大王不会留下痕迹

下一篇：搞笑就是把人整到满脸黑线才好笑