先给大家看一段「谷歌艺术与文化」在乌镇举办的线下互动展,这是一个基于人工智能的皮影戏,通过手势识别,来演绎传统文化中的故事。
视频加载中...
Google 人工智能皮影戏
回到题目中,人工智能的应用除了大家耳熟能详的人机对弈、智能家居、同声传译、语音助手之外,还有很多企业级的应用:
美联社通过训练 AI 软件,实现了自动撰写短期收益新闻的应用[2];Deep Patient 医疗软件利用人工智能帮助医生进行辅助诊疗[3];以及知乎给大家推送的视频,也是基于人工智能,对不同画像的用户群推荐其可能感兴趣的视频内容(逃人工智能的应用非常多,所以本篇回答不打算继续穷举,而是尝试分享一下与人工智能相关的技术,从通用的底层技术视角出发,来对这些 AI 应用进行一些归纳,这样也能更好地回答目前这么多 AI+ 的概念中,孰真孰假?
人工智能 (AI) 是什么?
简单来说,人工智能 (AI) 是指可模仿人类智能来执行任务,并基于收集的信息对自身进行迭代式改进的系统和机器。
它的能力就是让运行程序的计算机来学习并自动掌握某些规律。
值得注意的是,由于人工智能涉及的学科和研究范畴非常广泛,如今人工智能已经变成了一个无所不包的术语。所以在一些不严谨的表述中,人工智能也经常与它的子领域互换使用 —— 例如机器学习和深度学习。
然而,它们之间是有区别的,例如机器学习侧重于构建能够基于自身使用的数据进行学习或改进性能的系统。换句话说,所有的机器学习都是 AI,但不是所有的 AI 都是机器学习。[4]
从这幅图中,可以清晰地看到深度学习 (Deep Learning)、机器学习 (Machine Learning) 这两项基本技术与人工智能 (AI Intelligence) 的关系。
从深度学习到神经网络
在公众视野中,深度学习常常被看作是通向真正人工智能的重要一步[5],一部分最成功的深度学习方法涉及到对人工神经网络的运用。
人工神经网络是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
先看一下生物学中的神经网络,如下图。每个神经元与其他神经元相连,当它兴奋时,就会像相邻的神经元发送化学物质,从而改变这些神经元内的电位;当这个神经元的电位超过阈值,那么它就会被激活,继续向其他神经元发送化学物质。
许许多多这样的神经元按照一定的层次结构连接起来,就构建成了一个神经网络。
相似的,在计算机科学中,X(x) 为上层输入,W(x) 为权重,而 A 即为激活函数。当输入求和符合激活条件,神经元就可以向下一级传递信号。
基于这样的基础,人工神经网络便能通过已知数据的实验运用来学习和归纳总结 —— 输入一个数据,然后先「猜」一个结果为预测结果 a;比对 a 与事先标记的真实结果 Y 之间的差距;然后调整策略,根据之前的数据向正确的方向靠近,直至预测结果与 Y 的误差趋近于 0,最后结束训练。
简而言之:收集数据 → 定义模型 → 训练 → 预测
一个具象的例子给大家参考:在「Draw to Art」中,观众在左侧屏幕上任意画一个图像,AI 会根据画面内容进行预测,并在右侧匹配出相似图像的艺术作品[6]。详见之前我给 Google 撰写的回答:人工智能在现实生活中有哪些有趣的应用?,
数据科学
细心的读者应该能够发现,在上面的 Venn 图中,Data Science 与 AI intelligence 的交集部分我没有提到,这就是数据集了。
通过训练集让神经网络学习知识,利用验证集来纠正和强化学到的知识,再使用测试集评估最终的学习效果。
老话说得好:书读百遍,其义自见。
人工智能应用的一大前提就是 —— 要有足够多的输入数据,才能够让神经网络得到充分的训练,从而输出更加精准的结果。
读到这里,相信大家应该对人工智能有了基础的技术理解,人工智能应用也离不开刚才提到的几个要素:
数据:一般来说,质量越好数量越大的数据集,是设计一个优秀人工智能应用的前置条件算法:相较于基于规则的传统方法,深度学习能够带来更好的预测效果算力:也即硬件基础设施。比如近年 iPhone 发布时都会强调其 A 系列芯片带来了更快的神经网络引擎,更高的运算次数换句话说,如果某项任务有大量的相似任务可以提供海量数据,在算力的条件下,设计一个合适的算法,就有可能被赋予人工智能,成为生活中的应用。
我们先举一个栗子看看:
这是 iPhone 的电影模式效果,它能够识别出人脸并进行前后景别的虚化。
从计算机的角度出发,它做了如下动作:识别画面中出现的物体(人脸),进行了分类并定位。
这就引申出了一个非常核心的任务 —— 目标检测。
除此之外,还有其他任务吗,有的!我们走到更广泛的范畴来看 —— 计算机视觉。
计算机视觉
计算机视觉(Computer vision)是一门研究如何使机器「看」的科学。更进一步地说,它包含了图像分类、目标检测、语义分割、超分辨率、底层视觉和视频理解等多项基本任务。
给定一张动物图片,计算机能识别出画面中的是猫,这是「图像分类」;在分类的同时,还需要定位物体,这是「目标检测」;能将图像按照物体类别分割成不同的区域,也就是对每个像素进行分类,这是「语义分割」;根据低分辨率图像重构成高分辨率图像,这是「超分辨率」;保持图像内容不变,将图像从一种形态转换为另一种形态是「图像转译」,常见于相片特效应用;去除水印、消除人像等是「图像修复」;还有对图片中已知区域进行精细化分割,它的另一个名字叫「抠图」,这些都属于「底层视觉」的范畴;对视频中的关键片段定位,或者识别视频片段中出现的动作,这是「视频理解」。将这些基础的人工智能任务进行工程化的排列组合与改造,便成了我们在生活中见到的应用。
高赞回答提到的 AI 识酒,就是利用「图像分类」、「目标检测」等基础任务做出来的;无人驾驶广泛应用了「语义分割」,从而能在行人、绿植、车辆中安全驾驶;各类美颜相机、特效相机运用了「底层视觉」相关的技术;各大短视频平台,采用了「视频理解」。人工智能的其他形式
计算机视觉只是人工智能应用的一个子集。从更高的层级往下看,人工智能的基本应用大体有四个部分:
感知能力 (Perception)认知能力 (Cognition)创造力 (Creativity)智能 (Wisdom)后两者距离我们仍然相当遥远,当下阶段主要还是集中在感知与认知两方面。
在感知能力中,计算机视觉代表了「看」的能力,「听」、「说」、「读」、「写」相对应的子领域分别是语音识别、语音生成、自然语言处理和机器翻译。
其各自代表的人工智能应用有:
语音识别:手机上常见的语音助手应用;语音生成:霍金的发音器可以算是;自然语言处理:全文信息检索系统、自动文摘系统等;机器翻译:微信里就有这个功能。认知领域值得说道说道,当前阶段,对人类认知的模仿与学习也是 AI 第二个焦点领域,过去 10 年,感知 AI 已经让机器具备了从「看清」到「看懂」的能力。
例如,给定一张猫的图片,机器能够判别出这是一只猫。
然而相较于这种感知层面的人工智能,决策 AI 问题是一项更加复杂的任务,它需要进行推理、决策、规划等。
在此基础上实现的人工智能将会更加「高级」,例如开头便提到的医学图像分析,以及电商里可能会用到的产品推荐、垃圾邮件识别等等;
再往公众应用上走呢,还有法律案件分析、犯罪侦测、信用风险分析等等。
这样一归类,人工智能便不再是神秘的黑科技,大家应该也能区分每家企业宣传的 AI,到底含金量有多少了。