神经网络正在成为Facebook,谷歌和微软等公司开发的最前沿技术的常用产品。这些机器神经网络具有一些令人印象深刻的功能,例如翻译语言,识别支票上的书写数字和字母,以及识别照片中的面部。但是,他们需要有能力的底层技术来帮助他们执行这些操作。传统上,神经网络可以在CPU上运行。
然而,CPU是设计用于执行所有类型的不同功能的处理器,并且在它们上运行神经网络是功率和时间的低效使用。设计用于支持AI和神经网络的处理器芯片可以为神经网络带来更快,更节能的生产。谷歌最近开发了Tensor Processing Unit(TPU)以实现这一目的。
从2015年开始,该公司已在其大多数大型数据中心部署了TPU,以帮助为其在线服务提供动力。他们刚刚发布了此实施的数据,结果令人印象深刻。谷歌称,通过部署TPU,他们可以取消建设额外15个数据中心的计划。谷歌声称他们的TPU比竞争对手的图形处理器(GPU)和CPU快15到30倍,并且能源效率提高了30到80倍。TPU有助于执行各种基本的Google任务,例如从搜索引擎中选择结果来解释Android设备上的语音命令。像TPU这样专门针对人工智能和机器学习而设计的芯片的开发代表了人工智能开发和运营方式的重大变化。
GPU与TPU
GPU:Graphics Processing Unit图形处理器。GPU原本需求大部分都来源于PC端大型游戏对图形处理的需求,现由于科技发展渐渐在移动端也慢慢崛起。
大多数竞争对手都集中在Tensor Processing Unit(TPU)上 - 一种加速张量操作的新型芯片,这是深度学习算法的核心工作量。 Alphabet,Intel和Wave Computing等公司声称,TPU比深度学习的GPU快十倍。 对这种差异的一种解释是GPU首先设计用于图形,防止在芯片的大部分上进行深度学习操作。
例如,在NVIDIA最新的Volta GPU核心中,如下所示,深度学习操作在右侧的两个Tensor核心上执行。 左侧的各种执行单元要么是轻度利用,要么不是深度学习的最佳选择.2新一代深度学习初创公司似乎正在构建完全由张量核心和片上存储器构成的芯片。
理论上,这样的TPU应该比GPU具有更高的利用率并提供更好的性能。
到目前为止,现实还没有赶上理论。在十几家构建深度学习芯片的公司中,只有谷歌和Wave Computing公司有工作芯片,正在进行客户试用。虽然谷歌声称其TPU比GPU更强大,更节能,但独立验证尚未浮出水面。谷歌的第二代“云TPU”可能消耗超过200瓦的功率,使其与NVIDIA的GPU相同。 Wave Computing表示,其3U深度学习服务器可以在40分钟内训练AlexNet,比NVIDIA的P100 DGX-1服务器快三倍。虽然令人印象深刻,但其性能与Wave Computing声称其TPU快1000倍相比相形见绌。
谷歌在2016年5月的I/O大会,首次公布了自主设计的TPU,2017年谷歌I/O大会,谷歌宣布正式推出第二代TPU处理器。
TPU没有超越GPU的一个重要原因是NVIDIA GPU架构的快速发展。NVIDIA已经超过四代GPU,其深度学习芯片的架构效率提高了大约10倍。下图显示了每秒需要多少个晶体管才能提供100万次深度学习操作。晶体管数量越少,架构效率越高。如果所有芯片供应商都受到相同晶体管预算的限制,那么具有最佳架构效率的设计应该能够提供最高性能。除了英伟达,还有AMD,ARM家的Mali,Imagination的PowerVR,Qualcomm的Adreno等。
不过在今年的Google I/0 2018大会上,谷歌发布了新一代TPU处理器——TPU 3.0。TPU 3.0的性能相比目前的TPU 2.0有8倍提升,比标准CPU和GPU快15-30倍,能效高出30-80倍。此外,谷歌还发布了Edge TPU,特定用途 ASIC 芯片,专为在设备上运行 TensorFlow Lite ML 模型而设计。针对Edge TPU的新设备是:AIY Edge TPU Dev 开发板和 AIY Edge TPU 加速器,二者皆采用 Google 的 Edge TPU 芯片。
连接设备的深度学习芯片
许多初创公司不是在服务器市场上与NVIDIA竞争,而是为连接设备构建深度学习芯片。 这是一个新兴市场,没有根深蒂固的领导者和每年数百亿台设备的可寻址市场。 终端设备的芯片功率要求低至1瓦。 NVIDIA的SoC(片上系统)设计需要几十瓦,这使得它们不适合这些设备中的许多设备。 在某种程度上,NVIDIA已经承认了这个市场。 2017年5月,它宣布将在其Xavier芯片上开源其深度学习加速器(DLA)的设计,这是一种类似TPU的单元。 通过这样做,它表明设备市场太大而且多样化,无法满足单芯片设计需求,客户最终会想要定制设计,类似于当今的智能手机市场。
谷歌的竞争对手注意到了TPU,并正在努力开发自己的AI目标芯片。 一些谷歌工程师正在寻求开发自己的芯片的初创公司,而英特尔,高通和IBM等经典芯片制造商正在努力做同样的事情。 这些公司认识到,AI芯片可以帮助将所有新的效率带入许多公司用于支持其业务的数据中心。
许多不同的创业公司正在这个领域涌现,相信他们可以开发和培训他们的神经网络更快或更好地执行不同的任务。 在RUMJog,我们继续研究和监控机器学习和AI支持技术的发展。