能效可提高100倍以上！清华大学戴琼海/方璐最新Science

周 iNature

iNature

对人工通用智能(AGI)的追求不断要求更高的计算性能。尽管集成光子电路具有优越的处理速度和效率，但其容量和可扩展性受到不可避免的误差的限制，因此只能实现简单的任务和浅层模型。

2024年4月11日，清华大学戴琼海及方璐共同通讯在Science 在线发表题为“Large-scale photonic chiplet Taichi empowers 160-TOPS/W artificial general intelligence”的研究论文，该研究设计了基于集成衍射干涉混合设计和通用分布式计算架构的太极级大规模光子芯片，该架构具有数百万个神经元的能力，每秒每瓦(TOPS/W)的能量效率为160万亿次。

太极在实验上实现了芯片上的1000个类别级别的分类(在1623个类别的Omniglot数据集中测试了91.89%的准确率)和高保真的人工智能生成的内容，效率提高了两个数量级。太极为大规模光子计算和高级任务铺平了道路，进一步开发了现代AGI光子学的灵活性和潜力。总之，太极光芯片的计算能效超现有智能芯片2—3个数量级，将可为百亿像素大场景光速智能分析、百亿参数大模型训练推理、毫瓦级低功耗自主智能无人系统提供算力支撑。

随着人工通用智能(AGI)的快速发展，人们对计算性能的要求也越来越高。对于来自现实世界的复杂多模态信息，迫切需要高容量和高吞吐量的计算架构。在后摩尔时代，不断要求更高的性能变得具有挑战性。使用图形处理单元(GPUs)等电子设备进行高级人工智能(AI)模型的计算[例如语言处理和大规模智能成像中的基础模型]与饱和的能源效率相关，这对于支持现代AGIs是不可持续的。追求计算能力和能源效率之间的平衡是高性能计算研究的一个持久目标。

光子计算越来越受到人们的关注，它提供了前所未有的光速低消耗计算。光子的高并行性可以促进基本图像运算、库计算、神经网络等。集成光子学的发展使高尺寸光子计算芯片有望实现智能任务。然而，目前的集成光子计算，特别是光神经网络(ONNs)，通常由数百到数千个参数和数十个可调参数组成。只有基本的任务，例如:支持简单模式识别和元音识别。尽管光子集成电路具有空间紧凑性和能量效率的优势，但它仍然受到不可避免的时变误差的限制，提供有限的网络规模和计算能力，难以支持现实世界的AGI任务。

太极采用分布式计算架构，形成浅而深、宽而宽的网络架构（图源自Science ）

为了实现大规模、高能效的光子计算，单纯扩大现有的光子神经网络芯片是不切实际的，因为随着神经网络层数的增加，不可避免的模拟噪声会呈指数级增长。扩大现有架构的规模不会按比例提高性能。研究人员没有构建深度和大型模型，而是设计了一个大规模、高效的光子AI芯片，具有可扩展和高鲁棒性的分布式计算架构，用于现实世界的AGI任务。

通过结合光学衍射和干涉的优势，太极被动地将高维输入视为具有通用衍射的紧凑表示，并使用完全可重构的马赫-曾德干涉仪(MZI)阵列进行高效的任务特定特征嵌入。同时，该分布式协议将大型任务划分为多个分布式子任务，由太极小线程并行处理。此外，这些独立小芯片提供的计算资源也被分布和协作，以扩大太极的能力，实现一些大规模的现实任务，包括复杂的1000类分类和多用途的内容生成。太极使得为AGI任务部署大型光子学模型成为可能，与目前的PICs相比，能效提高了两倍。计算精度与电子产品相当，面积效率提高了一个数量级。预计太极将跟上现代人工智能对计算资源需求的快速增长。

原文链接：

https://www.science.org/doi/10.1126/science.adl1203

—END—

内容为【iNature】公众号原创，

转载请写明来源于【iNature】

微信加群

iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群（16个PI群及64个博士群），同时更具专业专门组建了相关专业群（植物，免疫，细胞，微生物，基因编辑，神经，化学，物理，心血管，肿瘤等群）。温馨提示：进群请备注一下（格式如学校+专业+姓名，如果是PI/教授，请注明是PI/教授，否则就直接默认为在读博士，谢谢）。可以先加小编微信号（iNature5），或者是长按二维码，添加小编，之后再进相关的群，非诚勿扰。

投稿、合作、转载授权事宜

请联系微信ID：13701829856 或邮箱：iNature2020@163.com

觉得本文好看，请点这里！

继续滑动看下一个