比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵

pepsi 科技 16

3月26日消息,曦智科技今天正式发布全新光电混合计算卡“曦智天枢”,首次实现了光电混合计算在复杂商业化模型中的应用。

曦智科技是全球领先的光电混合算力提供商,在集成光子领域取得了开创性的突破,掌握了光子矩阵计算(oMAC)、片上光网络(oNOC)、片间光网络(oNET)三大核心技术,打造了光子计算、光子网络两大产品线。

2021年12月,曦智科技首次对外发布光电混合计算产品,成功验证了光电混合计算在特定算法下,相较于主流GPU的速度优势多达数百倍。

曦智科技认为,光电混合将会为人工智能、大语言模型、智能制造等领域带来算力革新。

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第1张图片-芙蓉之城

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第2张图片-芙蓉之城

本次发布的曦智天枢,深度融合了光芯片、电芯片各自的优势,并采用3D先进封装技术,支持可编程。

它在光电集成度、光子矩阵规模、精度、可编程性等方面,都比前代产品实现了明显的性能提升。

比如在支持科学计算(如伊辛算法)基础上,加强了对于ResNet50等商业算法应用的支持,既保持了光计算优势,还大幅提升了产品通用适配性。

天枢采用非相干架构,不仅易于系统扩展,还具备出色的抗干扰能力、更高的计算精度。

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第3张图片-芙蓉之城

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第4张图片-芙蓉之城

它的核心处理器包括光学处理单元(OPU)、电学专用集成电路(ASIC),光芯片和电芯片通过3D TSV硅通孔、FlipChip倒装芯片封装技术进行整合、协同工作,可显著降低延迟、提升信号传输完整性,其中光芯片面积达到600平方毫米,比上代增大3倍。

芯片主频为1GHz,输出精度8bit,比上代提升8倍。

光芯片上的器件数量超4万个,但器件尺寸进一步缩小,集成度显著提升。

最大可支持128x128矩阵规模,是上一代64×64的4倍,运算能力、灵活性都得到了极大的提升。

此外,用户可以通过API自由配置计算矩阵系数,拥有更强的适应性和优化空间。

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第5张图片-芙蓉之城

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第6张图片-芙蓉之城

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第7张图片-芙蓉之城

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第8张图片-芙蓉之城

据悉,光子计算是一种被动运算,运算任务在光通过光子矩阵的过程中即可完成,颠覆了传统CMOS电子芯片的运算逻辑。

光子芯片的性能提升与光子矩阵规模、主频速率、波长数量等参数相关,而不依赖晶体管的密度及芯片制程的提升。

曦智科技还首次提出了等效光算力(EOPP)标准,是一种考虑了矩阵规模、输出精度、权重刷新速度等的综合算力评价方法,相比当前主流的电芯片指标计算方法,更符合光计算的原理和特点。

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第9张图片-芙蓉之城

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第10张图片-芙蓉之城

软件方面,天枢搭载了曦智光电混合计算软件栈,算子库包含RVV(RiscV Vector)算子,电矩阵(dMAC)加速算子、光矩阵(oMAC)加速算子,支持CV类和LLM类模型,以及包括Ising、LineSolver在内的non-AI算子。

用户借助曦智编译器,可以灵活地运用这些算子来构建高效的应用模型。

此外,平台还支持用户自定义算子,通过OpenCL C/C++语言进行编译和优化,进一步扩展了算法开发的灵活性。

曦智科技的软件栈与Pytorch、ONNX等主流框架深度集成,可通过软件栈直接使用天枢的光矩阵和电矩阵加速单元对模型和算法进行加速和验证,也可以将模型通过曦智编译框架编译部署在端侧进行推理。

通过软件栈,天枢成功运行了ResNet50深度卷积神经网络模型、Llama 2 AI大语言模型,首次实现了光电混合计算在商业化场景中的应用。

目前,曦智科技已启动下一代光电混合计算产品的研发,将会进一步提升计算能力。

比GPU快几百倍!曦智科技首发新一代光电混合计算卡:128×128光子矩阵-第11张图片-芙蓉之城

标签: 光电芯片

抱歉,评论功能暂时关闭!