

导航:X技术最新专利计算;推算;计数设备的制造及其应用技术
1.本公开涉及ai芯片技术领域,尤其涉及ai加速卡、pcie板卡及电子设备。
2.随着人工智能的兴起,对于云端ai(artificial intelligence,人工智能)加速卡的需求量越来越大,ai加速卡的金手指供电能力有限,无法满足大算力平台的应用需求,在ai加速卡的功耗过高时,需要额外的供电电源进行供电。一旦供电电源由于故障等原因停止供电,将导致整个ai加速卡无法工作。
4.根据本公开实施例的第一方面,提供一种ai加速卡,所述ai加速卡包括:至少一个第一ai芯片以及至少一个第二ai芯片;金手指,分别与所述至少一个第一ai芯片中的每个第一ai芯片电连接,用于向所述每个第一ai芯片供电;以及供电电源,分别与所述至少一个第二ai芯片中的每个第二ai芯片电连接,用于向所述每个第二ai芯片供电。
5.在一些实施例中,所述ai加速卡内置于电子设备中;各个第一ai芯片到所述电子设备的机箱外侧的距离均小于任意一个第二ai芯片到所述电子设备的机箱外侧的距离。
6.在一些实施例中,各个第一ai芯片和各个第二ai芯片均包括处理单元,所述金手指分别与各个第一ai芯片的处理单元电连接,用于向所述各个第一ai芯片的处理单元供电;所述供电电源分别与各个第二ai芯片的处理单元电连接,用于向所述各个第二ai芯片的处理单元供电。
7.在一些实施例中,各个第一ai芯片和各个第二ai芯片均包括指示灯;所述金手指还分别与各个第一ai芯片的指示灯以及各个第二ai芯片的指示灯电连接,用于向各个第一ai芯片的指示灯以及各个第二ai芯片的指示灯供电。
10.在一些实施例中,所述ai加速卡内置于电子设备中;所述金手指和供电电源分别与所述电子设备的供电接口电连接,用于从所述供电接口获取电能。
11.根据本公开实施例的第二方面,提供一种pcie板卡,所述pcie板卡包括本公开任一实施例所述的ai加速卡。
12.在一些实施例中,所述pcie板卡还包括:温度传感器,设于所述ai加速卡周围,用于采集所述ai加速卡的温度;报警单元,与所述温度传感器通信连接,用于接收所述温度传感器输出的温度数据,并基于所述温度数据输出报警信息。
13.在一些实施例中,所述金手指还分别与所述温度传感器与所述报警单元电连接,用于向所述温度传感器与所述报警单元供电。
14.根据本公开实施例的第三方面,提供一种电子设备,所述电子设备上设有pcie插
15.本公开实施例中的第一ai芯片与第二ai芯片分别由金手指以及供电电源独立地进行供电,在供电电源失效的情况下,仍然能够通过金手指向ai加速卡的部分ai芯片供电,使得ai加速卡在供电电源失效的情况下仍然能够继续工作。
16.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
17.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
24.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
25.在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
26.应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
27.为了使本技术领域的人员更好的理解本公开实施例中的技术方案,并使本公开实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开实施例中的技术方案作进一步详细的说明。
28.随着人工智能的兴起,ai加速卡能够提供的算力也越来越大,与此同时,ai加速卡上的ai芯片的功耗也相应提高。传统的芯片可以由金手指进行供电,但是,随着ai芯片的功耗提高,金手指的供电能力已经不足以满足ai芯片的供电需求了。为了解决上述问题,相关技术采用额外的供电电源对ai芯片进行供电。参见图1,相关技术中的ai芯片采用金手指以
及供电电源两路供电方式,金手指与供电电源都分别为ai加速卡上的每个ai芯片进行供电。然而,在各个ai芯片的功耗总和超出金手指与供电电源的供电能力的情况下,供电电源会因供电能力不足而失效,从而导致供电电源向各个ai芯片均无法正常供电,最终导致整个ai加速卡供电超过负荷而全面失效。
29.基于此,本公开实施例提供一种ai加速卡,参见图2,所述ai加速卡包括:
31.金手指203,分别与所述至少一个第一ai芯片201中的每个第一ai芯片201电连接,用于向所述每个第一ai芯片201供电;以及
32.供电电源204,分别与所述至少一个第二ai芯片202中的每个第二ai芯片202电连接,用于向所述每个第二ai芯片202供电。
33.在本公开实施例的ai加速卡中,金手指203的供电路径与供电电源204的供电路径是相互独立、互不影响的,即,金手指203与供电电源204分别向ai加速卡中不同的ai芯片供电。在供电电源204失效的情况下,只会影响ai加速卡中的部分ai芯片,使得由供电电源204供电的这部分ai芯片(即第二ai芯片202)失效,而由金手指203进行供电的各个第一ai芯片201仍然可用,避免了因供电电源204失效导致整个ai加速卡无法工作的情况。
34.在一些实施例中,金手指203的最大供电功率小于各个第一ai芯片201与各个第二ai芯片202的总功耗,即,金手指203的供电能力不足以为ai加速卡上的全部ai芯片供电。由于金手指的供电能力受限于pcie规范(一般为75w),因此,可选地,可以仅采用金手指203为ai加速卡中的其中一个ai芯片供电,由金手指203供电的ai芯片可以是ai加速卡中的任意一个ai芯片。优选地,所述ai加速卡可以内置于电子设备中。在这种情况下,可以采用金手指203为与电子设备的机箱外侧预设位置距离最近的ai芯片(称为第一颗ai芯片)供电,并采用供电电源204为除第一颗ai芯片以外的ai芯片供电,从而方便布线表示机箱外侧,黑色方块和灰色方块均表示ai芯片,则可以将黑色方块所示的ai芯片作为第一ai芯片201,由金手指203供电,并将灰色方块所示的ai芯片作为第二ai芯片202,由供电电源204供电。可见,本实施例中机箱外侧可以指第一ai芯片201靠近的一侧机箱的外侧。
36.当然,本公开中金手指203供电的第一ai芯片201的数量并不限于1,第一ai芯片201的数量可以由各个第一ai芯片201的功耗以及金手指203的最大供电功率共同决定。金手指203的最大供电功率应大于或等于各个第一ai芯片201的功耗之和,以保证各个第一ai芯片201均能够正常工作。同理,供电电源204的最大供电功率应大于或等于各个第二ai芯片202的总功耗,以保证各个第二ai芯片202均能够正常工作。
37.在一些实施例中,供电电源204的最大供电功率大于金手指203的最大供电功率。所述供电电源204可以包括但不限于atx(at extended)电源、sfx(small form factor,小型外形规格)电源、cfx电源、lfx电源、tfx电源、flex atx电源等各种规格的电源产品。供电电源204的数量可以大于或等于1,可以通过不同的供电电源向不同的第二ai芯片Kaiyun科技有限公司供电,从而满足ai芯片数量较多或者功耗较大时的供电需求。
38.由金手指203进行供电的第一ai芯片201以及由供电电源204进行供电的第二ai芯片202可以是固定的,例如,可以在布线时设计好供电线固定地向第一颗ai芯片供电,并由供电电源204固定地向除第Kaiyun科技有限公司一颗ai芯片以外的ai芯片供电。如图4所
示,也可以在ai加速卡上设置开关单元205,第一开关单元205一端分别与金手指203以及供电电源204电连接,另一端分别与ai加速卡上的各个ai芯片电连接。通过控制开关单元205,可以连通金手指与至少一个ai芯片之间的供电路径,从而使金手指203向所连通的ai芯片供电,还可以连通供电电源204与至少一个ai芯片之间的供电路径,从而使供电电源204向所连通的ai芯片供电。上述开关单元205相当于数据选择器(multiplexer,mux),通过使开关单元205连接不同的端子,可以改变金手指203以及供电电源204的供电对象,使供电方式更加灵活。
39.进一步地,上述ai加速卡还可以包括控制单元206,用于控制开关单元205,以使开关单元205连通不同的供电路径。
40.在一些实施例中,每个ai芯片上都包括不同的功能单元,其中一些功能单元(例如,cpu、gpu等处理单元)的功耗较高,另一些功能单元(例如,指示灯)的功耗较低。在这种情况下,可以通过所述金手指203分别与各个第一ai芯片201的处理单元电连接,用于向所述各个第一ai芯片201的处理单元供电,并通过所述供电电源204分别与各个第二ai芯片202的处理单元电连接,用于向所述各个第二ai芯片202的处理单元供电,以满足第一ai芯片201和第二ai芯片202中功耗较高的功能单元的供电需求。
41.除此之外,参见图5,金手指203还可以分别与各个第一ai芯片201的指示灯以及各个第二ai芯片202的指示灯电连接,用于向各个第一ai芯片201的指示灯以及各个第二ai芯片202的指示灯供电,从而满足指示灯等功耗较低的功能单元的供电需求。在一些实施例中,金手指203向指示灯进行供电的供电电压低于金手指203向处理单元进行供电的供电电压,且金手指203向指示灯进行供电的供电电压低于供电电源204的供电电压,例如,金手指203向处理单元进行供电的供电电压以及供电电源204向处理单元进行供电的供电电压都是12v,金手指203向指示灯进行供电的供电电压为3.3v,从而减少供电电源204的功率输出。
42.在一些实施例中,所述ai加速卡内置于电子设备中;所述金手指203和供电电源204分别与所述电子设备的供电接口电连接,用于从所述供电接口获取电能。例如,所述ai加速卡可以是pcie(peripheral component interconnect express,周边设备高速连接标准)加速卡,所述供电接口可以设置在电子设备的pcie插槽内。在将pcie加速卡插入pcie插槽之后,ai加速卡的金手指和供电电源可以从电子设备获取电能,从而为ai加速卡上的各个ai芯片供电。
43.本公开实施例在需要ai芯片提供较大算力,并且ai加速卡的功耗很高无法只用金手指203供电的情况下,需要供电电源204提供额外供电,从而提供更多算力来实现相应的ai应用。在所需的算力较少的情况下,也可以仅通过金手指203供电提供部分ai芯片的算力,ai加速卡无需做更改,仍可使用。
44.如图6所示,本公开实施例还提供一种pcie板卡,所述pcie板卡包括ai加速卡601,所述ai加速卡601可以采用前述任一实施例中所述的ai加速卡。
45.进一步地,所述pcie板卡还包括温度传感器602,设于所述ai加速卡601周围,用于采集所述ai加速卡601的温度;以及报警单元603,与所述温度传感器602通信连接,用于接收所述温度传感器602输出的温度数据,并基于所述温度数据输出报警信息。金手指203还可以与温度传感器602和报警单元603电连接,用于向温度传感器602和报警单元603供电。
由于温度传感器602和报警单元603都是低功耗的功能单元,因此,金手指203可以通过较低的供电电压(例如,3.3v)向温度传感器602和报警单元603供电,从而避免了供电电源204失效时无法获取报警信息来分析失效原因的情况。
46.温度传感器602可以设置在ai加速卡601附近,从而采集ai加速卡601的温度,所述温度可以是ai加速卡601整体的温度,或者是ai加速卡601上指定功能单元(例如,处理器)的温度。温度传感器602与报警单元603可以通过有线或者无线方式通信连接,从而通过温度传感器602将采集到的温度数据发送给报警单元603。报警单元603可以输出报警信息,例如,输出报警铃声、点亮报警指示灯,还可以向上级处理单元输出报警信息,从而使上级处理单元及时采取措施降低ai加速卡的温度。
47.本公开实施例还提供一种电子设备,所述电子设备上设有pcie插槽,所述pcie插槽用于插入本公开任一实施例所述的pcie板卡。在一些实施例中,所述电子设备为服务器。
48.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
49.以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。
1.计算机网络安全 2.计算机仿线.网络安全;物联网安全 、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用