人気の検索: s10-li-144-5200 | poco x6 pro バッテリー交換| ps0011ua1brs

ホーム
携帯電話
PCバッテリー
- ACER
- ADVENT
- APPLE
- ASUS
- BENQ
- CLEVO
- DELL
- FUJITSU
- GATEWAY
- IBM
- LENOVO
- MEDION
- NEC
- PANASONIC
- SAMSUNG
- SONY
- TOSHIBA
- UNIWILL
ACアダプター
- VGP-AC19V74
- A13-045N2A
- ADP-40TH
- 1K2866
- PA3822U-1ACA
- VGP-AC10V9
- 462603-001
- VGP-AC10V10
- DELTA
- PA-1800-01HK-ROHS
- XD802
- EXA0901XH
タブレットPC
電子部品
ベストセラー商品
新着商品
人気商品
- ADP-18TB
- 063404
- FR463
- C11P1502
- 061384
- BL-59UH
- B0P821007
- PC-VP-BP90
- CF-VZSU61U
- C11P1505
- A1322
- TPC-BA50
- BL-T11
- L14C3K31
- A3222-H34
- BL-T5
- PC-VP-BP106
Blog

容量電圧製品一覧

+ 1800mah 14.4v

+ 2600mah 14.4v

+ 3300mah 14.8v

+ 3600mah 11.1v

+ 3600mah 14.4v

+ 3800mah 14.4v

+ 4000mah 11.1v

+ 4200mah 11.1v

+ 4400mah 10.8v

+ 4400mah 14.4v

+ 4400mah 14.8v

+ 4900mah 3.7v

+ 5400mah 11.1v

+ 8800mah 10.8v

ホーム » ニュース一覧 »GoogleのAIアクセラレータ「TPU v2/v3」を読み解く - Hot Chips 32 第3回 TPU v2とTPU v3の違い

GoogleのAIアクセラレータ「TPU v2/v3」を読み解く - Hot Chips 32 第3回 TPU v2とTPU v3の違い

TPUコアはベクタユニットに加えて、128×128要素のシストリックアレイ方式の演算器を備えている。左手側(Left Hand Side)の入力データと演算結果はストリームで供給、取り出しを行い、右手側(Right Hand Side)のデータは固定である。

そして、TPU v2はこのシストリックアレイの演算に、符号が1bit、Exponentが8bit、Mantissaが7bitで全長16bitのBfloatという数値表現を使った。現在では多くのアクセラレータがbfloatを使っているが、GoogleがTPU v2に採用したのが始めである。なお、積の計算にはbfloatを使っているが、多数の積の和を取る部分ではより高い精度が必要であり、float32が使われている。

TPU v1では256×256のマトリクス乗算器が用いられたが、なぜ、TPU v2では128×128のマトリクス乗算器になったのか？　次の図のグラフは256×256、128×128、64×64の3種の演算器を使う場合のオペランドが何回利用できるか(赤)とデータの有効使用率(青)を示している。

なお、この図では256×256の場合は演算器の個数は1個、128×128の場合は4個、64×64の場合は16個として、総演算量は変わらない条件で比較している。

シストリックアレイのサイズを小さくするとムダなデータ読み込みは減り、有効利用率は上がるが、128×128から64×64にしても改善は小さい。一方、オペランドの使用回数は64×64では128×128の半分に減ってしまう。

これらを考えると、サイズは128×128とするのが良い。

TPU v2では色々なマトリクス処理が行われるので、効率的な処理のために、転置、簡約化、置換を行うユニットを付け加える。

TPU v2ではメモリは高バンド幅のHBMを使用

メモリシステムのロード、ストアはSRAMのスクラッチパッドに対して実行するようにして、予期せぬ待ち時間が発生せず一定時間で実行でき、スケジュールが狂わないようになっている。

そして、HBMは複数のベクトルをストライド的にアクセスでき、メモリバンド幅が大きい。また、HBMは非同期のDMAアクセスができ、 Sync FlagでDMAの終了を通知できるようになっている。

TPU v2システムは2次元のトーラスネットワークで接続され、インタコネクトルータは4つのリンクポートを持っている。各ポートのバンド幅は500Gbit/sである。このインタコネクトは、ソフトウェア的にはDMAと同様にアクセスでき、通信先のTPU v2のチップIDを指定してDMAを行えば、データが送られるようになっている。

TPU v2チップのフロアプランは、次の図のようになっており、共有されるインタコネクトルータがチップの中心に置かれ、チップの上半分に1つのコア、下半分にもう1つのコアが置かれている。

演算器を倍増したTPU v3

TPU v3ではマトリクス乗算ユニットを倍増している。それに加えて、演算を行うコアのクロック周波数が30%アップになっている。したがって、TPU v2に比べてv3のピーク演算性能は2.6倍に向上している。この性能の向上を支えるため、HBMのメモリ容量は倍増し、メモリバンド幅は30%アップとなっている。さらに、インタコネクトルータのバンド幅も30%増しとなっている。

そして、より大規模の問題を解くため、システムとして接続できる最大ノード数が4倍の1024チップに拡張されている。

2020-09-08 17:41:03