2023年12月25日 第4回量子ソフトウェアワークショップ

## 量子回路シミュレータの開発

富士通株式会社 コンピューティング研究所 CWB-CPJ プリンシパルリサーチャー

山崎 雅文



© 2023 Fujitsu Limited

#### 富士通がComputing as a Serviceで目指す世界



#### Provide the top-class Computing Technologies "as a Service"



## ハイブリッド量子コンピューティングフラットフォーム Quantum FUJITSU

● 連携センターで開発した量子コンピュータと量子シミュレータのシームレスな操作を実現
 ● 量子コンピュータと量子シミュレータ双方のメリットを活かした計算手法の開発にも活用



#### CWBプレスリリース '22 様々な制約内でベストな結果を取得





#### CWBプレスリリース '23 基底エネルギー計算での実践





## プラットフォーム活用アプローチ



#### 量子アルゴリズム精度評価

- •同一の問題を量子コンピュータと量子シミュレータに 対して投入
- ・結果を比較することでエラーの影響を評価
- ・量子エラー緩和、エラー訂正アルゴリズム開発への 活用に期待



#### 量子コンピュータ / シミュレータの ハイブリッドアルゴリズムの開発

- ・同一の問題を、条件により分割
   (速度優先、精度優先など)
- ・分割した問題について、量子コンピュータと シミュレータに適切に振り分けて実行



## 富士通 Quantum challenge





Search Menu

Home > Research and Development > Announcing the Fujitsu \$100,000 Quantum Simulator Challenge

#### Announcing the Fujitsu \$100,000 Quantum Simulator Challenge

February 21, 2023

#### **Challenge Objectives**

Fujitsu Limited("Fujitsu") would like to solicit applications from interested members of the industry and academia to test the quantum simulator on novel problems and applications. Our objectives are:



Global

Change

- Apply quantum simulator to customer pain points
- Test the quantum simulator with real world applications

Obtain feedback from Participants on performance and scalability

• Explore quantum use cases collaboratively with participants selected by Fujitsu (the "Participant(s)")

● 日程

- 今年の 2月 21日に、ホームページと、FAN TS Silicon Valley で募集を開始
- 多くの国や地域から 計 43 チームの応募
- 選出された 17 チームがコンテストに参加

#### \$100,000 Prize 🔗

| First Prize  | \$50,000 |
|--------------|----------|
| Second Prize | \$30,000 |
| Third Prize  | \$20,000 |



 来年 1月に、オランダのデルフトで開催予定の Fujitsu Quantum Day eventにて受賞者の発表を 予定しています

## 決定グラフ型量子シミュレータ



#### 決定グラフ型量子シミュレータの性能評価

木村 悠介<sup>1,a)</sup> 李 少文<sup>2,b)</sup> 佐藤 周行<sup>2,c)</sup> 藤田 昌宏<sup>2,d)</sup>

**概要**:量子コンピュータ向けアルゴリズムの開発のためには、高速で多量子ビットを扱うことが出来る量 子シミュレータが重要である。しかし一般的な状態ベクトル型シミュレータでは N 量子ビットに対して 2<sup>N</sup>の長さのベクトルを保存する必要があり、手元のコンピュータでシミュレーションするには 30 量子 ビット程度が限界である。この問題を解決する手法の1つとして決定グラフがある。決定グラフは状態ベ クトルをグラフの形で保存するので、状態ベクトルに規則性があれば使用メモリ量を大幅に削減できる可 能性がある。本稿では、決定グラフ型シミュレータを独自に実装し様々なアルゴリズムで実験を行い、状 態ベクトル型シミュレータとの比較を行った。Grover や Shor などのアルゴリズムでは大幅な高速化と多 量子ビット化が見られた一方、パラメータ付き回転ゲートを多く含むようなランダム回路では遅くなるこ とが示された。

#### 2023年10月27日 第10回量子ソフトウェア研究発表会

- 同じ回路を繰り返し作用させる場合、DDでは回路全体 を表す行列を作れるため、効果が大きい。
- DDはGrover, Shorアルゴリズムでは実行が速い
- 回転ゲートの数が少なくパラメータもランダムでない、 Groverは有望な適用先の1つ

| 形式  | State Vector              | Tensor Network         | Decision Diagram           |  |
|-----|---------------------------|------------------------|----------------------------|--|
| 説明  | 愚直に行列・ベクトル積               | 回路をテンソルネットワーク<br>として縮約 | ベクトルのパラメタ共通部分<br>をまとめて省メモリ |  |
| Bit | 35-40                     | 100 (IBM), 50 (AWS)    | 50-100?                    |  |
| 利点  | 複雑なノイズ対応<br>並列化(MPI)しやすい  | 省メモリ                   | 省メモリ<br>実アプリ回路〇            |  |
| 欠点  | 量子ビット数に対して<br>指数的にメモリ量が増加 | 深い回路×                  | 深い回路×<br>(回路の種類による)        |  |

## 決定グラフ型量子シミュレータ



#### 決定グラフの種類

- MT-DD [1]
  - Multi-terminal DD
  - ●値を終端ノードにだけ持つ
  - ●人間に分かりやすく直感的
  - ●様々な分野で広く用いられている
- •QMDD [2][3]
  - Quantum Multi-valued DD
  - ●値はエッジに持つ。終端ノードは1つだけ
  - 量子DDシミュレータでは最も一般的
  - ●当テーマでも使用



Tsai, Y.-H., Jiang, J.-H. R. and Jhang, C.-S.: Bit-Slicing the Hilbert Space: Scaling Up Accurate QuantumCircuit Simulation, DAC(2021)
 Miller, D. and Thornton, M.: QMDD: A Decision Diagram Structure for Reversible and Quantum Circuits, ISMVL (2006)
 Zulehner, A. and Wille, R.: "Advanced Simulation of Quantum Computations", IEEE TCAD (2019).



# FX700 クラスタ(富岳と同じA64FX CPU) 今年7月 36→40量子ビットに拡張 世界最大規模の常設専用量子シミュレータ

量子ビットとステートベクトル

量子ゲートと量子回路

量子回路シミュレータの処理

量子回路シミュレータの高速化



#### 量子とは



1つの量子について、シュレ
 ディンガー方程式を基にした
 1次元シミュレーション

● 青と赤は確率振幅の実部と虚部

● 黒の実線:確率密度

● 運動量pで右方向に移動

● 移動先に障壁がある



参考記事、引用元: <u>https://qiita.com/sci\_Haru</u>

量子とは



エネルギーの大きさとしては、 古典的には決して超えられない 障壁でも、確率振幅は通過して いる

さらに、「一つの量子」の確率 振幅は、壁の手前側と向こう側 に同時に存在している



## 量子ビット



- **量子ビット**は、その量子的状態を正確に保持・制御して、さらに観測することができるものである
- 超電導方式の場合、量子間の相互作用は隣接量子 ビット間に限定される
- 1量子ビットの状態|ψ)は、2次元のヒルベルト空間のベクトルとして表現できる。振幅θと位相φで表現することもできる



$$|c_0|^2 + |c_1|^2 = 1$$

$$c_0, c_1 \in \mathbb{C}$$

$$|\psi\rangle = e^{i\Phi} (\cos\frac{\theta}{2}|0\rangle + \sin\frac{\theta}{2}e^{i\phi}|1\rangle)$$

観察

У

**Bloch spere** 

64 qubit unit



Figure 1: 64 qubit integrated circuit chip

"0"  $= |c_0|^2 \%$ "1"  $= |c_1|^2 \%$ 

## ステートベクトル





- The state of an n qubit is the source of a  $2^n$  dimensional Hilbert space
- If a complex number is expressed as 16 byte, the amount of memory required is:  $2^{n+4}$  [Byte]

 $|\psi\rangle=c_{000}|000\rangle+\cdots+c_{111}|111\rangle$ 

$$n=30$$
16 Gi ByteAlso avail on  
laptop PC $n=40$ 16 Ti ByteTarget of our  
simulator:exceed almost  
the number of  
atoms on Earth!

#### 量子ゲート





 Universal Gate Set: H, T and CNOT gates, among others

The Solovay-Kitaev theorem guarantees that any other gate can be realized with any accuracy.

• A 1-qubit gate is represented by a 2x2 unitary matrix, while a 3-qubit gate is represented by an 8x8 unitary matrix.

https://en.wikipedia.org/wiki/Quantum\_logic\_gate

#### 量子ゲートによるステートベクトル更新処理 (最上位qubitに対するHゲートの場合)





- The vectors to be operated on by the corresponding H gate's dense matrix are paired with elements separated by half the total size.
- For these paired elements, the operation involves reading them, performing matrix-vector multiplication, and writing them back to the same location.



0000

 $C_{0000}$ 

#### 量子回路シミュレータの処理の流れ



| Ger<br>Initia | nerate<br>al State | gate processing /<br>time development |          |  | Sampling |   |          |      |
|---------------|--------------------|---------------------------------------|----------|--|----------|---|----------|------|
| 000>          | 1+0i               |                                       | 0.707+0i |  | 0.707+0i |   | 0.707+0i |      |
| 001>          | 0+0i               | -                                     | 0.707+0i |  | 0+0i     |   | 0+0i     | 000> |
| 010>          | 0+0i               | 90 - H -                              | 0+0i     |  | 0+0i     |   | 0+0i     | -    |
| 011>          | 0+0i               |                                       | 0+0i     |  | 0.707+0i |   | 0+0i     | OF   |
| 100>          | 0+0i               | q <sub>1</sub>                        | 0+0i     |  | 0+0i     |   | 0+0i     | 111> |
| 101>          | 0+0i               |                                       | 0+0i     |  | 0+0i     |   | 0+0i     |      |
| 110>          | 0+0i               | 92                                    | 0+0i     |  | 0+0i     | + | 0+0i     | _    |
| 111>          | 0+0i               | +                                     | 0+0i     |  | 0+0i     |   | 0.707+0i |      |

## Sampling





- ●各状態の絶対値を積算
- ●一様乱数が当たったところの状態 がサンプリング結果





## 量子アルゴリズム (QAOAの例)





組み合わせのパターン(古典状態)

https://fintan.jp/page/ 3642/

#### 「うまく」量子演算を行うことで 所望の条件に合う状態の確率を 高めて解を求める



## FX700 クラスタ(富岳と同じA64FX CPU) 今年7月 36→40量子ビットに拡張 世界最大規模の常設専用量子シミュレータ

| 量子ビットと | ヒステート | <b>〜ベクトル</b> |
|--------|-------|--------------|
|--------|-------|--------------|

量子ゲートと量子回路

量子回路シミュレータの処理

量子回路シミュレータの高速化







- ●大阪大学と QunaSys が開発 (NTT, 富士通も参画)
- State Vector タイプに対応し、性能重視のシミュレータ
- 4つの大きな特徴
  - 1. CPU(SIMD, OpenMP)、GPU(CUDA)の性能を最大限引き出す最適化
  - 2. 前処理/後処理のオーバーヘッドが小さく、高速
  - 3. Linux/Windows/MacOS に対応、C++/Python APIに対応
  - 4. 量子コンピュータの研究に必要な汎用量子操作をサポート

#### ●日本語ドキュメントも充実

Welcome to Quantum Native Dojo!

https://dojo.qulacs.org/ja/latest/index.html

#### **1. Cluster level parallelism**



- HPC consists of many nodes connected by a high-speed network.
- In our quantum simulator, more than thousand nodes are connected using InfiniBand.
- In Fugaku, more than 150,000 nodes are connected by a 6-dimensional torus network.



#### **2. Processor level parallelism**





 Each CMG has 12 cores, L2 cache, and a memory controller connected to the High Bandwidth Memory (HBM)



 For large data, it is faster to lock the memory area responsible from start to finish close to each core

Figure 1-1 Main Functional Blocks on A64FX Processor Chip

## **3. Core level parallelism**



- Each core has two pipeline units as Floating-Point Calculation execution unit
- A64FX has two pipelines that can perform operations on eight floating-point numbers (512 bit width) at once every cycle.
- By writing in assembly language with the application's data access in mind, it's possible to efficiently fill the pipelines.



#### Processing stage diagram inside the core

## 4. Distributed State Vector





- Split and hold state vectors to support distributed processing
- The lower qubit in the rank is called the **local qubit**. The paired data exists within the same rank.
- The upper part is same as the rank number, called the global qubit.

## 4. ノード間通信の削減



- The fused SWAP gate rearrangement state vector data in bulk.
  - Example: CNOT operation with two qubit gates
    - Quantum gate operations across servers cause communication each time
    - Relocate data to reduce communication during quantum gate operation



#### 富士通量子シミュレータ



#### 古典コンピュータ上で量子コンピュータをシミュレート

#### 富士通量子シミュレータ ステートベクトル方式

- スーパーコンピュータ「富岳」のテクノロジーを活用
   23年7月 36→40量子ビットに拡張、(1024ノード超)
- State Vector方式の常設専用量子シミュレータとして世界最大規模

量子アルゴリズム

量子回路シミュレータは何を計算しているか

大規模量子回路シミュレータ





## Thank you



© 2023 Fujitsu Limited