Files
mckernel/test/qlmpi/qlmpi_testsuite/qlmpi_testcase.txt

231 lines
12 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

プロセス高速起動
結合テスト仕様 (ql_mpiexec_start/finalize)
下記の条件を組み合わせた構成で動作を検証する
・MPIード数
1, 2
・プロセス数/ノード
1, 2, MAX(mckernelのCPU割り当て数)
・ql_mpiexecコマンドの実行ード
master, not-master
組み合わせ:
MPIード数 proc/node mpiexec実行ード
パターン01: 1 1 master
パターン02: 1 1 not-master
パターン03: 1 2 master
パターン04: 1 2 not-master
パターン05: 1 MAX master
パターン06: 1 MAX not-master
パターン07: 2 1 master
パターン08: 2 1 not-master
パターン09: 2 2 master
パターン10: 2 2 not-master
パターン11: 2 MAX master
パターン12: 2 MAX not-master
CTxx 3つのMPIプログラム(A, B, C) をA, B, C, A, B の順に実行する
□ CTxx001 ql_server and usr_prgs are not running on each node
テスト開始時点でql_serverとテスト用MPIプログラムが各ードで実行されていない
□ CTxx002 ql_mpiexec_start usr_prg_A (first exec) returns 0
usr_prg_A を実行するql_mpiexec_start の返り値が0 (成功)
□ CTxx003 ql_server is running on master node
初回実行後、マスターード上でql_serverが動作している
□ CTxx004 usr_prg_A's args are correct on each node
ードのusr_prg_A の引数が実行時に指定したものと一致している
□ CTxx005 usr_prg_A's env (QL_TEST) is correct on each node
ードのusr_prg_A テスト用に指定した環境変数が実行時に指定したものと一致している
□ CTxx006 usr_prg_A's calculation is done on each node
ードのusr_prg_A の計算処理が完了
□ CTxx007 usr_prg_A is waiting for resume-req on each node
ql_mpiexec_start の完了後、usr_prg_A が再開指示待ちになっている
□ CTxx008 ql_mpiexec_start usr_prg_B (first exec) returns 0
usr_prg_B を実行するql_mpiexec_start の返り値が0 (成功)
□ CTxx009 usr_prg_B's calculation is done on each node
ードのusr_prg_B の計算処理が完了
□ CTxx010 usr_prg_B is waiting for resume-req on each node
ql_mpiexec_start の完了後、usr_prg_B が再開指示待ちになっている
□ CTxx011 ql_mpiexec_start usr_prg_C (first exec) returns 0
usr_prg_C を実行するql_mpiexec_start の返り値が0 (成功)
□ CTxx012 usr_prg_C's calculation is done on each node
ードのusr_prg_C の計算処理が完了
□ CTxx013 usr_prg_C is waiting for resume-req on each node
ql_mpiexec_start の完了後、usr_prg_C が再開指示待ちになっている
□ CTxx014 (again) ql_mpiexec_start usr_prg_A returns 0
usr_prg_A を再実行するql_mpiexec_start の返り値が0 (成功)
□ CTxx015 (again) usr_prg_A's args are correct on each node
ードのusr_prg_A の引数が再実行時に指定したものと一致している
□ CTxx016 (again) usr_prg_A's env (QL_TEST) is correct on each node
ードのusr_prg_A テスト用に指定した環境変数が実行時に指定したものと一致している
□ CTxx017 (again) usr_prg_A's calculation is done on each node
ードのusr_prg_A の計算処理が完了
□ CTxx018 (again) usr_prg_A is waiting for resume-req on each node
ql_mpiexec_start の完了後、usr_prg_A が再開指示待ちになっている
□ CTxx019 (again) ql_mpiexec_start usr_prg_B returns 0
usr_prg_B を再実行するql_mpiexec_start の返り値が0 (成功)
□ CTxx020 (again) usr_prg_B's calculation is done on each node
ードのusr_prg_B の計算処理が完了
□ CTxx021 (again) usr_prg_B is waiting for resume-req on each node
ql_mpiexec_start の完了後、usr_prg_B が再開指示待ちになっている
□ CTxx022 ql_mpiexec_finalize usr_prg_A return 0
usr_prg_A を終了するql_mpiexec_finalize の返り値が0 (成功)
□ CTxx023 ql_mpiexec_finalize usr_prg_B return 0
usr_prg_B を終了するql_mpiexec_finalize の返り値が0 (成功)
□ CTxx024 ql_server is still running on master node
usr_prg_Bの終了後、ql_serverがマスターード上で動作している
□ CTxx025 ql_mpiexec_finalize usr_prg_C return 0
usr_prg_C を終了するql_mpiexec_finalize の返り値が0 (成功)
□ CTxx026 ql_server is not running on master node
すべてのMPIプログラムが終了したので、ql_serverが終了した
CT20 デバイスマッピング (IBのバッファ)
IBを使用するMPIプログラムを2本作成する。
send/recvのバッファはcommon領域に2GB使用する。
送信バッファは送信毎に異なる内容(送信回数の値など)を設定し、
受信側で検証できるようにする。
デバイスマッピングに異常があると、検証で失敗する。
尚、McKernelに割り当てるメモリ量は3GBとする。
□ CT20001 device mapping program test START
□ CT20002 program 1 START
qlmpi_start によってテストプログラム 1 起動 (1プロセス/ノード x 2ード)
□ CT20003 MPI_Send/Recv OK
2 プロセス間でMPI_Send/Recvを実行
□ CT20004 program 1 suspend
テストプログラム 1 が停止
□ CT20005 program 2 START
qlmpi_start によってテストプログラム 2 起動 (1プロセス/ノード x 2ード)
□ CT20006 MPI_Send/Recv OK
2 プロセス間でMPI_Send/Recvを実行
□ CT20007 program 1 suspend
テストプログラム 2 が停止
□ CT20008 program 1 resume
qlmpi_start によってテストプログラム 1 が再開
□ CT20009 MPI_Send/Recv OK
2 プロセス間でMPI_Send/Recvを実行
□ CT20010 program 1 suspend
テストプログラム 1 が停止
□ CT20011 program 2 resume
qlmpi_start によってテストプログラム 2 が再開
□ CT20012 MPI_Send/Recv OK
2 プロセス間でMPI_Send/Recvを実行
□ CT20013 program 2 suspend
テストプログラム 2 が停止
□ CT20014 program 1 resume
qlmpi_finalize によってテストプログラム 1 が再開
□ CT20015 program 1 END
テストプログラム1が終了
□ CT20016 program 2 resume
qlmpi_finalize によってテストプログラム 2 が再開
□ CT20017 program 2 END
テストプログラム2が終了
□ CT20018 device mapping program test END
CT21 mcexecのページテーブル更新確認
ファイルをreadするプログラムを作成する。
ファイル名によって、ファイル内容が確定できるようにする。
(例えば、ファイル名が"1"のファイルは"1"で埋め尽くされているなど)
入力領域はcommon領域に2GB確保する。
ファイルのサイズも2GBとする。
qlmpi_start毎にファイルを切り替える(コマンドラインに渡すなど)。
入力結果を検証する。
もし、ページインで最初と異なる物理ページにバッファが割り当てられ、且つ、
mcexecのページテーブルが更新されていない場合は、readによって関係無いページが
破壊される。また、ファイルの読み込み結果も検証で失敗する。
尚、McKernelに割り当てるメモリ量は3GBとする。
□ CT21001 mcexec page table update test START
□ CT21002 program 1 START
qlmpi_start によってテストプログラム 1 起動 (1プロセス)
□ CT21003 data read OK
ファイルを読み込んで内容確認した結果、問題なし
□ CT21004 program 1 suspend
テストプログラム 1 が停止
□ CT21005 program 2 START
qlmpi_start によってテストプログラム 2 起動 (1プロセス)
□ CT21006 data read OK
ファイルを読み込んで内容確認した結果、問題なし
□ CT21007 program 1 suspend
テストプログラム 2 が停止
□ CT21008 program 1 resume
qlmpi_start によってテストプログラム 1 が再開
□ CT21009 data read OK
ファイルを読み込んで内容確認した結果、問題なし
□ CT21010 program 1 suspend
テストプログラム 1 が停止
□ CT21011 program 2 resume
qlmpi_start によってテストプログラム 2 が再開
□ CT21012 data read OK
ファイルを読み込んで内容確認した結果、問題なし
□ CT21013 program 2 suspend
テストプログラム 2 が停止
□ CT21014 program 1 resume
qlmpi_finalize によってテストプログラム 1 が再開
□ CT21015 program 1 END
テストプログラム1が終了
□ CT21016 program 2 resume
qlmpi_finalize によってテストプログラム 2 が再開
□ CT21017 program 2 END
テストプログラム2が終了
□ CT21018 mcexec page table update test END
CT22 OMP
OMP で複数のスレッドを使用する状況のテスト。
□ CT22001 device mapping program test START
□ CT22002 program 1 START
qlmpi_start によってテストプログラム 1 起動 (1プロセス/ノード x 2ード)
□ CT22003 check rank info
MPIとOMPのプロセス情報が出力されていることを確認する。
以下のように出力されればOK(順不同)。
mpi= 0/ 2, omp= 1/ 4
mpi= 0/ 2, omp= 3/ 4
mpi= 0/ 2, omp= 0/ 4
mpi= 0/ 2, omp= 2/ 4
mpi= 1/ 2, omp= 1/ 4
mpi= 1/ 2, omp= 0/ 4
mpi= 1/ 2, omp= 3/ 4
mpi= 1/ 2, omp= 2/ 4
□ CT22004 program 1 suspend
テストプログラム 1 が停止
□ CT22005 program 2 START
qlmpi_start によってテストプログラム 2 起動 (1プロセス/ノード x 2ード)
□ CT22006 check rank info
MPIとOMPのプロセス情報が出力されていることを確認する。
□ CT22007 program 1 suspend
テストプログラム 2 が停止
□ CT22008 program 1 resume
qlmpi_start によってテストプログラム 1 が再開
□ CT22009 check rank info
MPIとOMPのプロセス情報が出力されていることを確認する。
□ CT22010 program 1 suspend
テストプログラム 1 が停止
□ CT22011 program 2 resume
qlmpi_start によってテストプログラム 2 が再開
□ CT22012 check rank info
MPIとOMPのプロセス情報が出力されていることを確認する。
□ CT22013 program 2 suspend
テストプログラム 2 が停止
□ CT22014 program 1 resume
qlmpi_finalize によってテストプログラム 1 が再開
□ CT22015 program 1 END
テストプログラム1が終了
□ CT22016 program 2 resume
qlmpi_finalize によってテストプログラム 2 が再開
□ CT22017 program 2 END
テストプログラム2が終了
□ CT22018 device mapping program test END
CT91 異常系
□ CT91001 machinefile is not specified, so ql_mpiexec_start returns not 0
□ CT91002 MPI program is not specified, so ql_mpiexec_start returns not 0
□ CT91003 specified machinefile does not exist, so ql_mpiexec_start returns not 0
□ CT91004 specified MPI program does not exist, so ql_mpiexec_start returns not 0
□ CT91005 mpiexec is not found, so ql_mpiexec_start returns not 0
□ CT91006 mpiexec abort, so ql_mpiexec_start returns not 0
□ CT91007 machinefile is not specified, so ql_mpiexec_finalize returns not 0
□ CT91008 MPI program is not specified, so ql_mpiexec_finalize returns not 0
□ CT91009 specified machinefile is wrong, so ql_mpiexec_finalize returns not 0
□ CT91010 specified MPI program name is wrong, so ql_mpiexec_finalize returns not 0
□ CT91011 one of MPI processes aborts, so ql_mpiexec_start returns not 0