国内マーケットデータを準備する
日本国内マーケットデータの準備方法の概略
2000年以前のデータも使いたい場合と2000年以降のデータのみ使いたい場合の2つのケースが存在する。それぞれの作業の流れは次の通り。
2000年以前のデータも使いたい場合:
- 「パンローリング 相場データCD-ROM 国内相場版」のダウンロード
- 「データ倉庫」からデータをダウンロード
- 1のデータの形式を変換し、1999.12.31までのデータのみを1つのCSVファイルにまとめる。
この際、コードが同じで東証Tや大証Oなど複数のものがあるものについては、東証以外のものは捨てる。
また2000.1.4時点で存在しないコードのものも破棄する。 - データ倉庫のデータの形式を変換し、2で作成したCSVファイルへデータを加える
- 4のファイルからコードごとのCSVファイルを作成する
2000年以降のデータだけで使う場合:
- 「データ倉庫」からデータをダウンロード
- データの形式を変換し、さらにコードごとのCSVファイルを作成する
次に具体的な方法を紹介する。
日本国内マーケットデータの準備方法
2000年以前のデータも使いたい場合:
-
「パンローリング 相場データCD-ROM 国内相場版」のダウンロード
上記のページから自己解凍方式の圧縮ファイルpandata1.exe をダウンロードし、適当なフォルダに解凍する。
解凍後2つのフォルダと2つのファイルができる。
先物についてはFutures、株についてはSTOCKのフォルダの中にデータがある。 - 「データ倉庫」からのダウンロード
このページから圧縮されたデータをダウンロードするのだが、データ数が多いため、一括してダウンロードするFuerzaというソフトを使う。
上記の作者のページからFuerzaをダウンロードし、適当なフォルダに解凍する。
- Isabel.exeのアイコンをダブルクリックしてFuerzaを起動する。
アドレスの入力フォームに上記のデータ倉庫のアドレスを入力し、フォーム横の移動ボタンをクリックする。
【インターネット】の下に「株価データ倉庫の無料データ」のファイルが現れるので、その左横の+をクリック。
すると入力したアドレスのページにリンクしたファイル類が表示される。ここに2000年株価データ~2008年株価データがあるのがわかる。
このうちほしい年のアイコンをクリックすると、右側に日にちごとの圧縮データが一覧で表示される。Zip形式の圧縮ファイルをすべて選ぶ。
ダウンロード用のボタンをクリックし、適当なフォルダを保存先として指定する。
ダウンロード中は次のウィンドウが表示される。
ダウンロードが完了したら閉じるのボタンをクリックする。
ほしい年すべてのファイルを1つのフォルダにダウンロードする。
ダウンロードが終わったらFuerzaを終了する。
- ダウンロードされたファイルは圧縮ファイルなので解凍する必要がある。
今回は7-zipという圧縮解凍ソフトを使い解凍した。
圧縮ファイルをすべて選択し、右クリックして現れたメニューから「7-zip」を選び「現在のフォルダに解凍」を選択すればよい。解凍時に上書きしていいか?というメッセージが現れたら「はい」を選び、~は解凍できなかったというメッセージが現れても気にする必要はない。
解凍終了後、圧縮ファイルが選択された状態にあるので、そのまま削除(Delキー)を行うと圧縮ファイルは削除される。
これでデータのダウンロードは終了。
日本国内マーケットデータの準備方法
2000年以前のデータも使いたい場合:
の続き
- パンローリング 相場データを変換する。
1のデータ「パンローリング 相場データCD-ROM 国内相場版 」略してPanDiskDataを自作のプログラムで形式を変換し、1999.12.31までのデータをまとめて1つのCSVファイルにする。
この際、2の「データ倉庫」の2000.1.4のファイルd000104.txtを参照にして、1のPanDiskData中にコードが同じで東証Tや大証Oなど複数のものがあるものについては、東証以外のものは捨てる。
また2000.1.4時点で存在しないコードのものも破棄する。
これは後で2の「データ倉庫」のデータと結合するためだ。そしてPanDiskDataではデータに欠損もしくは不明なところがある場合始値 , 高値 , 安値 , 終値 , 出来高のいずれかが0と表示されている。
これも不要であるため捨てる。自作したプログラムは01_Convert_PanDiskData_to_CSV.exe と名づけた。
01_Convert_PanDiskData_to_CSV.lzh
ここからダウンロードできるが、lzh形式で圧縮されているのでLhazなどのソフトウェアで解凍する。
お決まりの文句ですが、このプログラムは私個人用に作ったものであるため、使用する人は自己責任でお使いください。不具合がある可能性もあり、動作を保障するものではありません。
以下に使用方法を書く。
01.01_Convert_PanDiskData_to_CSV.exe のアイコンをダブルクリックして起動する。
02.次のウィンドウが現れるのでDestinationのボタンをクリックする。
03.作成するCSVファイルの保存先と名前を設定する。
名前の後には.csvを必ずつける。
「保存(S)」ボタンを押す。04.Pan_txt_File のボタンをクリックする。
05.PanDiskDataの中のデータを選択する。
PanDiskDataのファイルはStockフォルダの中にそれぞれ1000,2000…,8000,9000という名前の計9つのフォルダがあり、その中にある。
まずは1000のフォルダの中のファイルすべてを選択する。
そして「開く(O)」ボタンをクリックする。06.Pan_index のボタンをクリックする。
07.データ倉庫の d0000104.txt を選択し、「開く(O)」ボタンをクリックする。
08.Collecting Index info. Please Wait.. のメッセージが出るのでしばらく待つ。
09.4.Click Convert Button のメッセージが出たらConvertボタンをクリックする。
10.Converting from ファイル名 のメッセージが出てファイルの変換・作成が実行される。
11.変換・作成が終了すると、作業にかかった時間が表示される。OKボタンをクリックする。
12.Finished のメッセージが表示される。終了する場合はウィンドウ右上のクローズボタンをクリックする。続けて作業する場合は Reloadボタンをクリックする。
13.Reloadボタンをクリックした場合には、02.からの手順を繰り返すことになる。
今回、PanDiskDataの中の1000,2000…,8000,9000という計9つのフォルダ内のデータについて作業を行うため、02から13までの手順を計9回行う。
このとき03.で保存するCSVファイルを同じものにすることで1つのCSVファイルに変換・結合される。
言い換えると、今回は07.の作業の1回目は1000フォルダ内のデータ、2回目は2000フォルダ内のデータ、…9回目は9000フォルダ内のデータを指定する。
他の手順はすべて同じとなる。
最初に1000,2000…,8000,9000計9つのフォルダ内のデータを1つのフォルダに移動し、その次に01から行えば9回も繰り返すことはないが、ただしPCのメモリーもしくは字数制限が原因と思われる理由で、07.でデータをすべて選ぶとエラーが出る場合がある。
そのため選ぶデータ数を2つか3つに分けて作業を行う必要がある。
14.すべてのデータを1つのCSVファイルにまとめることができたら作業は終了となる。