国内マーケットデータを準備する

国内マーケットデータを準備する

日本国内マーケットデータの準備方法の概略

2000年以前のデータも使いたい場合と2000年以降のデータのみ使いたい場合の2つのケースが存在する。それぞれの作業の流れは次の通り。

2000年以前のデータも使いたい場合:

  1. 「パンローリング 相場データCD-ROM 国内相場版」のダウンロード
  2. 「データ倉庫」からデータをダウンロード
  3. 1のデータの形式を変換し、1999.12.31までのデータのみを1つのCSVファイルにまとめる。
    この際、コードが同じで東証Tや大証Oなど複数のものがあるものについては、東証以外のものは捨てる。
    また2000.1.4時点で存在しないコードのものも破棄する。
  4. データ倉庫のデータの形式を変換し、2で作成したCSVファイルへデータを加える
  5. 4のファイルからコードごとのCSVファイルを作成する

2000年以降のデータだけで使う場合:

  1. 「データ倉庫」からデータをダウンロード
  2. データの形式を変換し、さらにコードごとのCSVファイルを作成する

次に具体的な方法を紹介する。

日本国内マーケットデータの準備方法

2000年以前のデータも使いたい場合:

  1. 「パンローリング 相場データCD-ROM 国内相場版」のダウンロード

    上記のページから自己解凍方式の圧縮ファイルpandata1.exe をダウンロードし、適当なフォルダに解凍する。
    解凍後2つのフォルダと2つのファイルができる。
    先物についてはFutures、株についてはSTOCKのフォルダの中にデータがある。

  2. 「データ倉庫」からのダウンロード

    このページから圧縮されたデータをダウンロードするのだが、データ数が多いため、一括してダウンロードするFuerzaというソフトを使う。

    Fuerza

    上記の作者のページからFuerzaをダウンロードし、適当なフォルダに解凍する。

  3. Isabel.exeのアイコンをダブルクリックしてFuerzaを起動する。

    Fuerza01.gif

    アドレスの入力フォームに上記のデータ倉庫のアドレスを入力し、フォーム横の移動ボタンをクリックする。

    Fuerza02.gif

    【インターネット】の下に「株価データ倉庫の無料データ」のファイルが現れるので、その左横の+をクリック。
    すると入力したアドレスのページにリンクしたファイル類が表示される。

    Fuerza03.gif

    ここに2000年株価データ~2008年株価データがあるのがわかる。
    このうちほしい年のアイコンをクリックすると、右側に日にちごとの圧縮データが一覧で表示される。

    Fuerza04.gif

    Zip形式の圧縮ファイルをすべて選ぶ。

    Fuerza05.gif

    ダウンロード用のボタンをクリックし、適当なフォルダを保存先として指定する。

    Fuerza06.gif

    ダウンロード中は次のウィンドウが表示される。

    ダウンロードが完了したら閉じるのボタンをクリックする。

    Fuerza07.gif

    ほしい年すべてのファイルを1つのフォルダにダウンロードする。

    ダウンロードが終わったらFuerzaを終了する。

  4. ダウンロードされたファイルは圧縮ファイルなので解凍する必要がある。

    今回は7-zipという圧縮解凍ソフトを使い解凍した。
    圧縮ファイルをすべて選択し、右クリックして現れたメニューから「7-zip」を選び「現在のフォルダに解凍」を選択すればよい。

    Fuerza08.gif

    解凍時に上書きしていいか?というメッセージが現れたら「はい」を選び、~は解凍できなかったというメッセージが現れても気にする必要はない。

    解凍終了後、圧縮ファイルが選択された状態にあるので、そのまま削除(Delキー)を行うと圧縮ファイルは削除される。

    これでデータのダウンロードは終了。

日本国内マーケットデータの準備方法
2000年以前のデータも使いたい場合:
の続き

  1. パンローリング 相場データを変換する。

    1のデータ「パンローリング 相場データCD-ROM 国内相場版 」略してPanDiskDataを自作のプログラムで形式を変換し、1999.12.31までのデータをまとめて1つのCSVファイルにする。

    この際、2の「データ倉庫」の2000.1.4のファイルd000104.txtを参照にして、1のPanDiskData中にコードが同じで東証Tや大証Oなど複数のものがあるものについては、東証以外のものは捨てる。

    また2000.1.4時点で存在しないコードのものも破棄する。
    これは後で2の「データ倉庫」のデータと結合するためだ。

    そしてPanDiskDataではデータに欠損もしくは不明なところがある場合始値 , 高値 , 安値 , 終値 , 出来高のいずれかが0と表示されている。
    これも不要であるため捨てる。

    自作したプログラムは01_Convert_PanDiskData_to_CSV.exe と名づけた。

    01_Convert_PanDiskData_to_CSV.lzh

    ここからダウンロードできるが、lzh形式で圧縮されているのでLhazなどのソフトウェアで解凍する。

    お決まりの文句ですが、このプログラムは私個人用に作ったものであるため、使用する人は自己責任でお使いください。不具合がある可能性もあり、動作を保障するものではありません。

    以下に使用方法を書く。

    01.01_Convert_PanDiskData_to_CSV.exe のアイコンをダブルクリックして起動する。

    handmadeprogramico.gif

    02.次のウィンドウが現れるのでDestinationのボタンをクリックする。

    datamining3-2.gif

    03.作成するCSVファイルの保存先と名前を設定する。
    名前の後には.csvを必ずつける。
    「保存(S)」ボタンを押す。

    datamining3-3.gif

    04.Pan_txt_File のボタンをクリックする。

    datamining3-4.gif

    05.PanDiskDataの中のデータを選択する。
    PanDiskDataのファイルはStockフォルダの中にそれぞれ1000,2000…,8000,9000という名前の計9つのフォルダがあり、その中にある。
    まずは1000のフォルダの中のファイルすべてを選択する。
    そして「開く(O)」ボタンをクリックする。

    datamining3-5.gif

    06.Pan_index のボタンをクリックする。

    datamining3-6.gif

    07.データ倉庫の d0000104.txt を選択し、「開く(O)」ボタンをクリックする。

    datamining3-7.gif

    08.Collecting Index info. Please Wait.. のメッセージが出るのでしばらく待つ。

    datamining3-8.gif

    09.4.Click Convert Button のメッセージが出たらConvertボタンをクリックする。

    datamining3-9.gif

    10.Converting from ファイル名 のメッセージが出てファイルの変換・作成が実行される。

    datamining3-10.gif

    11.変換・作成が終了すると、作業にかかった時間が表示される。OKボタンをクリックする。

    datamining3-11.gif

    12.Finished のメッセージが表示される。終了する場合はウィンドウ右上のクローズボタンをクリックする。続けて作業する場合は Reloadボタンをクリックする。

    datamining3-12.gif

    13.Reloadボタンをクリックした場合には、02.からの手順を繰り返すことになる。

    今回、PanDiskDataの中の1000,2000…,8000,9000という計9つのフォルダ内のデータについて作業を行うため、02から13までの手順を計9回行う。

    このとき03.で保存するCSVファイルを同じものにすることで1つのCSVファイルに変換・結合される。

    言い換えると、今回は07.の作業の1回目は1000フォルダ内のデータ、2回目は2000フォルダ内のデータ、…9回目は9000フォルダ内のデータを指定する。

    他の手順はすべて同じとなる。

    最初に1000,2000…,8000,9000計9つのフォルダ内のデータを1つのフォルダに移動し、その次に01から行えば9回も繰り返すことはないが、ただしPCのメモリーもしくは字数制限が原因と思われる理由で、07.でデータをすべて選ぶとエラーが出る場合がある。

    そのため選ぶデータ数を2つか3つに分けて作業を行う必要がある。

    14.すべてのデータを1つのCSVファイルにまとめることができたら作業は終了となる。