トレーディングシステムの統計的評価方法

トレーディングシステムがデータに対して過剰最適化（オーバーフィッティング）していないかどうか、統計学を使って評価してみようというを試みを紹介。

トレーディングシステムの統計的評価方法

The Breakout Bulletin

ブレイクアウト会報

The following article was originally published in April 2003 issue of The Breakout Bulletin.
以下の記事はブレイクアウト会報の2003年4月号に掲載されたものです。

A Statistical Method for Evaluating Trading Systems

トレーディングシステムの統計的評価方法

テクニカル分析の多く、特に先物のトレーディングに適用するようなものは、その場しのぎのものである。
ほとんどのテクニカル指標（インディケーター）は、
例えば、数学言語で書かれている一方で、本質的には「マーケットがどのように動くのか」というについての人が考えたことなのである。

例えばストキャスティック　オシレーターは、マーケットの上昇時には終値が最近の高値と安値の範囲内の上部近くにある傾向を示すという考えに基づいている。

もし価格がこの範囲の上部付近を漂っているならば、おそらくマーケットは“買われすぎ”の状態にあり、下降しそうに思われるというものだ。

このことについて、統計学に基づいた代数学以上に数学的に正当化できる理由はない。
このことはテクニカル分析を退けるためのものではなく、かなり役に立つものではある。

しかしながらこれは複雑にみえる技術的な系統的論述に過度の印象を自分がもたないという点で利益になるのであり、テクニカル分析の多くが、それを意図して使用するための目的として、確実な根拠がない正当化のみをもっているのだ。

もちろん例外もある。
私は統計的方法をこの“例外”のカテゴリーに分類している。

あなたがトレーディングに適用する統計的方法を見つけたとき、それについて調べる価値はおそらくあるだろう。
実際、私は今から紹介しようとしているような単純な統計的方法について、多くのテクニカル分析以上の次元で考える傾向がある。

統計学を使うことにより取り組むことのできる問題の１つは、トレーディングシステムが本質的に利益を生む可能性がある（有益性がある）かどうかである。

我々はこの問題に平均トレード（＊おそらく1トレードあたりの平均利益のことと思われる）の信頼区間を使って取り組むことができる。

もしトレーディングシステムによる100回のトレードのサンプルがあるならば、我々は平均トレード“ T ”をコンピュータ処理することができる。
もちろんTが０より大きく、システムが平均的に利益を生むことを示してくれるのを期待している。

しかしながら、もし100回のトレードの異なるサンプルを使えば、通常は異なる平均トレードTを得る。

もし行われたトレードの（種類の）変化が十分に大きければ、いくつかの平均トレードが０以下となることは有り得ることであり、それらのトレードではシステムが平均的には利益を生まないことを示している。

平均トレード“T”の信頼区間をコンピュータ計算することで、我々は平均トレードが０より大きいかどうかを決定することができる。
信頼区間は平均トレードの範囲の上と下を特定する。
トゥルーアベレージ（真の平均）はこれらの範囲内にあり、ある特定の確率または信頼度、たとえば95％のようなものをもつ。
信頼区間の式は次のようになる：

CI = t * SD/sqrt(N)

ここでｔはスチューデント（人名）のｔ分布であり、ＳＤはトレードの標準偏差、Ｎはトレードの回数、そしてｓｑｒは“平方根（ルート）”を表現している。
平均トレードはT – CI と T + CI　の間にありそうである。
我々の指定した信頼度（または信頼係数）で利益の出せるシステムとするためには、T > CI　が必要となる。

Under this assumption, then, we have

ｔの値は指定した信頼度とトレードの回数Nに依存する。
正確な値はｔ分布の統計表から、もしくはクセルにあるＴＩＮＶ関数のような関数でソフトウェアにより計算させることでわかる。

しかしながら、かなり多くのトレード回数のデータがあれば、正確な値は必要ではない。
もしN = 60であれば信頼度が95%となるためにはt = 2.00である。

より多くのNがあればtはわずかに小さくなり1.96まで減少する。
より慎重にするならば、少なくとも60回のトレード回数がある限りt = 2.00を使う。

もし実際のNが60よりも大きければ、正確なtの値を使ったときよりもわずかに大きな信頼区間を得ることになる。
この前提では式は次のようになる。

CI = 2 * SD/sqrt(N); N >= 60, 95% confidence（信頼度）.