トレーディングシステムの統計的評価方法

トレーディングシステムがデータに対して過剰最適化(オーバーフィッティング)していないかどうか、統計学を使って評価してみようというを試みを紹介。

トレーディングシステムの統計的評価方法

The Breakout Bulletin

ブレイクアウト会報

The following article was originally published in April 2003 issue of The Breakout Bulletin.
以下の記事はブレイクアウト会報の2003年4月号に掲載されたものです。

A Statistical Method for Evaluating Trading Systems

トレーディングシステムの統計的評価方法

    Much of technical analysis, particularly as applied to futures trading, is ad hoc.
    Most technical indicators, for example, while written in the language of mathematics, are essentially someone’s view of how the markets should work. The stochastic oscillator, for example, is based on the idea that in a rising market, the closes tend to be near the top of the recent high-low range.
    If prices hover near the top of this range, then presumably the market is ‘overbought’ and likely to fall.
    This has no more (or less) mathematical justification than the algebra on which the stochastic is based.
    ;This is not to dismiss technical analysis, some of which can be quite useful.
    However, it probably pays not to be overly impressed with complicated-looking technical formulations, most of which have only anecdotal justification for their intended use.

テクニカル分析の多く、特に先物のトレーディングに適用するようなものは、その場しのぎのものである。
ほとんどのテクニカル指標(インディケーター)は、
例えば、数学言語で書かれている一方で、本質的には「マーケットがどのように動くのか」というについての人が考えたことなのである。

例えばストキャスティック オシレーターは、マーケットの上昇時には終値が最近の高値と安値の範囲内の上部近くにある傾向を示すという考えに基づいている。

もし価格がこの範囲の上部付近を漂っているならば、おそらくマーケットは“買われすぎ”の状態にあり、下降しそうに思われるというものだ。

このことについて、統計学に基づいた代数学以上に数学的に正当化できる理由はない。
このことはテクニカル分析を退けるためのものではなく、かなり役に立つものではある。

しかしながらこれは複雑にみえる技術的な系統的論述に過度の印象を自分がもたないという点で利益になるのであり、テクニカル分析の多くが、それを意図して使用するための目的として、確実な根拠がない正当化のみをもっているのだ。

    There are exceptions, of course.
    I would put statistical methods into this category.
    Anytime you can find a statistical method that applies to trading, it’s probably worth looking into.
    In fact, I tend to think of even simple statistical methods, like the one I’m about to present, as a level above most technical analysis.

もちろん例外もある。
私は統計的方法をこの“例外”のカテゴリーに分類している。

あなたがトレーディングに適用する統計的方法を見つけたとき、それについて調べる価値はおそらくあるだろう。
実際、私は今から紹介しようとしているような単純な統計的方法について、多くのテクニカル分析以上の次元で考える傾向がある。

    One question that can be addressed by the use of statistics is whether a trading system is inherently profitable.
    We can approach this problem using confidence intervals for the average trade.
    If we have a sample of, say, 100 trades from a trading system, we can compute the average trade, T.
    Of course, we expect T to be greater than zero, indicating that the system has been profitable on average.
    However, if we took a different sample of 100 trades, we would, in general, find a different average trade, T. 
    If the variation among the trades is large enough, it’s possible that some of these averages could be less than zero, indicating that the system was not profitable on average for those trades.

統計学を使うことにより取り組むことのできる問題の1つは、トレーディングシステムが本質的に利益を生む可能性がある(有益性がある)かどうかである。

我々はこの問題に平均トレード(*おそらく1トレードあたりの平均利益のことと思われる)の信頼区間を使って取り組むことができる。

もしトレーディングシステムによる100回のトレードのサンプルがあるならば、我々は平均トレード“ T ”をコンピュータ処理することができる。
もちろんTが0より大きく、システムが平均的に利益を生むことを示してくれるのを期待している。

しかしながら、もし100回のトレードの異なるサンプルを使えば、通常は異なる平均トレードTを得る。

もし行われたトレードの(種類の)変化が十分に大きければ、いくつかの平均トレードが0以下となることは有り得ることであり、それらのトレードではシステムが平均的には利益を生まないことを示している。

    By computing the confidence intervals for the average, T, we can determine whether it’s likely that the average will be greater than zero.
    The confidence intervals specify upper and lower bounds for the average.
    The true average lies within those bounds with some specified probability or confidence level, such as 95%.
    The equation for the confidence intervals is as follows:

平均トレード“T”の信頼区間をコンピュータ計算することで、我々は平均トレードが0より大きいかどうかを決定することができる。
信頼区間は平均トレードの範囲の上と下を特定する。
トゥルーアベレージ(真の平均)はこれらの範囲内にあり、ある特定の確率または信頼度、たとえば95%のようなものをもつ。
信頼区間の式は次のようになる:

CI =  t * SD/sqrt(N)

    where t is the Student’s t statistic, SD is the standard deviation of the trades, N is the number of trades, and sqrt represents “square root.
    ” The average trade is likely to lie between T – CI and T + CI.
    For the system to be profitable at our specified confidence level, we need T > CI.

ここでtはスチューデント(人名)のt分布であり、SDはトレードの標準偏差、Nはトレードの回数、そしてsqrは“平方根(ルート)”を表現している。
平均トレードはT – CI と T + CI の間にありそうである。
我々の指定した信頼度(または信頼係数)で利益の出せるシステムとするためには、T > CI が必要となる。

    The value of t depends on the specified confidence level and the number of trades, N.
    The exact value can be found in a statistics table for the t distribution or calculated in software, such as from the TINV function in Excel.
    However, provided we have a reasonably large number of trades, the exact value is not necessary.
    If N = 60, the t value for 95% confidence is t = 2.00.
    For larger values of N, t will get slightly smaller, dropping to 1.96 for very large N.
    To be conservative, then, we can take t = 2.00 as long as we have at least 60 trades.
    If our actual value of N is larger than 60, we will have slightly larger intervals than if we used the exact value of t.

    Under this assumption, then, we have

tの値は指定した信頼度とトレードの回数Nに依存する。
正確な値はt分布の統計表から、もしくはクセルにあるTINV関数のような関数でソフトウェアにより計算させることでわかる。

しかしながら、かなり多くのトレード回数のデータがあれば、正確な値は必要ではない。
もしN = 60であれば信頼度が95%となるためにはt = 2.00である。

より多くのNがあればtはわずかに小さくなり1.96まで減少する。
より慎重にするならば、少なくとも60回のトレード回数がある限りt = 2.00を使う。

もし実際のNが60よりも大きければ、正確なtの値を使ったときよりもわずかに大きな信頼区間を得ることになる。
この前提では式は次のようになる。

CI = 2 * SD/sqrt(N);  N >= 60, 95% confidence(信頼度).