Hiện tượng quá khớp và cách giảm thiểu hiện tượng quá khớp

Đăng lúc 1719308220,816081

Các nhà giao dịch thuật toán sử dụng các thuật toán máy tính để tự động hoá các quyết định giao dịch. Các hệ thống này quản lý danh mục đầu tư và thực hiện lệnh với mục tiêu tạo ra lợi nhuận trên thị trường tài chính. Một thành phần quan trọng của giao dịch thuật toán là việc xác định được các tín hiệu giao dịch, hay còn gọi là các alpha.

Trong lĩnh vực giao dịch định lượng, có hai phương pháp chính để tạo ra alpha. Phương pháp đầu tiên là dựa trên ý tưởng, các alpha được lấy từ nhiều nguồn khác nhau, bao gồm các giả thuyết giao dịch, các bài báo, các giai thoại, hoặc các ý tưởng tự phát. Các nhà giao dịch định lượng chuyển đổi những ý tưởng này thành các tín hiệu giao dịch tiềm năng. Phương pháp thứ hai là dựa trên dữ liệu, các alpha được tạo ra từ phân tích kỹ thuật, nhận diện mẫu hình, mô hình học máy, hoặc phân tích kinh tế từ các báo cáo tài chính. Các alpha này có thể được trích xuất từ các tập dữ liệu thu thập nội bộ hoặc từ các nhà cung cấp dữ liệu bên ngoài.

Bất kể nguồn gốc của alpha, một quy trình kiểm định toàn diện và nghiêm ngặt là điều cần thiết. Các nhà giao dịch thuật toán ước tính tiềm năng lợi nhuận tích cực trong các kịch bản giao dịch thực tế. Kiểm thử là một phần quan trọng của quy trình này, vì nó đánh giá lợi nhuận tiềm năng và xem xét độ sụt giảm tối đa mà một thuật toán có thể gặp phải. Các công ty giao dịch định lượng hàng đầu ưu tiên hiệu suất kiểm thử và mô phỏng thị trường để củng cố hiệu suất đầu tư của mình. Bài viết này nêu bật các khái niệm cơ bản trong kiểm thử và những cạm bẫy phổ biến của hiện tượng quá khớp trong quy trình này.

Kiểm thử

Trong lĩnh vực tài chính, các dự báo dựa trên dữ liệu theo chuỗi thời gian không đảm bảo được sự chắc chắn tuyệt đối cho từng trường hợp riêng lẻ. Thực tế, các dự báo chỉ khả thi ở khía cạnh thống kê: trung bình các sai số ngẫu nhiên sẽ đạt đến một mức độ chính xác hợp lý chỉ qua một số lượng lớn các dự báo. Ngay cả những công ty giao dịch hàng đầu cũng gặp phải tổn thất trong giao dịch thật, mặc dù họ có lợi nhuận tích cực trong thị trường mô phỏng. Do đó, phân bổ vốn hợp lý giữa các alpha và các thuật toán giao dịch khác nhau là điều quan trọng.

Trong nghiên cứu tài chính, nhiều giả định được chứng minh là không chính xác. Nhiều thí nghiệm cho kết quả tiêu cực. Chỉ một số tín hiệu giao dịch có khả năng tạo ra lợi nhuận một cách ổn định trong giao dịch thật. Điều này là do thị trường tài chính thường vận hành khác thường. Mẫu hình nguyên bản có thể vận hành trong thị trường nhưng chỉ có hiệu ứng yếu, bị lu mờ bởi những yếu tố khác. Do đó, mô phỏng thị trường và kiểm thử là các yếu tố cần thiết để xác định các chiến lược tiềm năng.

Kiểm thử cho phép các nhà giao dịch định lượng mô phỏng chiến lược của họ dựa trên dữ liệu quá khứ. Nó giả lập các giao dịch có thể xảy ra trong quá khứ dựa trên các quy tắc thiết lập sẵn. Điều này cho phép các nhà giao dịch đánh giá được hiệu quả của các chiến lược. Giả định cơ bản là nếu một chiến lược vận hành tốt trong quá khứ sẽ có khả năng vận hành tốt trong tương lai. Một mẫu hình không vận hành tốt trong quá khứ sẽ khó có khả năng được đưa vào giao dịch thật.

Kiểm thử cũng cung cấp các phản hồi thống kê quan trọng cho các chiến lược giao dịch cụ thể. Các chỉ số quan trọng bao gồm lợi nhuận hoặc lỗ ròng, biến động, độ sụt giảm tối đa, lợi nhuận năm, và các chỉ số điều chỉnh theo rủi ro như tỷ lệ Sharpe, tỷ lệ Sortino, và chỉ số Information ratio. Các chỉ số này giúp các nhà giao dịch so sánh hiệu suất của hệ thống so với các tiêu chuẩn hiện có của ngành.

Có nhiều phương pháp để kiểm thử. Phương pháp đơn giản nhất là phương pháp giải thích, kiểm tra dữ liệu giao dịch lịch sử. Ví dụ, một nhà giao dịch thuật toán có thể kiểm thử một danh mục Beta vượt trội với các quy tắc mới dựa trên dữ liệu quá khứ để dự đoán tiềm năng của thuật toán. Một kỹ thuật khác là phương pháp Monte Carlo, mô phỏng những yếu tố không chắc chắn của thị trường tài chính ảnh hưởng đến giá của các cổ phiếu và hợp đồng tương lai, dẫn đến lợi nhuận tiềm năng khác nhau. Một phương pháp phức tạp hơn là sử dụng các mẫu hình định giá tiên tiến để xác định giá của tài sản và phái sinh. Ví dụ gồm có mô hình Black-Scholes (1973), mô hình Stochastic Volatility (1976), mô hình jump-diffusion (1996), và các mô hình dựa trên dữ liệu gần đây được thúc đẩy bởi sự tiến bộ trong khoa học máy tính và trí tuệ nhân tạo. Nghiên cứu về mạng nơ-ron trong thập kỷ qua, như mã hoá tự động biến thiên (VAEs) và mạng đối nghịch tạo sinh (GANs) cho thấy tiềm năng hứa hẹn trong việc sử dụng dữ liệu tài chính theo chuỗi thời gian.

Hiện tượng quá khớp

Trong giao dịch thật, có nhiều yếu tố gây ảnh hưởng đến hiệu suất đầu tư. Kết quả kiểm thử tích cực không mang ý nghĩa rằng thuật toán sẽ đem lại lợi nhuận vì nhiều lý do. Thứ nhất, thị trường tài chính hiện tại có thể khác biệt so với giai đoạn lịch sử được sử dụng cho kiểm thử. Quy tắc thị trường và thành phần tham gia không ngừng thay đổi, và các công nghệ mới thường thay đổi hành vi giao dịch. Thứ hai, phí hoa hồng và phí giao dịch phát sinh trong giao dịch thật, và các giao dịch có thể ảnh hưởng đến thị trường ở mức giá trị tài sản ròng lớn. Điều này dẫn đến trượt giá và thiếu hụt thực hiện theo chiều hướng không có lợi. Cuối cùng, hiện tượng quá khớp có thể xảy ra, khi các nhà giao dịch thuật toán lựa chọn alpha từ các kết quả kiểm thử tích cực do ngẫu nhiên hoặc thiên kiến cảm xúc, nhưng những alpha này có thể có khả năng dự đoán hạn chế.

Hiện tượng quá khớp là rủi ro vốn có trong bất kỳ quy trình kiểm thử nào. Nó xảy ra khi một chiến lược giao dịch được điều chỉnh quá mức để phù hợp với dữ liệu quá khứ, không chỉ nắm bắt các tín hiệu thị trường cơ bản mà còn cả nhiễu và các biến động ngẫu nhiên. Một mối tương quan có vẻ có ý nghĩa hoặc một mối liên hệ ảo từ dữ liệu quá khứ có thể thiếu các nguyên nhân gốc rễ và cơ sở kinh tế để tái diễn trong tương lai. Với sức mạnh tính toán khổng lồ, khả năng khám phá các mối tương quan ngẫu nhiên có thể tăng lên, tương tự đối với rủi ro của hiện tượng quá khớp.

Các chiến lược giao dịch phức tạp triển khai trên dữ liệu quá khứ có thể có những quy tắc và tham số được tối ưu hóa cụ thể cho tập dữ liệu huấn luyện. Tuy nhiên, chúng có thể không đem lại hiệu suất tốt đối với dữ liệu mới, chưa từng xuất hiện bởi vì chúng được tối ưu hoá trong các điều kiện cụ thể, chẳng hạn như đại dịch, có thể không tái diễn ở quy mô tương tự.

Tương tự đối với học máy, luôn có sự cân bằng sai lệch và phương sai trong tài chính. Hiện tượng quá khớp xảy ra khi một chiến lược giao dịch nắm bắt được các mẫu hình cơ bản chính xác và cả dao động quá mức. Việc chọn kết quả với kiểm thử ấn tượng, còn được gọi là chọn lựa có chọn lọc, là một thiên kiến hành vi thường dẫn đến hiện tượng quá khớp. Tối ưu hoá tham số quá mức cũng có thể dẫn đến quá khớp. Do đó, cần duy trì được sự cân bằng giữa việc điều chỉnh dữ liệu và duy trì hiệu suất của chiến lược.

Làm thế nào để giảm thiểu hiện tượng quá khớp

Trong thống kê và học máy, các phương pháp khác nhau được đề xuất để tránh hiện tượng quá khớp trong quá trình học. Ví dụ như kiểm chứng chéo 10 lần, chuẩn hóa và xác suất tiên nghiệm. Gần đây, các bài báo nghiên cứu học thuật về giảm thiểu hiện tượng quá khớp đã được công bố trong lĩnh vực tài chính định lượng. Dựa trên các khái niệm trong thống kê học, sau đây là một số chiến lược giảm thiểu hiện tượng quá khớp trong kiểm thử.

Kiểm thử dữ liệu ngoài mẫu. Điều này bao gồm việc chia dữ liệu quá khứ theo chuỗi thời gian thành hai hoặc nhiều phần. Ý tưởng đặt ra là giữ lại một phần dữ liệu quá khứ để làm các bộ dữ liệu kiểm tra chưa xuất hiện. Phần giữ lại này đóng vai trò như một đại diện cho giao dịch thật. Cần lưu ý rằng các giai đoạn ngoài mẫu không diễn ra trước dữ liệu huấn luyện, vì dữ liệu huấn luyện có thể đã hấp thụ các sự kiện trong quá khứ.

Kiểm chứng chéo. Đây là một kỹ thuật được sử dụng để đánh giá hiệu quả một mô hình có thể khái quát được dữ liệu mới, chưa xuất hiện, tương tự đối với kiểm thử dữ liệu ngoài mẫu. Ví dụ như trong phát triển beta vượt trội. Những alpha tốt thường có hiệu quả đối với nhiều loại tài sản, sàn giao dịch và khu vực khác nhau. Ví dụ, các mô hình cổ phiếu ở Mỹ có thể ứng dụng đối với thị trường châu Á, hoặc các mô hình phát triển cho một sàn giao dịch có thể sử dụng trên một sàn giao dịch khác trong cùng một quốc gia.

Tăng yêu cầu về tỷ lệ Sharp đối với dữ liệu quá khứ. Một tỷ lệ Sharpe cao hơn đối với tập huấn luyện sẽ giảm thiểu rủi ro của hiện tượng quá khớp trong tập kiểm thử và trong giao dịch thật. Một mẫu hình thường được khuyến nghị huấn luyện trong một khoảng thời gian lịch sử dài hơn để nắm bắt được đa dạng các sự kiện thị trường. Việc kéo dài thời gian kiểm thử giảm thiểu khả năng của hiện tượng quá khớp ngẫu nhiên. Số ngày kiểm thử cần thiết để xác nhận một tỷ lệ Sharpe nhất định thường tăng theo cấp số nhân với tỷ lệ mục tiêu.

Giảm thiểu các tham số và phép toán. Hiện tượng quá khớp thường là kết quả của một mô hình có quá nhiều tham số. Các tham số này cho phép mô hình bám sát dữ liệu huấn luyện, nắm bắt được nhiều nhiễu hơn tín hiệu thực tế. Giảm thiểu số lượng tham số giúp mẫu hình trở nên ít nhạy cảm hơn đối với các thay đổi của tham số. Tham số ít hơn thường dẫn đến việc khái quát hoá được cải thiện.

Tối ưu hóa chuyển tiếp. Đây là một kỹ thuật giúp giảm thiểu rủi ro của hiện tượng quá khớp bằng cách chia dữ liệu quá khứ thành các đoạn thời gian chồng chéo nhau. Mỗi đoạn bao gồm một đoạn trong mẫu và một đoạn ngoài mẫu. Đối với mỗi đoạn, các tham số được huấn luyện sử dụng đoạn trong mẫu và đánh giá trên đoạn ngoài mẫu. Quy trình này được lặp lại với toàn bộ đoạn thời gian, và kết quả trung bình từ tất cả các đoạn ngoài mẫu cho một ước lượng thực tế về hiệu suất của chiến lược. Phương pháp này giúp tìm ra những chiến lược thích nghi với mọi điều kiện thị trường, và giảm thiểu hiện tượng quá khớp đối với một khung thời gian cụ thể.

Kết luận

Xây dựng danh mục với các chiến lược alpha thuần tuý nắm bắt được bản chất của những thay đổi thị trường đem lại lợi nhuận. Trong khi kiểm thử quan trọng để khám phá những alpha, nó cũng có thể dẫn đến hiện tượng quá khớp, dẫn đến khả năng phán đoán lợi nhuận sai lệch. Xây dựng một hệ thống mạnh mẽ đòi hỏi tìm ra sự kết hợp đúng đắn giữa sự phức tạp và tính linh hoạt để đảm bảo các chiến lược thành công trong điều kiện thực tế, không chỉ trong các mô phỏng lịch sử và giao dịch trên giấy.

Để giảm thiểu hiện tượng quá khớp, cần xác định được chính xác các alpha mạnh đóng vai trò chỉ dẫn tin cậy. Các alpha này có khả năng thích nghi trước những thay đổi đặc biệt của thị trường. Thị trường tài chính thường được mô tả bởi những xu hướng lịch sử và từng bước phát triển, phản ánh hành vi của các nhà giao dịch. Một alpha hiệu quả trong quá khứ có thể không mang lại lợi nhuận trong tương lai. Các thuật toán được tinh chỉnh liên tục với một quy trình kiểm thử hiệu quả là rất quan trọng cho sự thành công trong tương lai.