
前言
中国金融业飞速发展,尤其是2010年股指期货的推出,使得量化投资和对冲基金逐步进入国内投资者的视野。2012年丁鹏博士所著的《量化投资——策略与技术》出版后,更是推动了量化投资技术在国内的普及。目前,量化投资、对冲基金已经成为中国资本市场热门的话题之一,各投资机构纷纷开始着手打造各自的量化投资精英团队。
量化投资将投资理念及策略通过具体指标、参数的设计融入具体的模型中,用模型对市场进行不带任何情绪的跟踪,简单而言,就是用数量化的方法对股票、期货等投资对象进行估值,选取合适的对象进行投资。目前,量化投资的书籍主要集中在模型、策略及工具的使用上,但关于如何产生这些量化模型、量化策略的书籍的确非常少。金融市场瞬息万变,为了更好地进行量化投资,我们要不断去验证既有模型的有效性,同时要想在金融行业保持自己的竞争力,又必须不断开发新的模型,而验证模型、开发模型这些量化投资的主要内容都需要数据的支撑。另外,金融领域是数据资源保存较好且较为丰富的行业,在金融领域已经积累了大量的数据,同时每天还在产生大量的交易数据、价格数据等信息。这些数据资源正好为量化投资提供了很好的数据基础,那么问题的关键就是如何利用金融行业丰富的数据资源更好地进行量化投资。
数据挖掘技术是从数据中挖掘有用知识的一门系统性的技术,刚好解决了数据利用的问题,所以,数据挖掘与量化投资便很自然地结合在一起。但数据挖掘在国内是一个新的领域,所以还没有关于量化投资与数据挖掘相结合的书籍。另外,目前关于数据挖掘的几本书大多数是译著,由于语言和文化的差异,国内读者读起来相对吃力。在这样的背景下,能有一本书介绍如何利用数据挖掘技术进行量化投资还是很好的。
笔者在MathWorks平时的工作职责之一是支持金融客户,相当比例的工作是关于量化投资的,另外的职责是支持其他商业客户的数据挖掘,所以对这两个领域都有一定的了解。在一次研讨会上,丁鹏博士与笔者讨论了数据挖掘在量化投资中的应用,他认为这是个非常好的课题,并建议笔者写一本这样的书。笔者对这个课题也非常感兴趣,于是就开始了本书的创作。
本书第1版于2017年出版,已经印刷了6次,不少热心的读者发来电子邮件与作者讨论书中的内容,并反馈一些建议和不足。为了回馈读者,也为了让本书质量更好,在原来的基础上修改了一些问题,并加入一些新的内容。
本书内容
全书内容分为三篇。
第1篇为基础篇,主要介绍一些基本概念和知识,包括量化投资与数据挖掘的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等,并在第3章中介绍了MATLAB快速入门及实用技巧。
第2篇为技术篇,是本书的主体,系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用实例。这部分又分为如下三个层次:
(1)数据挖掘前期的一些技术,包括数据的准备(收集数据、数据质量分析、数据预处理等)和数据的探索(衍生变量、数据可视化、样本选择、数据降维等)。
(2)数据挖掘的六大类核心方法,包括关联规则、回归、分类、聚类、预测和诊断。对于每类方法,详细介绍了其包含的典型算法,包括基本思想、应用场景、算法步骤、MATLAB实现程序。同时,对每类方法还介绍了一个在量化投资中的应用案例,以强化这些方法在量化投资中的实用性。
(3)数据挖掘中特殊的实用技术,包含两章内容,一是关于时序数据挖掘的时间序列方法,二是关于优化的智能优化方法。这个层次也是数据技术体系中不可或缺的技术。时序数据是数据挖掘中的一类特殊数据,并且金融数据往往具有时序性,所以针对该类特殊的数据,介绍了时间序列方法。另外,数据挖掘离不开优化,量化投资也离不开优化,所以又以一章介绍了两种比较常用的智能优化方法——遗传算法和模拟退火算法。
第3篇为实践篇,主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘与优化、配对交易策略的挖掘与实现、基于Wind数据的程序化交易、基于Quantrader平台的量化投资、趋势跟踪策略及实现过程。最后一章——基于数据挖掘技术的量化交易系统,给出了集成主流数据挖掘技术的量化投资系统的框架。读者可以利用该框架,依据书中介绍的数据挖掘技术,结合自己的情况,开发出属于自己的量化交易系统,从而轻松实现从理论到实践的跨越,更好地利用数据挖掘技术在量化投资领域乘风破浪,不断创造佳绩。
本书特色
纵观全书,可发现本书的特点鲜明,主要表现在如下几方面。
(1)方法务实,学以致用。本书介绍的方法都是数据挖掘中的主流方法,都经过实践的检验,具有较强的实践性。对于每种方法,本书都给出了完整、详细的源代码,这对读者来说,具有非常大的参考价值,很多程序可供读者直接套用并加以学习,读者可以将其直接转化为自己的量化投资实战工具。
(2)知识系统,易于理解。本书的知识体系应该是当前数据挖掘书籍中较全、较完善的,不仅包含详细的数据挖掘流程、数据准备方法、数据探索方法,还包含六大类数据挖掘核心方法、时序数据挖掘方法、智能优化方法。正因为有完整的知识体系,读者读起来才有很好的完整感,更利于读者理解数据挖掘的知识体系,这对于读者学习本书内容非常有帮助。
(3)结构合理,易于学习。在讲解方法时,由浅入深,循序渐进,让初学者知道入门的切入点,让专业人员又有值得借鉴的“干货”。基础篇、技术篇和实践篇的结构部署也让本书独树一帜,让读者在学习数据挖掘和量化投资的过程中有一个循序渐进的过程,使读者在短时间内成为一位数据挖掘高手,同时成为一位量化投资高手。
(4)案例实用,易于借鉴。绝大多数案例是量化投资领域的实例。本书内容都在有意引导读者思考如何让数据挖掘在量化投资中产生更实际的价值。
(5)主线明晰,脉络分明。本书涉及的知识面宽广,以数据挖掘和量化投资为中心,辐射银行、债券、营销、零售等领域和学科。为了与书中主线保持一致,对于这些领域的介绍虽然只是略微带过,但是从侧面折射出了数据挖掘技术真的正在广泛服务于社会各个领域。在现代社会,某学科单打独斗的时代已经过去了,本书在无形之中已经树立了一个意识:各学科的知识之间是相通的,运用知识的最高境界是各学科知识的大融合。
(6)理论与实践相得益彰。对于本书的每种方法,除理论的讲解外,都配有一个典型的应用案例,读者可以通过案例加深对理论的理解,同时理论也让案例的应用更有信服力。本书对技术的介绍都以实现为目的,同时提供大量技术实现的源程序,方便读者学习,注重实践和应用,秉承笔者务实、贴近读者的写作风格。
(7)内容独特,趣味横生。本书的很多方法和内容是同类书籍所没有的,这无疑增强了本书的新颖性和趣味性。
(8)文字简洁、明了,易于阅读。本书在保证描述精准的前提下,摒弃那些刻板、索然无味的文字,让文字充满活力,更易于阅读。
读者对象
• 从事投资工作的专业人士,包括证券、基金、私募、信托、银行、保险等领域的从业者。
• 从事数据挖掘、数据分析、数据管理工作的专业人士。
• 金融、经济、管理、统计等专业的教师和学生。
• 从事量化投资或数据挖掘方向研究的科研工作者。
• 希望学习MATLAB的工程师或科研工作者。因为本书的代码都是用MATLAB编写的,所以对于希望学习MATLAB的读者来说,本书也是一本很好的参考书。
致专业人士
对于从事量化投资工作的专业人士来说,书中的数据挖掘技术是值得借鉴的技术,至少会有助于挖掘量化策略。书中的实例都具有一定的实战背景,含有一些数据挖掘层面的策略,大家可以尝试将这些技术和策略融入自己的思想和策略中,让自己的策略更强大。另外,对于书中介绍的各种方法的理论,如果你有很好的数学或计算机背景,且有时间或感兴趣,可以认真阅读,否则理论部分可以直接跳过。但是,对于每种方法的思想和应用场景,读者一定要领悟,这样当遇到合适的场景后,读者可以马上想到用哪种方法,然后直接借鉴书中的源代码即可轻松地将这些方法应用到自己的量化投资实践中。
对于从事数据挖掘工作的专业人士来说,大家可以关注整个数据挖掘知识体系和数据挖掘的流程,因为本书的数据挖掘知识体系在当前数据挖掘书籍中是比较全面和完善的。
致教师
本书系统地介绍了数据挖掘技术的理论、方法和案例,可以作为金融、经济、管理、统计等学科的本科生专业教材或研究生教材。相比一般的数据挖掘教材,本书更容易激发学生的学习兴趣。兴趣是最好的老师,这对开展教学是非常有利的。
书中的内容虽然系统,但也相对独立,教师可以根据课程的学时安排和专业方向的侧重,选择合适的内容进行课堂教学,其他内容则可以作为参考章节。授课部分,一般包含第1篇的3章和第2篇的前8章,总共11章内容,如果课时较多,则可以增加其他章节,包括后面案例的学习内容。
在进行课程备课的过程中,如果您需要书中的一些电子资料作为课件或授课支撑材料,可以直接给笔者发电子邮件(70263215@qq.com)说明您需要的材料和用途,笔者会根据具体情况,为您提供力所能及的帮助。
致学生
作为21世纪的大学生,无论是什么专业背景,都有必要学习数据挖掘和量化投资,原因如下:
第一,21世纪的信息非常丰富,很多都以数据形式存在,学习并掌握数据挖掘技术,有助于我们从更深层次了解这个社会,也有助于我们解决工作中遇到的问题。
第二,现代人无论从事什么工作,都应具有一定的投资意识和投资能力。21世纪是和平而充满竞争的时代,失业对每个人来说都有可能发生,当我们失业的时候怎么办?如果懂得投资,那么至少让自己生活得很好是没有问题的。特别喜欢一句话,“喜欢做一名宽客,是因为可以自己掌握命运”,这里的宽客就是指从事量化投资的人士。
所以,读者无论现在学习什么专业,都应好好读一下这本书或同类的书籍。相信读者一定会因为曾学习过数据挖掘和量化投资而备感欣慰!
资源下载方式
(一)配套程序和数据
为了方便读者的学习,我们将提供书中使用的程序和数据,下载地址为:http://www.ilovematlab.cn/thread-486972-1-1.html。
如果遇到下载问题,也可以直接发电子邮件与笔者联系。
(二)配套教学课件
为了方便教师授课,我们也开发了本书配套的教学课件,如有需要可以与笔者联系70263215@qq.com。
致谢
本书的编写出版得到了中国量化投资学会、电子工业出版社等单位的帮助,在此对这些单位表示感谢。特别感谢丁鹏博士在百忙之中指导本书的编写并为本书写序。在编写本书的过程中,中国科学院金属研究所的王恺博士,MathWorks的敖国强博士、陈小挺博士,上海交通大学的李牧芳等好友和同事对本书进行了校对并给出修改建议,电子工业出版社的李冰老师全程指导本书的编写,在此向他们表示感谢。
由于时间仓促,加之作者水平有限,所以书中疏漏之处在所难免。在此,诚恳地期待得到广大读者的批评指正。
卓金武
2020年5月 苏州