ETF一二级市场T+0交易数据分析挖掘,中小板指数代码是多少

中小板 7
ETF一二级市场T+0交易数据分析挖掘 山东大学齐鲁证券金融研究院项目负责人:杨维强 项目组成员:王海琳、郑骅、田英良 摘要 我们在去年基础之上做了进一步工作,编制了ETF策略展现软件,把交易数据与每日分笔数据进行整合,可以方便对交易记录进行观察、猜测、修改参数、对比、验证,并对客户的策略进行深入分析,编了相应的程序化交易策略。
简介 投资者在金融市场里的目的只有一个:赢利,通过对市场的走向判断进行买卖以希望实现盈利。
但是由于每个人都有自己的判断,从而形成自己的交易策略。
著名的投资者有很多,像索罗斯、巴菲特、西蒙斯、约翰·保尔森等,各有自己的绝招,策略不一而足。
常见的交易方式有手工交易和程序化交易,手段有消息面、基本面、技术分析、形态分析等。
手工交易通常是凭借形态、指标、消息进行综合判断等入场出场,有能力的个人和机构可以用程序来完成量化交易。
由于指标多种多样,参数多种设定,理论上每个人都可以做 出无穷多个策略,但想让策略能够持续盈利则是非常困难的事情。
有一些客户在市场中获得了远远超出其他人和大盘的收益,现在考虑一个反问题,是否可以通过分析这些客户的交易记录和其他可能的信息来挖掘出他们的交易策略。
客户怎么思考是黑匣子,如果客户采用的交易思想简单、指标固定,坚决执行策略,特别是程序化交易,则挖掘出他的策略相对容易,而如果客户手工交易,由于各种原因,交易思想不一定贯彻到底,锚定目标不断变化,造成进出场的条件不断发生变化,同时客户也在不断改进自己的策略,参数也在不断发生变化,反演是极其困难的,而如果客户是一个团队在并肩作战,那么复杂度更是大大增加。
这有点像不同的液体和溶剂混合在一起,是否能分辨出有哪些成分。
一般而言全部分析出是很困难的事情,但常用的手段就那一些,可以尝试分析出一部分。
我们已知某些客户是通过ETF一二级市场进行T+0交易。
可能采用的工具和方法有:通过ETF套利软件交易;通过ETF分时线看形态手工交易;搭配指标信号进行手工或者程序化交易;有更为复杂的程序化交易系统。
我们需要不断缩小范围,挖掘出客户的策略。
客户的交易记录数据非常复杂,不仅仅是购买—申购/赎回—卖出的轮回这么有规律,存在很多例外,例如卖出一篮子股票绝大部分都是深100ETF成分股,但是其中夹杂了12只成分股之外的股票;或者在正常的交易轮回中夹杂着一两只股票的交易,对这些交易的判定有很大难度。
数据 分析的首要基础工作是把交易记录和分笔价格数据放到一起对比,把买卖时点和价位标在走势图上,给人进出场的直观形象,然后才能做进一步判断。
数据是研究的基础,基础不 牢,则研究的可信度就低。
由于前面提到客户交易的方法多种多样,而手工交易随时会发单,因此对数据的要求极高,如果是做全面而精细的分析需要客户交易记录、ETF分笔数据和ETF成分股的分笔数据。
但如果遇到数据捉襟见肘的情况则需要把问题做适当的简化,分步骤进行分析。
数据准备 余冠敏和孙华民经理为数据的准备工作付出了辛苦努力,从青岛香港中路营业部提取了一些客户的交易记录和ETF的价格数据,这个过程花了两个星期左右。
每天收盘后至第二天开盘前只能提取一个客户半年的交易记录,约50万条交易记录,这是由于买入卖出ETF成分股会生成多条交易记录,例如一轮180ETF交易包含约180条左右的记录。
数据提取的过程也不是一帆风顺,由于不同的数据在不同的表中,第一次提取的数据缺少某些字段,后来又重新提取,通过对多张表进行查询提取工作。
ETF的价格数据最初余经理提供的是四只最活跃的品种一分钟K线数据,这个频率对于分析来说是不够的。
后来我们收集到每日ETF分笔交易的数据进行分析。
下图是每日分笔数据压缩包,每年有200多个压缩包。
每个压缩包内的数据包含当日所有交易品种的分笔数据,每个文件大小从10k-500K不等,这样一个压缩包的大小有几十
M,每年的数据有几十个
G。
分笔数据示例,数据差不多3秒钟一个,包括时间、价格、成交量、成交额、买卖五档。
数据展示
1.客户交易记录交易记录数据包括:代码为053230028571的客户2011年下半年,2012年全年,2013 年上半年的交易记录。
代码为53230025779的客户2012下半年的交易记录。
代码为053230026242的客户2013年上半年的交易记录。
这是客户交易记录的片段,字段很多,这里只展示了约1/3的字段
2.ETF价格以及ETF指数的分笔数据每天每支产品的分笔数据为一个csv文件,当天所有的数据文件为一个压缩包。
图:深100ETF(代码159901)2012年8月27号的部分分时数据
3.可利用数据 由于在分析ETF交易策略时需要同时考虑ETF客户交易情况以及ETF价格及其跟踪指数的分时数据,因此可以进行分析的数据即代码为053230028571的客户2011年下半年及2012年全年的交易记录以及代码为53230025779的客户2012下半年的交易记录。
数据提取及处理
1.对客户交易记录数据的处理原客户交易记录中有33列数据,为减少输入程序的数据,提高运算效率,只提取其中11列有价值的数据用来分析。
图:提取11列有价值数据后客户部分交易数据
2.对ETF价格及指数的提取与处理 现有数据为2011年及2012年每日所有股票,ETF基金,指数的分时交易数据。
可以用把所有成分股数据根据权重求和,算出指数,但是指数每半年会进行调整,特殊情况也可能进行临时调整,如果详细算出成分股综合之后的效果将是巨大的工作量。
而其实效果上等同于直接使用指数数据。
例如上证180指数(部分)成分股如下图 可以直接使用上证180指数,代码为000010。
ETF成分股每半年调整一次,同时每日公布申购赎回列表,申赎列表如下格式 再以深证100为例,看某日价格数据,由于深100ETF[159901]变动最小为1厘,看上去锯齿状很明显,而深证100指数[399330]数量级为10^
3,数据按比例缩小后可以与ETF数据非常接近,而中间的变化可以小于1厘,这就造成ETF与指数之间实际上总存在价差,只是大小的问题。
每轮交易的记录提取及算法 为了分析交易策略,首先需要提取出完成每次套利交易所涉及到的交易记录。
由于数据数量巨大,因此需编写程序来判断每一条交易记录是属于哪一次套利交易,并将属于不同次交易的记录归类。
通过分析数据,可以得出绝大多数情况交易员在完成一整次套利交易后才会进行下一次套利,因此出现在一次套利交易中穿插另外一次套利交易的记录情况极少,可以不予考虑,在以下的算法中只考虑大多数情况下的套利交易。
套利交易分为两种,一种是先买入股票,再申购,最后卖出ETF,另一种是先买入ETF,再赎回,最后卖出股票。
由于每条记录中包含此条记录是对哪只股票或ETF进行操作,进行何种操作,以及进行操作的时刻,因此只需 要通过程序得到以下几个记录即可对每次操作有清晰的认识:
1.每次交易的开始点的记录及结束点的记录
2.申购(或赎回)开始及结束的记录算法:
1.判断出每笔交易ETF申购或赎回开始和结束的记录
(1)判断第一条记录是否为申购(或赎回),若是则
(2),若不是,则判断下一条记录是否为申购(或赎回)
(2)判断此
(1)中记录的上一条是否也为对相同ETF的申购(或赎回),若不是,则此申购赎回记录为此次交易申购(或赎回)的开始点(记为a)。
若是,则继续考虑其上一条记录,直到找到开始点。

(3)考虑开始记录的下一条记录,若此记录为对于相同ETF的申购(或赎回),则再考虑下一条记录(记为c),以此向下,直到找到一条记录不是对同支ETF的申购(或赎回)(记为x),则x的上一条记录为ETF申购(或赎回)的结束点(记为x-1)。

2.判断出每笔交易的开始点的记录及结束点的记录分为两种情况:交易为申购还是赎回申购:
(1)由1知ETF申购的开始点记录a,则先于a的且最邻近a的多条记录应为股票买入,因此从记录a向上寻找不是买入股票的记录,遇到的第一个不是股票买入的记录(记为y),y的下一条记录为此次ETF交易的起点。

(2)由1知ETF申购的结束点记录为x-
1,则晚于x-1且最邻近x-1的多条记录应为卖出ETF,因此从记录x-1向下寻找非卖出ETF的记录,遇到的第一个不是卖出ETF的记录(记为z),z的上一条记录为交易结束点记录。
赎回:
(1)由1知ETF赎回的开始点记录a,则先于a的且最邻近a的多条记录应为ETF买入, 因此从记录a向上寻找不是买入ETF的记录,遇到的第一个不是ETF买入的记录(记为p),p的下一条记录为此次ETF交易的起点。

(2)由1知ETF赎回的结束点记录为x-
1,则迟于x-1且最邻近x-1的多条记录应为卖出股票,因此从记录x-1向下寻找非卖出股票的记录,遇到的第一个不是卖出股票的记录(记为q),q的上一条记录为交易结束点记录。
举例说明: 上图为客户交易数据的截图,从第35行到208行都为证券卖出,此处省略中间部分股票。
对于以上例子,运用算法
1.判断出每笔交易ETF申购或赎回开始和结束的记录
(1)从第二行开始判断,是否为申购或赎回操作。
发现第8行为ETF赎回。

(2)从第8行向上找,发现第7行不是ETF赎回操作,则说明第8行为ETF赎回的开 始点记录。

(3)从第8行向下找,发现第9行仍为ETF赎回操作,则考虑第10行,第10行不 为ETF赎回操作,因此第9行为ETF赎回的结束记录。

2.判断出每笔交易的开始点的记录及结束点的记录 此例为赎回的情况
(1)由1知第8行为ETF赎回的开始点,则考虑其上方记录,第5、6、7行都为证 券买入,第4行不为证券买入,说明第5行为整次交易的开始点。

(2)由2知第9行为ETF赎回的结束记录,考虑其后的记录,直到第205(包括第205行都为证券卖出),第206不为证券卖出,因此205行为此次交易的结束记录。
图:20120702-0706客户交易记录经上述算法处理后每次交易的提取注:
1.第一列:ETF申购为
3,ETF赎回为4
2.第二列至第五列的数字表示记录所在原数据的行数 ETF介绍 ETF作为一种创新证券品种,能帮助投资者便捷实现指数化投资,并且管理和交易费用低廉,因而自04年底第一只ETF成立以来,广受市场欢迎,成交日趋活跃。
2013年,ETF数量已经超越50支,市场中存在着各式各样ETF交易策略: ETF一二级市场价差套利 ETF套利针对的是ETF一级市场申赎价格和二级市场交易价格的差异。
当价差足够大时(能够覆盖交易成本),通过两个市场的申赎和买卖就能够实现无风险套利。
根据价差的高低可以分为溢价套利和折价套利。
交易流程为 ETF二级市场价大幅低于IOPV价格 二级市场买入ETF 申请赎回ETF份额 卖出赎回的股票 套利结束 ETF二级市场价格大幅高于IOPV价格 二级市场买入ETF成分股 申请申购ETF 卖出ETF分额 套利结束 ETF套利流程 交易是要付出成本的,包括:ETF申购/赎回费用、经手费、过户费、证管费、证券结算金印花税ETF二级市场交易佣金、股票交易佣金市场冲击成本 根据海通证券《量化策越研究》(2013)的研究,“目前,第一部分的交易成本大概在3bp(1bp=0.01%)左右,第二部分的印花税成本为10bp,只在折价套利卖出股票时缴纳,第三部分的佣金费率的高低则有赖客户同券商的谈判能力,我们假设ETF和股票交易的平均佣金费率为5bp。
这三部分成本的总和通常称为固定交易成本,按我们的费率估算数值,溢价套利的固定交易成本为13bp,折价套利的固定交易成本为23bp。
”市场冲击成本则依赖于ETF、股票的市场成交量和参与套利交易的资金量大小。
由此可以看出,不含冲击成本 的交易成本应当在13bp到23bp之间。
延时套利 因为50ETF的申购赎回,需要100万单位作为最低限额,这样大单的买卖使得冲击成本变成ETF交易的一个主要成本。
而通过算法交易的方法,进行延时下单交易,成为一个降低冲击成本的重要方法。
也就是说,不是让大单一次买入或卖出,而是以一个较小的时间段来承受,从而起到减小冲击成本的作用。
虽然下单时间长了,存在价格涨跌的不确定风险,但如果一笔成交,势必导致较大的冲击成本。
关于冲击成本的影响,从长江证券《程序化交易》(P13,2008)的研究中可以看出,它的存在可使原本达到10.21%的交易总收益率化为-7.71%。
所以延时套利其实是用不确定性来换取确定的冲击成本损失,也可以认为是快速超短线投机。
T+0趋势交易 根据ETF形态或指标分析,确定入场出场点,从而达到获利的目的。
其时间跨度比延时套利要长。
在入场的时候可以利用价差选择买入股票还是买入ETF。
具体策略
1.形态识别。
在上涨趋势的回调处入场,抓V型底等。

2.高低点比较策略。
如果指数运行刚出现了一个低点,而当前低点的指数高于前一个低点的指数,同时处于空仓状态,则认为出现了一个买点,这时买入指数,转变为持仓;如果指数运行出现一个高点,而当前高点的指数低于前一个高点的指数,同时处于持仓状态,则认为出现了一个卖点,这时卖出指数,转变为空仓。

3.行情突破策略。
在行情出现虽然当前高点要高于前一个高点,但是如果往下突破了上一次低点,那么在突破时卖出;如果当前低点虽然低于上次低点,但如果行情继续往上突破了上个高点,那么在突破时买入。

4.行情滤波策略。
如果布林带很窄,即认为行情进入了整理形态,暂时停止交易。
同时继续观察,如果变宽超过该参数,则恢复到交易状态,同时如果其继续变小,小于某参数,则可能展开趋势,则应用布林极限等组合策略判断趋势展开的真伪,如果为真,则进入交易状态,如果判断为假,则维持原状态。

5.对极点的识别。
先画出指数的高频数据的轨迹,然后画出此轨迹的布林线,加减指数高频数据2倍标准差的轨迹,就得到上轨线和下轨线。
如果指数在上次是出现高点后,往上首次突破上轨线,则认为此时是一个局部低点。
如果指数在上次是出现低点后,往下首次突破下轨线,则认为此时是一个局部高点。
交易流程 程序通过分析当前的价格走势情况,给出买入和卖出的信号,然后通过判断比较ETF价格和IOPV净值来选择套利的类型。
关于套利的方面,我们容易理解:由于ETF和其成分股在同一时间本应价格趋同,一旦二者不同,就可买入价格相对低的,申购或是赎回,再卖出相对高的,达到盈利。
而这里需要注意的是,由于ETF不能卖空,我们只能在ETF价格上涨时做买入交易,至于是买入ETF还是其成分股,则由ETF价格和IOPV净值的大小决定。
发现买入信号比较ETF价格和IOPV净值 ETF价格更低买入ETF 赎回成分股发现卖出信号卖出成分股 IOPV净值更低买入成分股申购ETF发现卖出信号卖出ETF T+0趋势交易流程图 从这个意义上来说,我们可以知道,整个一次交易的开始与结束,主要与买卖信号有关,而如何得到这些买卖信号,则成了金融分析师的主要研究方向。
增强指数型策略 该策略要求投资者长期持有ETF(或股票组合),当价格高于IOPV一定幅度时,将ETF卖出,并买入股票组合申购ETF;当价格低于IOPV一定幅度时,卖出股票组合,买入ETF并 赎回得到股票组合。
可见,与一般的套利流程相比,该策略的起点和终点发生了变化,并由“先买后卖”变成了“先卖后买”。
该策略更适合长期看好A股的投资者。
由于一直处于持仓状态,该策略有较高的系统性风险。
事件套利 当成份股停牌、涨(跌)停时,可利用ETF进行事件套利,套取看涨的股票或减持看空的股票。
当某成份股停牌,投资者预期将公布利好消息,或某成份股已封涨停,投资者预期该股票在次交易日会继续大涨时,可买进ETF,再将其赎回,并抛售其他成份股,从而套取以其他方式无法买入的股票;当某成份股停牌,投资者预期将公布利空消息,或某成份股已封跌停,投资者预期该股票在次交易日会继续大跌时,且投资者已持有该成份股,可买进其他成份股,并以此申购ETF,再将卖出,从而顺利减持看空的股票(以其他方式无法抛售)。
事件套利是一种方向性套利,当成份股后市的走势与投资者预期的一致时,可获利,否则,可能面临亏损。
当然,投资者预期成份股的盈利(或规避的损失)与(有利的)价差要能够覆盖交易成本。
因此,事件套利一般要求标的成份股的权重较高。
但是,如果基金管理人将停牌的成分股设置为必须现金替代的证券,事件套利将无法进行。
策略对比表 从表中来看,而趋势交易机会较多,其他策略的机会较少。
另外,利用ETF做日内T+0交易有三个缺陷:
1.一般只能做多头交易,除非是增强指数型策略;
2.交易成本高。
卖出赎回的成分股时要支付股票交易佣金和印花税;
3.执行难度大。
ETF跟踪指数的成分股数量较多时,同时卖出大量股票的交易执行难度大,交易完成时间的不同会造成其对指数的跟踪误差;可以利用融资融券克服这几个问题。
融资融券实现T+
0 用融资融券的交易方式,可以很便捷的实现ETF日内T+0交易,并避免上述三个问题。
对于空头方向的T+0交易,可以先融券卖出相应ETF,需要平仓的时候给交易系统下达“买券换券”指令,通过信用账户买入ETF并归还原先的融券,了结交易。
这种日内交易方式不受交易次数的限制,而且由于是日内就完成了借券换券,投资者也不需要承担融资融券的利息,整个过程仅需支付ETF的交易佣金。
对于多头方向的T+0交易,上证和深证的ETF由于两个交易所交易系统设置上的不同,操作方式上有较大差异。
首先都是融资买入ETF,在需要平仓时融券卖出同等数量的ETF份额,锁定收益。
之后,上证交易的ETF可以马上选择“直接还券”,即用之前买入的ETF来偿还之后从券商融出的ETF份额,了结交易,不用支付融资利息。
而深证交易的ETF则不行,必须等到下一个交易日开盘才能“直接还券”,因而投资者需承担期间每天万分之二点五左右的利息费用(融资融券的利息按自然日计算),而且在此期间投资者的资金一直被占用,不能反复操作。
数据分析 由于数据的限制,无法算出ETF与IOPV的价差,对于套利的判断依据不够,暂时的思路是把一篮子股票的交易看作是对ETF的直接交易,这样只看ETF数据,简化了原来问题,并推断交易方式。
对50ETF2013年5月2日至2013年11月12的数据进行计算,我们可以算出每分钟ETF价格变化的绝对值的均值为约为0.001(0.001003154)元,即10bp左右。
如果没有价差,每轮交易想要获利,即使没有冲击成本,买卖间隔平均要大于1分。
交易时间分析 通过分析2013年五月份(交易记录和ETF数据的重叠区间),所有的ETF和股票交易,我们可以得到一笔交易的时间间隔以及ETF申购赎回与ETF买卖的时间间隔的数据。
处理后,我们将交易时间间隔的数据做成如下表所示。
交易用时<1min 表1:2013年5月交易用时统计 次数 比例 73 50% <2min 96 65% <3min 109 74% <4min 129 81% <5min 129 88% >5min
总计 18 12% 147 可以看出1分钟之内的完成交易的次数占50%,如果价差很小则很难赢利,延时套利在 其中应占不小比例,而随着交易时间跨度的增长,投机性越来越强,超过5分钟跨度的交易 占到12%。
在对2012年上半年的数据进行统计我们得到如下表格, 表2:2012年上半年交易用时统计图2012年上半年交易用时比例图 交易用时 比例 <1min<2min<3min<5min<8min<15min>15min 54.8%59.05%62.97%70.1%78.87%91.4%100% 统计分析 通过统计,我们得到2012年以下几只ETF交易次数以及各自所占比例,具体如下表, ETF名称 ETF 交易比例 易方达深证100ETF华夏中小板ETF华安上证180ETF华泰柏瑞沪深300ETF南方深成ETF国联安上证商品ETF华夏上证50ETF广发中小板300ETF国泰上证180金融ETF鹏华深证民营建信深证60ET博时深证200ETF 159901159902510180510300159903510170510050159907510230159911159916159908 67.3%3.7%3.3%2.0%0.7%0.7%0.5%0.4%0.2%0.1%0.1%0.1% 易方达深圳100ETF[159901]在所有交易中占相当大的比例。
从易方达基金管理公司得到 的数据分析表明,深证100指数的收益率及波动性(以年化标准差衡量)综合来看好于大部 分其它主要指数,如下表所示: 指数 上证180上证50上证A指深证100深证A指深证成份A指 日均收益率 -0.05% -0.04%-0.05%-0.03%-0.05% -0.03% 日均收益率标准差 1.32% 1.31%1.35%1.41%1.45% 1.40% 年化标准差 20.38%20.26%20.85%21.78%22.50% 21.66% 数据来源:天相投资分析系统,统计区间为2004~2005年。
深证100指数更适合于短线波段操作,结合ETF上市交易、买卖便捷、费率低廉的特点,易方达深证100ETF为偏好频繁操作的短线交易者提供了良好的交易品种。
软件展示 基于软件的分析使得我们可以拥有和交易者相近的视角,从而能够更加容易地判断其交易时所用的策略。
我们利用近似的方法,将指数转化为ETF净值,与ETF价格图画在一起, 并标记上ETF交易时间和买卖方向等数据。
由此可以形象地看到,每笔交易发生时的净值与价格之差等情况,从而更好的分析其使用的交易策略。
选择某交易日,整合分笔数据和交易数据 选择程序化交易策略 标出理论买卖点和实际买卖点 参考文献 【1】朱剑涛、杨勇。
量化策略研究:ETF相关投资交易策略。
海通证券,2013.1。
【2】范辛亭、谭卓。
程序化交易:指数日内交易策略研究----利用ETF的申购和赎回。
长 江证券,2008-11-18。
【3】蒋瑛琨等。
沪深300ETF套利策略分析。
国泰君安证券销售交易总部,2010.2【4】邱小平。
ETF套利策略研究。
浙商证券,2009.8

标签: #型钢 #多少钱 #发际 #cf #原子 #要多 #信用 #多少钱