第81章 榜单之外
⚡ 自动翻页
开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  可是分钟级行情不是温度曲线,成交量不是传感器採样,停牌標记也不是设备掉线。
  如果连繫统的基本工作方式都没弄清楚,就急著下手清洗数据,那不叫审计。
  那叫把自己的无知写进脚本里。
  江临把下载页面暂时放到一边,新建了一个文档。
  標题只有四个字:量化补课。
  目標:学习这些数据在什么制度和流程下產生。
  他先从最基础的栏位开始查。
  开盘价,成交量,復权,涨跌停……
  每一个词他都只看最基础的定义,不往投资策略上发散。
  遇到讲十倍收益,稳定套利,资金曲线完美的帖子,直接关掉。
  遇到有人认真討论未来函数,倖存者偏差,样本外失效,滑点和衝击成本的长帖,才停下来读。
  两个小时后,他列出了六个必须先確认的制度性问题,从集合竞价边界到测试集隔离方式,並在纸上画出一条很粗糙的数据链路。
  最后评价为:量化数据不是市场本身,是市场经过多层设备,制度,软体和商业口径之后留下的影子。
  这句话写完,他又下载了数据字典和平台提供的baseline(基准参考代码)。
  数据字典是一个二十多页的pdf文件。