Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

gsscsd/VirtualCompete

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

3 Commits

Repository files navigation

一、比赛介绍

1.简介:

对股票价格趋势的预测是金融领域极为复杂和极为关键的问题,有效市场假说认为股票价格趋势不可能被预测,然而真实市场由于各种因素的存在并不完全有效,这对于股票市场而言相当于一种"错误"。这里我们为参赛者提供了大规模的股票历史数据,从而可以通过集合大家的智慧来纠正股票市场的这些"错误"。

2.数据说明:

数据集包括训练数据集和测试数据集两部分,训练数据集用来进行模型训练,是一个以逗号分隔的文本文件(csv),格式示例:

id feature0 ... weight label group1 group2 era
0 0.254232 ... 9.0 1.0 1 5 1.0
1 0.763212 ... 3.0 0.0 7 87 1.0

其中id列为数据唯一标识编码,feature列为原始数据经过变换之后得到的特征,weight列为样本重要性,label列为待预测二分类标签,group1和group2是两列类别特征,era列为时间区间编号(数值越小时间越早)。

二、特征选择及模型构建

拿到数据后,通过分析可以知道,数据特征维度为98维,并且每个维度都基本已经处理好了,因此,初期的想法是对所有特征,进行简单的归一化处理,然后用svm模型,然而,svm程序运行时间特别长,而且交叉熵比较高。之后,又通过降维处理,并且取一半的特征来用xgboost训练,在第11期效果比较不错,最后取得第一名的成绩。

然而在第12期,在测试集上比较差,很明显的过拟合,所以排名比较差。

在第13期,去除了降维处理,并且,取前一半的特征用xgboost处理,后一半特征用lightgbm处理,将两者的结果进行简单的加权融合,效果很不错,拿下第13期的冠军。

三、评估与性能分析

在本地采用了交叉熵做评估分析,除第9期,第12期外,线上和线下的结果差异不大,说明模型的效果很不错。经过调参发现,选择默认参数很不错。

选择xgb和lgb模型,除了效果不错外,其速度也是很不错的,实际上,svm的效果理论上是很不错的,但是其效率太慢,至少要运行8个多小时。

四、赛后总结

这次比赛是一次很好的锻炼,从实战中理解理论,熟悉了数据挖掘的一般过程。同时,可惜参加的比较晚,只是参加了最后5期的比赛,拿了两次周冠军,最终排名第10,希望能在以后的比赛中,能有更大的提升。

五、比赛排名

About

全球AI挑战赛之虚拟股票预测

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /