九月底参加了一个数据挖掘比赛,数据集有43个G,代码倒是用Python写出来了,跑了其中的一个Excel表的前10w行,效果还不错。但数据量太大了,用服务器跑都显得慢。效率低的另外一个重要原因是Python众所周知的效率问题,实际上,Python很多的函数或者说语法,例如列表生成式就是用C语言写的,而Python的for循环就很慢,属于在大数据集上不能用的语句(可用map替换)。所以,开始看北大裘宗燕教授所著的《数据结构与算法--Python语言描述》,把书中涉及到的代码自己实现了一遍,并且给出了详细注释。另外,看了袁国忠学者所译的《算法图解》,里面介绍了一些贪心算法、动态规划等经典算法,有所收获,代码也一并贴出。
-
Notifications
You must be signed in to change notification settings - Fork 0
PatrikYu/AlgorithmDiagram
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Latest commit | ||||
Repository files navigation
About
数据结构与算法
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published