Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

buaabilly/MachineLearning

Repository files navigation

一些机器学习的资源

本仓库已与我们创建的新仓库合并,请移步:https://github.com/allmachinelearning/MachineLearning

关于迁移学习和行为识别的资料,请见我的下面两个仓库:

致力于分享最新最全面的机器学习资料,欢迎你成为贡献者!



1.关于技术本身的情况

1.1 Machine Learning的一些理解

  • 机器学习的概念自不用多说。这里我仅提到一点,机器学习在学科分类上是属于实现人工智能的一种重要方法,注定它和AI是不可分的。其实,传统的AI一直都侧重解决三个步骤的问题:知识的表示、知识的获取和知识的学习。其中,机器学习涵盖了知识的获取和学习两大部分,是AI的核心部分。其实说白了,ML解决的就是怎么从已知推断未知,它走的是归纳(induction)这个自上而下的过程,AI中还有一个相对立的知识体系叫做演绎(deduction),这个主要是自动推理的范畴,和机器学习基本关系不大,是较独立的一支。

1.2 一些课程资料

  • 课程1:很有名的课程,你肯定知道,Andrew Ng在Stanford开的课,地址:吴恩达的机器学习公开课。该课程的优点:简单易懂,适用于初学者,特别适合入门及数学能力一般的,不难。缺点也很明显,基本都是点到为止,讲解不够深入,只适用于初学。

  • 课程2:这个也是coursera上的课,讲师是国立台湾大学的林轩田,这个老师拿过三年的KDD Cup冠军,是机器学习界讲课不错的老师。他的课有两门,分别是机器学习基石(适合入门),机器学习技法(适合提高)。这个老师讲课很有意思,特别是台湾普通话听着还不错。

  • 课程3:Coursera上非常著名的神经网络课,讲师是多伦多大学的Geoffrey Hinton,深度学习的大牛!一定不要错过!

1.3 瓶颈问题

  • 不知道什么特征是重要特征。所以像deep learning很有用,是因为它能自动学习特征
  • 现实世界中有label的数据太少,所以限制有监督学习算法(这个个人感觉太正常了)。
  • 计算复杂度和数据量(这个是Big Data的瓶颈)
  • 局部极小值问题(算法问题)

1.4 发展及预测

  • 我眼中未来的ML应该是,几乎没有冷启动问题(针对一个特定问题,自己获取特征进行标注作为测试),是一个不间断在线学习的系统,系统能够对新加入的数据进行自动判断其是否能进入测试样本,用户看来,这就是一个高度智能的系统,随时出反馈。

  • 模型及算法应该是对用户透明的,所有人不需要一点有关算法的知识就可以进行运用,这一点在我之前与你提到的DataRobot公司已有说明,自动根据用户的数据在云端测试各种模型并给出最优参数及结果。我感觉对未来的ML而言,由于Big Data的不断发展,计算复杂性必然不能成为问题。这应当成为未来的趋势之一。

  • 数据获取不能成为问题。现在的ML都是确定研究问题,然后想好要采集什么特征,然后用什么sensor来采集,之后必然配合大量的人工采集,劳民伤财。我认为未来的ML,在数据的获取方面,必然要具有类似自动生成数据的能力,当下没有这部分数据,我可以用已有的知识和数据分析生成一部分自动的测试数据,作为冷启动的一部分。由于未来是Big Data的时代,所以,这部分数据在今后不断学习的过程中,其权重必然会越来越低,不会对真正数据产生影响。

1.5 ML的基本流程方面

基本就是确定研究问题——采集数据——人工标注——选择模型和算法——看结果调参数

2.数据采集方面

2.1 目前的情况是,需要提前想好需要采集的数据,并配合相应的设备进行采集。在人体健康方面主要的依据是医学期刊与会议文章中的特征知识,比如,根据医学知识,患有抑郁症的病人其走路会不稳当且走路很慢,这就是依据,根据这些可以基本确定要采集的数据类型及sensor。

2.2 预处理的方面比较杂乱,主要是去除脏数据并进行人工标注。预处理方面,由于针对的问题不同,所以,对脏数据的定义也不一样,需要结合一定的field study进行研究处理。在现有的条件下,基本上监督学习方面占了很大的比重,所以,人工标注是必要的。预处理的方面和数据挖掘这门课分不开,有关预处理的知识,在这里(目录待完善)。

2.3 就目前情况而言,不知道特征量的话,有两种方面,一种我们小组之前在高效能豆瓣电影评分时用过,就是尝试不同特征与不同的模型组合以分析可能的特征值,这是笨办法,在特征值少时有用。另一种就是DL,目前我尚未接触过真正的应用,所以这里不予举例。

[文章版权声明]这篇文档是我开源到github上的,可以遵守相关的开源协议进行使用,如果使用时能加上我的名字就更好了。这个仓库中包含有很多研究者的论文、硕博士论文等,都来源于在网上的下载,我对一些文章都作了注解,有可能会很好地帮助理解。对于这些文章的版权属于相应的出版社。如果作者或出版社有异议,请联系我进行删除(本来应该只放文章链接的,但是由于时间关系来不及)。一切都是为了更好地学术!

About

一些关于机器学习的学习资料与研究介绍

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

AltStyle によって変換されたページ (->オリジナル) /