本文目录一览:
- 1、机器学习,数据挖掘的书有哪些
- 2、数据挖掘与推荐系统是什么关系
- 3、机器学习与数据挖掘的学习路线图
- 4、短视频系统及大数据推荐机制
- 5、人工智能和机器学习在数据挖掘的应用
- 6、常用的机器学习&数据挖掘知识(点)
机器学习,数据挖掘的书有哪些
说到数据分析,人们往往会下意识地联想到另一个耳熟能详的名词:数据挖掘。那么,到底什么是数据挖掘呢?顾名思义,数据挖掘就是对数据进行处理,并从中提取可用信息的过程。如果你刚好正在寻找这方面的入门书籍,那么韩家炜老师写的《数据挖掘:概念与技术》绝对是一个不错的选择。
该书针对传统的数据分析方法,常见的如聚类、分类、去噪等,都做了非常细致的说明,并附带详实的算法、实例。相信你在看完该书的相关章节后,一定会对上述方法有较为深刻的认知。值得一提的是,该书还被许多学校引作本科教材,因此读者自学时还可以较为容易地获取各种参考学习资料,让学习模式直接从hard降为easy。
但是,由于该书成书较早,且近年来机器学习发展迅速,其中所涉及的诸多内容在今天看来已显得略微朴实,无法很好地反映数据分析领域当下最前沿的技术。但瑕不掩瑜,总体而言,这依然是一本初学者理想的入门书籍。
在学习完上一本《数据挖掘》后,此时芹指的你将会拥有一些简单的数据分析基础。如果还想更上一层楼,那么周志华老师的这本《机器学习》绝对是不能错过的进阶读本。
用一句话来概括周志华老师的这本《机器学习》的话,大概就是“周老师用一万种方法教你挑个好西瓜”。由于“怎样挑个好瓜”的怨念贯穿了全书的始终,且连封面也印上了西瓜,人们也常常亲切地将其称为西瓜书。
相比于上一本教材,本书对读者明显提出了更高的要求。一方面,该书成书更晚,涵盖的机器学习方法也更广泛,决策树、神经网络、支持向量机、增强学习等大家常常听到的热点方法,书中都分章做了细致的介绍。另一方面厅丛,西瓜书涉及了不少数学公式,需要读者有一定的统计、代数数学基础。看一个公式花上半个小时,那真是家常便饭。不过大家也不用太紧张,本书的附录部分专门为许多公式提供了详尽的推导过程。即便看完附录后还是一头雾水,你也至少知道用搜索引擎时该填哪些关键词了( ̄ ▽  ̄)…总的来说,该书是进一步全面了解当下主流数据分析方法,俯瞰机器学习全貌的不二选择,大家可以按自身兴趣选读相关章节。
讲到这里,我似乎听到有读者在犯嘀咕了:“说了这么多,什么时候传我造AI的神功啊?就是那个叫什么深度学习的。”确实,这年头讲到数据分析如果不谈谈网络,都不好意思和别人说自己涉猎过这块领域。那么,笔者在此就再推荐一本神经网络的入门书籍。
其实,神经网络是机器学习方法的一条分支,而且上个世纪50年代就已经有了“感知机”的概念,将感知机推叠在一起就是“多层感知机”。只是限于当时的计算机算力,人们只能用多层感知机处理一些简单的问题,也无法构建深层网络,因此相关研究也很快冷下来。从某种程度上说,感知机和多层感知机就是当下神经元和神经网络的雏形。
2016年,Google的AlphaGo击败了李世石。人们突然惊奇地发现,当下的算力已经可以支撑神经网络胜任如此复杂的工作了。于是相关领域的研究热度被再次点燃,并一直延续至今。其实,神经网络的基础理论并不复杂,可概括为“只要神经元足够多,一层前馈网络足以拟合任何函数。”这个理论有什么用呢?举个例子,如果把你比作一个函数的话,那么你从外界感知到的信息就是函数的输入,而你的反应就是函数的输出。所以从理论上讲,只要你能拟合出一个足够准确的函数,就可以造出一个自己了!怎么样,是不是感觉可以去造AI了。
好了,现在让我们从梦中醒来,先挑一本学习教材。看完书,你就知道拟合出一个“准嫌伏配确”的函数,是一件需要那么多理论和技巧的事。就入门而言,我强烈推荐Michael Nielsen写的这本在线书籍《Neural Networks and Deep Learning》(),主要有以下几个方面的理由:
· 该书篇幅适中,是极佳的快速入门读物。送你个哈工大的中文翻译链接(), 试试2个星期把它读完吧;
· 关键公式的推导过程非常详细,便于读者理解性地记忆反向传播、dropout等原理的内涵;
· 充分发挥了网页版书籍的优势,在页面中插入了一些运行小界面,生动地向读者诠释了神经网络底层运行的各种机理;
· 更难能可贵的是,随书还附带了一批可运行的神经网络实例。试试亲自上手改改代码吧,相信你会有意外的收获。
数据挖掘与推荐系统是什么关系
推荐系统属于数据挖掘的应用。
数据挖掘其中很多的原理,简单的说推荐系统就是给用户推荐有关联的数据。比如说关联分析、比如说分类预测等,通过这些数据挖掘原理 可以找出某些规则,然后基于这些规则就可以进行相关的推荐设置比如说通过关联规则发现答早游很多买市场营销书籍的人,也清销买了 定位 的书,那一个新的顾客,如果他买了市场营销的书,则系统就会给其推荐 定位这本书。 这就是推荐系统。
关于数据挖掘的相关学习,推荐CDA数据师的相关课程,课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再睁衡选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”。真正理解商业思维,项目思维,能够遇到问题解决问题。点击预约免费试听课
机器学习与数据挖掘的学习路线图
机器学习与数据挖掘的学习路线图
说起机器学习和数据挖掘,当然两者并码前不完全等同。如果想简单的理清二者的关系,不妨这样来理解,机器学习应用在数据分析领域 = 数据挖掘。同理,如果将机器学习应用在图像处理领域 = 机器视觉。当然这只是一种比较直白的理解,并不能见得绝对准确或者全面。我们权且这样处理。而且在本文后面若提到这两个名词,我们所表示的意思是一致的。
但无论是机器学习,还是数据挖掘,你一定听说过很多很多,名字叼炸天的传迟余清说中的,“算法”,比如:SVM,神经网络,Logistic回归,决策树、EM、HMM、贝叶斯网络、随机森林、LDA... ....其实还是很多很多!无论你排十大算法还是二十大算法,总感觉只触及到了冰山一角!真是学海无涯啊- -!!
当然,学习机器学习看书是必备的,总不能靠冥想吧。。。
有的书介绍机器学习,会是这样一种思路:就是单独的一个一个的算法介绍,介绍个十几个,一本书的篇幅差不多也就完了。
李航博士的那本《统计学习方法》基本属于这种套路。当然,该书在国内是备受推崇的一本。客观上讲,国人写这方面的书很少,而李博士的著作也不像其他那种大学教材一样东拼西凑,可谓良心之作。但就本书的思路来说,我认为:如果读者就单独的某一个算法想有所了解,参考该书应该会有收获。但系统化上还是优化空间的,比如从一个算法到另外一个算法,之间的联系是什么,推动算法更新和升级的需求又在哪里?
另外一种该类型的书,会把算法按照它们的实现的功能和目的,分成比如Regression、Classification、Clustering等等等等的几类,然后各种讲可以实现聚类的算法有A、B、C,可以实现回归的有D、E、F。。。而且我们也知道,机器学习又可分为有监督、无监督以及半监督的,或者又可分为贝叶斯派和概率派两大阵营,所以按类别来介绍其中的算法也是一种很常见的思路。
这样的书代表作是Pang-Ning Tan, Michael Steinbach 和Vipin Kumar的那本《数据挖掘导论》,这样的书基本上对于构建一个大概的机器学习体系还是有裨益的。但是就初学者而言,其实这个体系还可以再优化。这也是我根据个人的一些经验想向各位介绍的一个基本的学习路线图,在我看来知识应该是有联系的,而不是孤立的, 找到这种内部隐藏的线索就如同获得了阿里巴巴的口诀,才能开启更大的宝藏。
当然,正式学习之前,你所需要的预备知识(主要是数学)应该包括:微积分(偏导数、梯度等等)、概率论与数理统计(例如极大似然估计、中央极限定理、大数法则等等)、最优化方法(比如梯度下降、牛顿-拉普什方法、变分法(欧拉-拉格朗日方程)、凸优化等等)——如果你对其中的某些名词感到陌生,那么就说明你尚不具备深入开展数据挖掘算法学习的能力。你会发现到处都是门槛,很难继续进行下去。
第一条线路:
(基于普通最小二乘法的)简单线性回归-线性回归中的新进展(岭回归和LASSO回归)-(此处可以插入Bagging和AdaBoost的内容)-Logistic回归-支持向量机(SVM)-感知机学习-神经网络(初学者可先主要关注BP算法)-深度学习
之所以把它们归为一条线路,因为所有这些算法都是围绕着 y = Σxiβi,这样一条简单的公式展开的,如果你抓住这条线索,不断探索下去,就算是抓住它们之间的绳索了。其中蓝色部分主要是回归,绿色部分主要是有监督的分类学习法。
基于普通最小二乘的线性回归是统计中一种有着非常悠久历史的方法,它的使用甚至可以追溯到高斯的时代。但是它对数据有诸多要求,例如特征之间不能有多重共线性,而且岭回归和LASSO就是对这些问题的修正。
当沿着第一条路线学完的时候,其实你已经攻克机器学习的半壁江山了!当然,在这个过程中,你一定时刻问问自己后一个算法与前一个的联系在哪里?最初,人们从哪里出发,才会如此设计出它们的。
第二条路线:
K-means - EM - 朴素贝叶斯-贝叶斯网络-隐马尔科夫模型(基本模型,前向算法,维特比算法,前向-后向算法) (-卡尔曼滤波)
这条线路所涉及的基本都是那些各种画来画去的图模型,一个学术名词是 PGM 。这条线的思路和第一毁孝条是截然不同的!贝叶斯网络、HMM(隐马尔科夫模型),也就是绿色字体的部分是这个线路中的核心内容。而蓝色部分是为绿色内容做准备的部分。K-means 和 EM 具有与生俱来的联系,认识到这一点才能说明你真正读懂了它们。而EM算法要在HMM的模型训练中用到,所以你要先学EM才能深入学习HMM。所以尽管在EM中看不到那种画来画去的图模型,但我还把它放在了这条线路中,这也就是原因所在。朴素贝叶斯里面的很多内容在,贝叶斯网络和HMM里都会用到,类似贝叶斯定理,先验和后验概率,边缘分布等等(主要是概念性的)。最后,卡尔曼滤波可以作为HMM的一直深入或者后续扩展。尽管很多machinelearning的书里没把它看做是一种机器学习算法(或许那些作者认为它应该是信号处理中的内容),但是它也确实可以被看成是一种机器学习技术。而且参考文献[4]中,作者也深刻地揭示了它与HMM之间的紧密联系,所以红色的部分可以作为HMM的后续扩展延伸内容。
短视频系统及大数据推荐机制
三个商业维度决定了短视频已经成为主流基于机器学习的tiktok数据挖掘与推荐,分别为 网络流量趋势,信息高效传达,变现价值能力 。这三个方面的分别为平台,用户,创作者满足了各取所需的形态,这是实际价值的存在点。
网络流量趋势顾名思义,则是网络平台的唯一KPI。网络平台拥有越多的活跃用户就越证明该平台的成功,每一个网络巨头无一例外都是利用自身的流量,获取市场的广告效益,所以平台只有拥有流量才会成为具有实际价值的平台。
信息高效传达则是针对用户而言,能够在网络平台上获取到自己需要的信息更高效的方式。无论是娱乐,财经,体育,知识,消费各方面的视频内容都是对网络1.0时代以图文为主的博客,新闻知识获取渠道的升级。视频的每羡中一帧都可能败如涵盖成百上千字的文字内容,在这个数据爆炸的时代,提高获取内容成本是对用户的一次体验升级。
变现价值能力,这是对于创作者的努力创造优质内容的原动力。这三者的高效配合形成一个正向循环齿轮,这样蛋糕就会越做越大。
基于机器学习的tiktok数据挖掘与推荐我个人认为一个优秀的短视频平台需要具备以下3个方面:
(1).视频的实时性,热点性,个性化推荐
(2).检索提取干货信息,作为更高效的搜索引擎
(3).有娱乐性,实用学习性,传播性
2020年8月份科技部明确指出将基于数据分析的个性化服务推送服务技术列为限制出口名单,这必然会让大家联想到最近抖音海外版Tiktok的出售风波。因为推荐算法一般是根据海量app用户信息经过核心算法服务进行建模计算出来的。这里面包含大量用户隐私数据,核心算法技术积累,所以在目前初步人工智能时代,算法的重要程度在日益加重。
说到推荐算法则不得不说到机器学习,在抖音热门推荐区推荐的视频都是通过对每个用户进行建模后根据权重进行个性化推送的,平台也会通过计算点赞概率影响排序顺序,然后推荐给用户。用数学来表示的话:
针对已知用户,视频和环境和未知行为,比如点击去预测它产生的概率,这就是推荐算法的核心。
(1).特征X:用户,视频,环境
比如用户年龄就可以作为特征,根据不同年龄进行特定内容推送,越多的特征可以帮助更好的帮助基于机器学习的tiktok数据挖掘与推荐我们去给他们挑选感兴趣的内容。更多的用户特征也可以从用户的手机型号,来自哪里,收藏内容标签,观看停留时间,兴趣标签基于机器学习的tiktok数据挖掘与推荐;当然也可以从视频内容获取特征信息,视频标签,用户评论信息提取,视频类别,视频的平均点击率,弹幕内容,评论量,转发量;用户在什么样的环境中看到的视频,白天或者晚上,使用手机看到的还是电脑看到的。很多做推荐算法的工程师会花很多时间用在制作一些特征的工程,用机器去实现用户的标签或者视频内容的理解,这部分是构成了推荐算法很重要的一部分。等到我们的特征准备完毕,就可以作为我们的输入去送给我们的模型,也就是Fx函数。
(2).构建模型F(y|x)
目前主流市场上有2种模型,第一种是基于树的模型,就比如说决策树。在实际的推荐算法工程里,这个决策树模型可以制作得非常深,并且根据板块门类的划分也可能不止一颗树,可能是很多树构成,相关树之间通过关联主键进行连接,一起加权构成了一个决策树的森林,它们会合在一起去做一个推荐算法,模拟计算Fx函数。另一种模型是基于神经网络去做的一些数据的拟合。(模型见图1)
第二种是基于人工神经网络(Artificial Neural Networks)简称连接模型(Connection Model),它是一种模仿动物神经网络行为的特征,进行分布式并行星系处理的算法数学模型。这种网络以考系统的复杂度,通过调整内部大量节点之间的相互关连的关系,从而达到处理信息的目的。神经网络是一种数据挖掘的方法,不仅可以使用与决策树大体相同的方式预测类别或分类,而且还能更好的确定属性之间的关联强度(模型见图2)。通常构建神经网络模型个人比较推荐RapidMiner,通过Excel或者DB导入各类不同属性的分类数据,比如医兄枯山院里病人的血脂,体重,体温等各类指标数据,然后进行流程连接并设置条件,最终得出神经网络数据结果。
(3).制定目标Y
需要预测的位置行为Y指的就是推荐权重,通过一系列数据计算得出这类视频是否适合推荐给用户观看。
这也是很多短视频平台,一直以综合互动量为考核内容创作的最终指标。
机器学习算法其实就是普通算法的进化版。通过自动学习数据规律,让基于机器学习的tiktok数据挖掘与推荐你的程序变得更聪明些。这里举一个生活中的案例说明这一点,某天你去买芒果,小贩摊了满满一车芒果,你一个个选好,拿给小贩称重,然后论斤付钱。自然,你的目标是那些最甜最成熟的芒果,那怎么选呢?你想起来,外婆说过,明黄色的比淡黄色的甜。你就设了条标准:只选明黄色的芒果。于是按颜色挑好、付钱、回家。
机器学习算法其实就是普通算法的进化版。通过自动学习数据规律,让程序变得更聪明些。那么如何让程序变得更聪明一些喃?则需要利用算法进行数据训练并在过程中对数据预测结果集进行效验。
根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。
在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)
在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。
在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。
在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)
人工智能和机器学习在数据挖掘的应用
人人工智能是计算机科学研究领域的一个重要分支,又是众多学科的一个交叉学科,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括语音识别、图像识别兄弯、机器人、自然语言乱轿处理、智能搜索和专家系统等等,人工智能可以对人的意识、思维的信息过程的模拟。人工智能包括众多的分支领域,比如大家熟悉的机器学习、自然语言理解和模式识别等。
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。在我们当下的生活中,语音输入识别、手写输入识别等技术,识别率相比之前若干年的技术识别率提升非常巨大,达到了将近97%以上,大家可以在各自的手机上体验这些功能,这些技术来自于机器学习技术的应用。
更多人工智能和机器学习在数据挖掘应用的分析,推荐咨询CDA数据分析师的课程。CDA课程以项目羡陪闷调动学员数据挖掘实用能力的场景式教学为主,在讲师设计的业务场景下由讲师不断提出业务问题,再由学员循序渐进思考并操作解决问题的过程中,帮助学员掌握真正过硬的解决业务问题的数据挖掘能力。点击预约免费试听课。
常用的机器学习&数据挖掘知识(点)
常用的机器学习数据挖掘知识(点)
Basis(基础):MSE(Mean Square Error 均方误差),
LMS(LeastMean Square 最小均方),
LSM(Least Square Methods 最小二乘法),
MLE(MaximumLikelihood Estimation最大似然估计),
QP(Quadratic Programming 二次规划),
CP(Conditional Probability条件概率),
JP(Joint Probability 联合概率),
MP(Marginal Probability边缘概率),
Bayesian Formula(贝叶斯公式),
L1 /L2Regularization(L1/L2正则,
以及更多的,现在比较火的L2.5正则等),
GD(GradientDescent 梯度下降),
SGD(Stochastic Gradient Descent 随机梯度下降),
Eigenvalue(特征值),
Eigenvector(特征向量),
QR-decomposition(QR分解),
Quantile (分位数),
Covariance(协方差矩阵)。
Common Distribution(常见分布):
Discrete Distribution(离散型分布):
BernoulliDistribution/Binomial(贝努利分布/二项分布),
Negative BinomialDistribution(负二项分布),
MultinomialDistribution(多项式分布),
Geometric Distribution(几何分布),
HypergeometricDistribution(超几何分布),
Poisson Distribution (泊松分布)。
Continuous Distribution (连续型分布):
UniformDistribution(均匀分布),
Normal Distribution /Guassian Distribution(正态分布/高斯分布),
ExponentialDistribution(指数分布),
Lognormal Distribution(对数正毕和态分布),
GammaDistribution(Gamma分布),
Beta Distribution(Beta分布手租盯),
Dirichlet Distribution(狄利克雷分布),
Rayleigh Distribution(瑞利分布),
Cauchy Distribution(柯西分布),
Weibull Distribution (韦伯分布)。
Three Sampling Distribution(三大抽样分布):
Chi-squareDistribution(卡方分布),
t-distribution(t-distribution),
F-distribution(F-分布)。
Data Pre-processing(数据预处理):
Missing Value Imputation(缺型姿失值填充),
Discretization(离散化),Mapping(映射),
Normalization(归一化/标准化)。
Sampling(采样):
Simple Random Sampling(简单随机采样),
OfflineSampling(离线等可能K采样),
Online Sampling(在线等可能K采样),
Ratio-based Sampling(等比例随机采样),
Acceptance-RejectionSampling(接受-拒绝采样),
Importance Sampling(重要性采样),
MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法:Metropolis-Hasting Gibbs)。
Clustering(聚类):
K-Means,
K-Mediods,
二分K-Means,
FK-Means,
Canopy,
Spectral-KMeans(谱聚类),
GMM-EM(混合高斯模型-期望最大化算法解决),
K-Pototypes,CLARANS(基于划分),
BIRCH(基于层次),
CURE(基于层次),
DBSCAN(基于密度),
CLIQUE(基于密度和基于网格)。
ClassificationRegression(分类回归):
LR(Linear Regression 线性回归),
LR(LogisticRegression逻辑回归),
SR(Softmax Regression 多分类逻辑回归),
GLM(GeneralizedLinear Model 广义线性模型),
RR(Ridge Regression 岭回归/L2正则最小二乘回归),
LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归),
RF(随机森林),
DT(DecisionTree决策树),
GBDT(Gradient BoostingDecision Tree 梯度下降决策树),
CART(ClassificationAnd Regression Tree 分类回归树),
KNN(K-Nearest Neighbor K近邻),
SVM(Support VectorMachine),
KF(KernelFunction 核函数PolynomialKernel Function 多项式核函、
Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、
String KernelFunction 字符串核函数)、
NB(Naive Bayes 朴素贝叶斯),BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络),
LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别),
EL(Ensemble Learning集成学习Boosting,Bagging,Stacking),
AdaBoost(Adaptive Boosting 自适应增强),
MEM(MaximumEntropy Model最大熵模型)。
Effectiveness Evaluation(分类效果评估):
Confusion Matrix(混淆矩阵),
Precision(精确度),Recall(召回率),
Accuracy(准确率),F-score(F得分),
ROC Curve(ROC曲线),AUC(AUC面积),
LiftCurve(Lift曲线) ,KS Curve(KS曲线)。
PGM(Probabilistic Graphical Models概率图模型):
BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络),
MC(Markov Chain 马尔科夫链),
HMM(HiddenMarkov Model 马尔科夫模型),
MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型),
CRF(ConditionalRandom Field 条件随机场),
MRF(MarkovRandom Field 马尔科夫随机场)。
NN(Neural Network神经网络):
ANN(Artificial Neural Network 人工神经网络),
BP(Error BackPropagation 误差反向传播)。
Deep Learning(深度学习):
Auto-encoder(自动编码器),
SAE(Stacked Auto-encoders堆叠自动编码器,
Sparse Auto-encoders稀疏自动编码器、
Denoising Auto-encoders去噪自动编码器、
Contractive Auto-encoders 收缩自动编码器),
RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机),
DBN(Deep Belief Network 深度信念网络),
CNN(ConvolutionalNeural Network 卷积神经网络),
Word2Vec(词向量学习模型)。
DimensionalityReduction(降维):
LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别,
PCA(Principal Component Analysis 主成分分析),
ICA(IndependentComponent Analysis 独立成分分析),
SVD(Singular Value Decomposition 奇异值分解),
FA(FactorAnalysis 因子分析法)。
Text Mining(文本挖掘):
VSM(Vector Space Model向量空间模型),
Word2Vec(词向量学习模型),
TF(Term Frequency词频),
TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率),
MI(MutualInformation 互信息),
ECE(Expected Cross Entropy 期望交叉熵),
QEMI(二次信息熵),
IG(InformationGain 信息增益),
IGR(Information Gain Ratio 信息增益率),
Gini(基尼系数),
x2 Statistic(x2统计量),
TEW(TextEvidence Weight文本证据权),
OR(Odds Ratio 优势率),
N-Gram Model,
LSA(Latent Semantic Analysis 潜在语义分析),
PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析),
LDA(Latent DirichletAllocation 潜在狄利克雷模型)。
Association Mining(关联挖掘):
Apriori,
FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法),
AprioriAll,
Spade。
Recommendation Engine(推荐引擎):
DBR(Demographic-based Recommendation 基于人口统计学的推荐),
CBR(Context-basedRecommendation 基于内容的推荐),
CF(Collaborative Filtering协同过滤),
UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐),
ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。
Similarity MeasureDistance Measure(相似性与距离度量):
Euclidean Distance(欧式距离),
ManhattanDistance(曼哈顿距离),
Chebyshev Distance(切比雪夫距离),
MinkowskiDistance(闵可夫斯基距离),
Standardized Euclidean Distance(标准化欧氏距离),
MahalanobisDistance(马氏距离),
Cos(Cosine 余弦),
HammingDistance/Edit Distance(汉明距离/编辑距离),
JaccardDistance(杰卡德距离),
Correlation Coefficient Distance(相关系数距离),
InformationEntropy(信息熵),
KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。
Optimization(最优化):
Non-constrainedOptimization(无约束优化):
Cyclic VariableMethods(变量轮换法),
Pattern Search Methods(模式搜索法),
VariableSimplex Methods(可变单纯形法),
Gradient Descent Methods(梯度下降法),
Newton Methods(牛顿法),
Quasi-NewtonMethods(拟牛顿法),
Conjugate Gradient Methods(共轭梯度法)。
ConstrainedOptimization(有约束优化):
Approximation Programming Methods(近似规划法),
FeasibleDirection Methods(可行方向法),
Penalty Function Methods(罚函数法),
Multiplier Methods(乘子法)。
Heuristic Algorithm(启发式算法),
SA(SimulatedAnnealing,
模拟退火算法),
GA(genetic algorithm遗传算法)。
Feature Selection(特征选择算法):
Mutual Information(互信息),
DocumentFrequence(文档频率),
Information Gain(信息增益),
Chi-squared Test(卡方检验),
Gini(基尼系数)。
Outlier Detection(异常点检测算法):
Statistic-based(基于统计),
Distance-based(基于距离),
Density-based(基于密度),
Clustering-based(基于聚类)。
Learning to Rank(基于学习的排序):
Pointwise:McRank;
Pairwise:RankingSVM,RankNet,Frank,RankBoost;
Listwise:AdaRank,SoftRank,LamdaMART。
Tool(工具):
MPI,Hadoop生态圈,Spark,BSP,Weka,Mahout,Scikit-learn,PyBrain…
以及一些具体的业务场景与case等。