一、说明
机器学习的核心是"使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测"。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。
二、机器学习与建模
; 三、监督学习算法
1. 决策树 (Decision Trees)
决策树是一种决策支持工具,它使用树图或模型来表示决策及其可能的后果,包括随机事件、资源消耗和使用的影响。查看下图,感觉诊断树如下所示:
[En]
Decision tree is a decision support tool, which uses tree graphs or models to represent decisions and their possible consequences, including the impact of random events, resource consumption, and use. Take a look at the following picture and feel the decision tree look like this:
从商业角度看,决策树就是用最少的 Yes/No 问题,尽可能地做出一个正确的决策。它让我们通过一种结构化、系统化的方式解决问题,得到一个有逻辑的结论。
; 2. 朴素贝叶斯分类 (Naive Bayes Classification)
朴素贝叶斯分类器是一类简单概率分类器,它基于把贝叶斯定理运用在特征之间关系的强独立性假设上。下图是贝叶斯公式 ——P (A|B) 表示后验概率,P (B|A) 表示似然度,P (A) 表示类别的先验概率 (class prior probability),P (B) 表示做出预测的先验概率 (predictor prior probability)。
现实生活中的应用例子:
一封电子邮件是否是垃圾邮件
一篇文章应该分到科技、政治,还是体育类
一段文字表达的是积极的情绪还是消极的情绪?
人脸识别
3. 普通最小二乘回归 (Ordinary Least Squares Regression)
如果你学过统计学,你可能听说过线性回归。最小二乘法是一种线性回归方法。您可以将线性回归看作是让一条直线在最合适的位置通过一组点。有很多方法可以做到这一点,普通的最小二乘法是这样的--你可以画一条线,测量从每个点到这条线的距离,然后把它加起来。最好的线应该是距离加起来最小的那条线。
[En]
If you have studied statistics, you may have heard of linear regression. At least least square is a method of linear regression. You can think of linear regression as letting a straight line pass through a set of points in the most appropriate position. There are many ways to do this, and the ordinary least square method is like this-- you can draw a line, measure the distance from each point to the line, and add it up. The best line should be the one that adds up to the smallest distance.
线性方法表示线性模型,最小二乘法可以使线性模型的误差最小。
[En]
The linear method represents the linear model, and the least square method can minimize the error of the linear model.
; 4. 逻辑回归 (Logistic Regression)
逻辑回归是一种非常强大的统计方法,它可以建立具有一个或多个解释变量的数据的二项模型,并利用累积逻辑分布的逻辑函数来估计概率。衡量分类的因变量和一个或多个自变量之间的关系。
[En]
Logical regression is a very powerful statistical method, which can build a binomial model of data with one or more explanatory variables, and estimate the probability by using the logic function of cumulative logical distribution. measure the relationship between classified dependent variables and one or more independent variables.
通常,回归在现实生活中的用途如下:
信用评估
测量市场营销的成功度
预测某个产品的收益
特定的某天是否会发生地震
5. 支持向量机 (Support Vector Machines)
SVM 是一种二分算法。假设在 N 维空间,有一组点,包含两种类型,SVM 生成 a (N-1) 维的超平面,把这些点分成两组。比如你有一些点在纸上面,这些点是线性分离的。SVM 会找到一个直线,把这些点分成两类,并且会尽可能远离这些点。
从规模看来,SVM(包括适当调整过的)解决的一些特大的问题有:广告、人类基因剪接位点识别、基于图片的性别检测、大规模图片分类...
; 6. 集成方法 (Ensemble Methods)
集成方法吸纳了很多算法,构建一个分类器集合,然后给它们的预测带权重的进行投票,从而进行分类。最初的集成方法是贝叶斯平均法 (Bayesian averaging),但是最近的算法集还包括了纠错输出编码 (error-correcting output coding) ,bagging 和 boosting
那么集成方法如何工作的?为什么它们比单独的模型更好?
它们平衡了偏见:就像你平衡了大量倾向民主党的选票和大量倾向共和党的选票一样,你总是会得到一个没有那么偏见的结果。
[En]
They balance the bias: just like if you balance a large number of Democratic-leaning votes and a large number of Republican-leaning votes, you will always get a less biased result.
它们降低了方差:集合大量模型的参考结果,噪音会小于单个模型的单个结果。在金融上,这叫投资分散原则 (diversification)—— 一个混搭很多种股票的投资组合,比单独的股票更少变故。
它们不太可能过度拟合:如果你有单独的模型不是完全拟合,你结合每个简单方法建模,就不会发生过度拟合 (over-fitting)
四、无监督学习算法
1. 聚类算法 (Clustering Algorithms)
聚类是对一组对象进行分组的任务,以便同一组中的对象比其他组中的对象更相似。
[En]
Clustering is the task of grouping a group of objects so that the objects in the same group are more similar to each other than the objects in other groups.
每种聚类算法都不同,下面是其中一些:
基于图心(Centroid)的算法
基于连接的算法
基于密集度的算法
概率论
降维
神经网络 / 深度学习
; 2. 主成分分析 (Principal Component Analysis)
PCA 是一种统计过程,它通过正交变换把一组可能相关联的变量观察,转换成一组线性非相关的变量的值,这些非相关的变量就是主成分。
PCA 的应用包括压缩、简化数据使之易于学习,可视化。需要注意的是,当决定是否用 PCA 的时候,领域知识特别重要。它不适用于噪音多的数据(所有成分的方差要很高才行)
3. 奇异值分解 (Singular Value Decomposition)
线性代数中,SVD 是对一个特别复杂的矩阵做因式分解。比如一个 m*n 的矩阵 M,存在一个分解如 M = UΣV,其中 U 和 V 是酉矩阵,Σ 是一个对角矩阵。
PCA 其实是种简单的 SVD。在计算机图形领域,第一个脸部识别算法就用了 PCA 和 SVD,用特征脸 (eigenfaces) 的线性结合表达脸部图像,然后降维,用简单的方法把脸部和人匹配起来。尽管如今的方法更加复杂,依然有很多是依靠类似这样的技术。
; 4. 独立成分分析 (Independent Component Analysis)
ICA 是一种统计技术。它发掘随机变量、测量数据或者信号的集合中隐含的因素。ICA 定义了一种通用模型,用于观测到的多变量数据,通常是一个巨大的样本数据库。在这一模型中,假设数据变量是一些未知的、潜在的变量的线性组合,而组合方式也是未知的。同时假设,潜在的变量是非高斯分布且相互独立的,我们称之为观测数据的独立成分 (Independent components)。
ICA 与 PCA 有一定关联,但是一种更加有用的技术,在经典方法完全失效的时候,可以发现数据源中的潜在因素。它的应用包括数字图片,文件数据库,经济指数和心理测量。
五、机器学习改变世界
现在应该很清楚,机器学习具有改变和改善世界的巨大潜力。通过谷歌大脑和斯坦福机器学习团队等研究团队,我们正朝着真正的人工智能迈出一大步。但是,确切地说,机器学习的下一个主要领域是什么?
[En]
It should now be clear that machine learning has great potential to change and improve the world. Through research teams like Google brain and the Stanford machine learning team, we are taking a big step towards true artificial intelligence. But, exactly, what is the next major area in which machine learning can have an impact?
1.物联网
; 2.聊天机器人
3.自动驾驶
Original: https://blog.csdn.net/s_unbo/article/details/123260342
Author: 人猿宇宙
Title: Python-玩转数据-机器学习与建模概述

【Anaconda】超简单安装教程 Tensorflow OpenCV

2022 Gartner RPA魔力象限,弘玑Cyclone位置飞跃国产RPA进击全球

【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】

espnet代码解读(1):asr.py

记录:TensorFlow2.6版本环境搭建cuda11.2 anaconda python3.9 ++++ pytorch环境安装

什么是VIT?

论文笔记:U2Fusion A Unified Unsupervised ImageFusion Network(2020 TPAMI)

双十二买什么蓝牙耳机好?平价好用蓝牙耳机推荐

树莓派4B配置tensorflow2.4.0环境

【原创】BERT知识融合

对数据分析未来走向的几点思考

RedHat7离线安装docker和nvidia-docker

【XML】学习笔记第四章-schema

对话式AI——多轮对话拼接
