疾病预测算法有哪些,预测算法有哪些

内容提要：

伤寒、副伤寒流行预测模型(BP神经网络)的建立
大数据常用的各种算法
人工智能算法有哪些
大数据分析常见的手段有哪几种?
机器学习有哪些算法
哪些机器学习算法可以处理多分类

伤寒、副伤寒流行预测模型(BP神经网络)的建立

由于目前研究的各种数学模型或多或少存在使用条件的局限性，或使用方法的复杂性等问题，预测效果均不十分理想，距离实际应用仍有较大差距。NNT是Matlab 中较为重要的一个工具箱，在实际应用中，BP 网络用的最广泛。神经网络具有综合能力强，对数据的要求不高，适时学习等突出优点，其操作简便，节省时间，网络初学者即使不了解其算法的本质，也可以直接应用功能丰富的函数来实现自己的目的。因此，易于被基层单位预防工作者掌握和应用。以下几个问题是建立理想的因素与疾病之间的神经网络模型的关键：

（1）资料选取

应尽可能地选取所研究地区系统连续的因素与疾病资料，最好包括有疾病高发年和疾病低发年的数据。在收集影响因素时，要抓住主要影响伤寒、副伤寒的发病因素。

（2）疾病发病率分级

神经网络预测法是按发病率高低来进行预测，在定义发病率等级时，要结合专业知识及当地情况而定，并根据网络学习训练效果而适时调整，以使网络学习训练达到最佳效果。

（3）资料处理问题

在实践中发现，资料的特征往往很大程度地影响网络学习和训练的稳定性，因此，数据的应用、纳入、排出问题有待于进一步研究。

6.3.1 人工神经网络的基本原理

人工神经网络（ANN）是近年来发展起来的十分热门的交叉学科，它涉及生物、电子、计算机、数学和物理等学科，有着广泛的应用领域。人工神经网络是一种自适应的高度非线性动力系统，在网络计算的基础上，经过多次重复组合，能够完成多维空间的映射任务。神经网络通过内部连接的自组织结构，具有对数据的高度自适应能力，由计算机直接从实例中学习获取知识，探求解决问题的方法，自动建立起复杂系统的控制规律及其认知模型。

人工神经网络就其结构而言，一般包括输入层、隐含层和输出层，不同的神经网络可以有不同的隐含层数，但他们都只有一层输入和一层输出。神经网络的各层又由不同数目的神经元组成，各层神经元数目随解决问题的不同而有不同的神经元个数。

6.3.2 BP神经网络模型

BP网络是在1985年由PDP小组提出的反向传播算法的基础上发展起来的，是一种多层次反馈型网络（图6.17），它在输入和输出之间采用多层映射方式，网络按层排列，只有相邻层的节点直接相互连接，传递之间信息。在正向传播中，输入信息从输入层经隐含层逐层处理，并传向输出层，每层神经元的状态只影响下一层神经元的状态。如果输出层不能得到期望的输出结果，则转入反向传播，将误差信号沿原来的连同通路返回，通过修改各层神经元的权值，使误差信号最小。

BP网络的学习算法步骤如下（图6.18）：

图6.17 BP神经网络示意图

图6.18 BP算法流程图

第一步：设置初始参数ω和θ，（ω为初始权重，θ为临界值，均随机设为较小的数）。

第二步：将已知的样本加到网络上，利用下式可算出他们的输出值yi，其值为

岩溶地区地下水与环境的特殊性研究

式中：xi为该节点的输入；ωij为从I到j的联接权；θj为临界值；yj为实际算出的输出数据。

第三步：将已知输出数据与上面算出的输出数据之差（dj-yj）调整权系数ω，调整量为

ΔWij=ηδjxj

式中：η为比例系数；xj为在隐节点为网络输入，在输出点则为下层（隐）节点的输出（j=1，2…，n）；dj为已知的输出数据（学习样本训练数据）；δj为一个与输出偏差相关的值，对于输出节点来说有

δj=ηj（1-yj）（dj-yj）

对于隐节点来说，由于它的输出无法进行比较，所以经过反向逐层计算有

岩溶地区地下水与环境的特殊性研究

其中k指要把上层（输出层）节点取遍。误差δj是从输出层反向逐层计算的。各神经元的权值调整后为

ωij（t）=ωij（t-1）+Vωij

式中：t为学习次数。

这个算法是一个迭代过程，每一轮将各W值调整一遍，这样一直迭代下去，知道输出误差小于某一允许值为止，这样一个好的网络就训练成功了，BP算法从本质上讲是把一组样本的输入输出问题变为一个非线性优化问题，它使用了优化技术中最普遍的一种梯度下降算法，用迭代运算求解权值相当于学习记忆问题。

6.3.3 BP 神经网络模型在伤寒、副伤寒流行与传播预测中的应用

伤寒、副伤寒的传播与流行同环境之间有着一定的联系。根据桂林市1990年以来乡镇为单位的伤寒、副伤寒疫情资料，伤寒、副伤寒疫源地资料，结合现有资源与环境背景资料（桂林市行政区划、土壤、气候等）和社会经济资料（经济、人口、生活习惯等统计资料）建立人工神经网络数学模型，来逼近这种规律。

6.3.3.1 模型建立

（1）神经网络的BP算法

BP网络是一种前馈型网络，由1个输入层、若干隐含层和1个输出层构成。如果输入层、隐含层和输出层的单元个数分别为n，q1，q2，m，则该三层网络网络可表示为BP（n，q1，q2，m），利用该网络可实现n维输入向量Xn=（X1，X2，…，Xn）T到m维输出向量Ym=（Y1，Y2，…，Ym）T的非线性映射。输入层和输出层的单元数n，m根据具体问题确定。

（2）样本的选取

将模型的输入变量设计为平均温度、平均降雨量、岩石性质、岩溶发育、地下水类型、饮用水类型、正规自来水供应比例、集中供水比例8个输入因子（表6.29），输出单元为伤寒副伤寒的发病率等级，共一个输出单元。其中q1，q2的值根据训练结果进行选择。

表6.29 桂林市伤寒副伤寒影响因素量化表

通过分析，选取在伤寒副伤寒有代表性的县镇在1994～2001年的环境参评因子作为样本进行训练。利用聚类分析法对疫情进行聚类分级（Ⅰ、Ⅱ、Ⅲ、Ⅳ），伤寒副伤寒发病最高级为Ⅳ（BP网络中输出定为4），次之的为Ⅲ（BP网络中输出定为3），以此类推，最低为Ⅰ（BP网络中输出定为1）

（3）数据的归一化处理

为使网络在训练过程中易于收敛，我们对输入数据进行了归一化处理，并将输入的原始数据都化为0～1之间的数。如将平均降雨量的数据乘以0.0001；将平均气温的数据乘以0.01；其他输入数据也按类似的方法进行归一化处理。

（4）模型的算法过程

假设共有P个训练样本，输入的第p个（p=1，2，…，P）训练样本信息首先向前传播到隐含单元上。

经过激活函数f（u）的作用得到隐含层1的输出信息：

岩溶地区地下水与环境的特殊性研究

经过激活函数f（u）的作用得到隐含层2的输出信息：

岩溶地区地下水与环境的特殊性研究

激活函数f（u）我们这里采用Sigmoid型，即

f（u）=1/[1+exp（-u）]（6.5）

隐含层的输出信息传到输出层，可得到最终输出结果为

岩溶地区地下水与环境的特殊性研究

以上过程为网络学习的信息正向传播过程。

另一个过程为误差反向传播过程。如果网络输出与期望输出间存在误差，则将误差反向传播，利用下式来调节网络权重和阈值：

岩溶地区地下水与环境的特殊性研究

式中：Δω（t）为t次训练时权重和阈值的修正；η称为学习速率，0＜η＜1；E为误差平方和。

岩溶地区地下水与环境的特殊性研究

反复运用以上两个过程，直至网络输出与期望输出间的误差满足一定的要求。

该模型算法的缺点：

1）需要较长的训练时间。由于一些复杂的问题，BP算法可能要进行几小时甚至更长的时间的训练，这主要是由于学习速率太小造成的，可采用变化的学习速率或自适应的学习速率加以改进。

2）完全不能训练。主要表现在网络出现的麻痹现象上，在网络的训练过程中，当其权值调的过大，可能使得所有的或大部分神经元的加权总和n偏大，这使得激活函数的输入工作在S型转移函数的饱和区，从而导致其导数f′（n）非常小，从而使得对网络权值的调节过程几乎停顿下来。

3）局部极小值。BP算法可以使网络权值收敛到一个解，但它并不能保证所求为误差超平面的全局最小解，很可能是一个局部极小解。这是因为BP算法采用的是梯度下降法，训练从某一起点沿误差函数的斜面逐渐达到误差的最小值。

考虑到以上算法的缺点，对模型进行了两方面的改进：

（1）附加动量法

为了避免陷入局部极小值，对模型进行了改进，应用了附加动量法。附加动量法在使网络修正及其权值时，不仅考虑误差在梯度上的作用，而且考虑在误差曲面上变化趋势的影响，其作用如同一个低通滤波器，它允许网络忽略网络上的微小变化特性。在没有附加动量的作用下，网络可能陷入浅的局部极小值，利用附加动量的作用则有可能滑过这些极小值。

该方法是在反向传播法的基础上在每一个权值的变化上加上一项正比于前次权值变化量的值，并根据反向传播法来产生心的权值变化。促使权值的调节向着误差曲面底部的平均方向变化，从而防止了如Δω（t）=0的出现，有助于使网络从误差曲面的局部极小值中跳出。

这种方法主要是把式（6.7）改进为

岩溶地区地下水与环境的特殊性研究

式中：A为训练次数；a为动量因子，一般取0.95左右。

训练中对采用动量法的判断条件为

岩溶地区地下水与环境的特殊性研究

（2）自适应学习速率

对于一个特定的问题，要选择适当的学习速率不是一件容易的事情。通常是凭经验或实验获取，但即使这样，对训练开始初期功效较好的学习速率，不见得对后来的训练合适。所以，为了尽量缩短网络所需的训练时间，采用了学习速率随着训练变化的方法来找到相对于每一时刻来说较差的学习速率。

下式给出了一种自适应学习速率的调整公式：

岩溶地区地下水与环境的特殊性研究

通过以上两个方面的改进，训练了一个比较理想的网络，将动量法和自适应学习速率结合起来，效果要比单独使用要好得多。

6.3.3.2 模型的求解与预测

采用包含了2个隐含层的神经网络BP（4，q1，q2，1），隐含层单元数q1，q2与所研究的具体问题有关，目前尚无统一的确定方法，通常根据网络训练情况采用试错法确定。在满足一定的精度要求下一般认小的数值，以改善网络的概括推论能力。在训练中网络的收敛采用输出值Ykp与实测值tp的误差平方和进行控制：

岩溶地区地下水与环境的特殊性研究

1）将附加动量法和自适应学习速率结合应用，分析桂林市36个乡镇地质条件各因素对伤寒副伤寒发病等级的影响。因此训练样本为36个，第一个隐含层有19个神经元，第二个隐含层有11个神经元，学习速率为0.001。

A.程序（略）。

B.网络训练。在命令窗口执行运行命令，网络开始学习和训练，其学习和训练过程如下（图6.19）。

图6.19 神经网络训练过程图

C.模型预测。

a.输入未参与训练的乡镇（洞井乡、两水乡、延东乡、四塘乡、严关镇、灵田乡）地质条件数据。

b.预测。程序运行后网络输出预测值a3，与已知的实际值进行比较，其预测结果整理后见（表6.30）。经计算，对6个乡镇伤寒副伤寒发病等级的预测符合率为83.3%。

表6.30 神经网络模型预测结果与实际结果比较

c.地质条件改进方案。在影响疾病发生的地质条件中，大部分地质条件是不会变化的，而改变发病地区的饮用水类型是可以人为地通过改良措施加以实施的一个因素。因此，以灵田乡为例对发病率较高的乡镇进行分析，改变其饮用水类型，来看发病等级的变化情况。

表6.31显示，在其他地质条件因素不变的情况下，改变当地的地下水类型（从原来的岩溶水类型改变成基岩裂隙水）则将发病等级从原来的最高级4级，下降为较低的2级，效果是十分明显的。因此，今后在进行伤寒副伤寒疾病防治的时候，可以通过改变高发区饮用水类型来客观上减少疫情的发生。

表6.31 灵田乡改变饮用水类型前后的预测结果

2）选取桂林地区1994～2000年月平均降雨量、月平均温度作为输入数据矩阵，进行样本训练，设定不同的隐含层单元数，对各月份的数据进行BP网络训练。在隐含层单元数q1=13，q2=9，经过46383次数的训练，误差达到精度要求，学习速率0.02。

A.附加动量法程序（略）。

B.网络训练。在命令窗口执行运行命令，网络开始学习和训练，其学习和训练过程如下（图6.20）。

C.模型预测。

a.输入桂林市2001年1～12月桂林市各月份的平均气温和平均降雨量。预测程度（略）。

b.预测。程序运行后网络输出预测值a2，与已知的实际值进行比较，其预测结果整理后见（表6.32）。经计算，对2001年1～12月伤寒副伤寒发病等级进行预测，12个预测结果中，有9个符合，符合率为75%。

图6.20 神经网络训练过程图

表6.32 神经网络模型预测结果与实际值比较

6.3.3.3 模型的评价

本研究采用BP神经网络对伤寒、副伤寒发病率等级进行定量预测，一方面引用数量化理论对不确定因素进行量化处理；另一方面利用神经网络优点，充分考虑各影响因素与发病率之间的非线性映射。

实际应用表明，神经网络定量预测伤寒、副伤寒发病率是理想的。

其主要优点有：

1）避免了模糊或不确定因素的分析工作和具体数学模型的建立工作。

2）完成了输入和输出之间复杂的非线性映射关系。

3）采用自适应的信息处理方式，有效减少人为的主观臆断性。

虽然如此，但仍存在以下缺点：

1）学习算法的收敛速度慢，通常需要上千次或更多，训练时间长。

2）从数学上看，BP算法有可能存在局部极小问题。

本模型具有广泛的应用范围，可以应用在很多领域。从上面的结果可以看出，实际和网络学习数据总体较为接近，演化趋势也基本一致。说明选定的气象因子、地质条件因素为神经单元获得的伤寒、副伤寒发病等级与实际等级比较接近，从而证明伤寒、副伤寒流行与地理因素的确存在较密切的相关性。

大数据常用的各种算法

我们经常谈到的所谓的数据挖掘是通过大量的数据集进行排序，自动化识别趋势和模式并且建立相关性的过程。那现在市面的数据公司都是通过各种各样的途径来收集海量的信息，这些信息来自于网站、公司应用、社交媒体、移动设备和不断增长的物联网。比如我们现在每天都在使用的搜索引擎。在自然语言处理领域，有一种非常流行的算法模型，叫做词袋模型，即把一段文字看成一袋水果，这个模型就是要算出这袋水果里，有几个苹果、几个香蕉和几个梨。搜索引擎会把这些数字记下来，如果你想要苹果，它就会把有苹果的这些袋子给你。当我们在网上买东西或是看电影时，网站会推荐一些可能符合我们偏好的商品或是电影，这个推荐有时候还挺准。事实上，这背后的算法，是在数你喜欢的电影和其他人喜欢的电影有多少个是一样的，如果你们同时喜欢的电影超过一定个数，就把其他人喜欢、但你还没看过的电影推荐给你。搜索引擎和推荐系统在实际生产环境中还要做很多额外的工作，但是从本质上来说，它们都是在数数。当数据量比较小的时候，可以通过人工查阅数据。而到了大数据时代，几百TB甚至上PB的数据在分析师或者老板的报告中，就只是几个数字结论而已。在数数的过程中，数据中存在的信息也随之被丢弃，留下的那几个数字所能代表的信息价值，不抵其真实价值之万一。过去十年，许多公司花了大价钱，用上了物联网和云计算，收集了大量的数据，但是到头来却发现得到的收益并没有想象中那么多。所以说我们现在正处于“ 数字化一切 ”的时代。人们的所有行为，都将以某种数字化手段转换成数据并保存下来。每到新年，各大网站、App就会给用户推送上一年的回顾报告，比如支付宝会告诉用户在过去一年里花了多少钱、在淘宝上买了多少东西、去什么地方吃过饭、花费金额超过了百分之多少的小伙伴；航旅纵横会告诉用户去年做了多少次飞机、总飞行里程是多少、去的最多的城市是哪里；同样的，最后让用户知道他的行程超过了多少小伙伴。这些报告看起来非常酷炫，又冠以“大数据”之名，让用户以为是多么了不起的技术。实际上，企业对于数据的使用和分析，并不比我们每年收到的年度报告更复杂。已经有30多年历史的商业智能，看起来非常酷炫，其本质依然是数数，并把数出来的结果画成图给管理者看。只是在不同的行业、场景下，同样的数字和图表会有不同的名字。即使是最近几年炙手可热的大数据处理技术，也不过是可以数更多的数，并且数的更快一些而已。在大数据处理过程中会用到那些算法呢？　1、A* 搜索算法——图形搜索算法，从给定起点到给定终点计算出路径。其中使用了一种启发式的估算，为每个节点估算通过该节点的较佳路径，并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此，A*搜索算法是较佳优先搜索的范例。 2、集束搜索(又名定向搜索，Beam Search)——较佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过，集束搜索只能在每个深度中发现最前面的m个最符合条件的节点，m是固定数字——集束的宽度。 3、二分查找(Binary Search)——在线性数组中找特定值的算法，每个步骤去掉一半不符合要求的数据。 4、分支界定算法(Branch and Bound)——在多种最优化问题中寻找特定最优化解决方案的算法，特别是针对离散、组合的最优化。 5、Buchberger算法——一种数学算法，可将其视为针对单变量较大公约数求解的欧几里得算法和线性系统中高斯消元法的泛化。 6、数据压缩——采取特定编码方案，使用更少的字节数(或是其他信息承载单元)对信息编码的过程，又叫来源编码。 7、Diffie-Hellman密钥交换算法——一种加密协议，允许双方在事先不了解对方的情况下，在不安全的通信信道中，共同建立共享密钥。该密钥以后可与一个对称密码一起，加密后续通讯。 8、Dijkstra算法——针对没有负值权重边的有向图，计算其中的单一起点最短算法。 9、离散微分算法(Discrete differentiation)。 10、动态规划算法(Dynamic Programming)——展示互相覆盖的子问题和最优子架构算法 11、欧几里得算法(Euclidean algorithm)——计算两个整数的较大公约数。最古老的算法之一，出现在公元前300前欧几里得的《几何原本》。 12、期望-较大算法(Expectation-maximization algorithm，又名EM-Training)——在统计计算中，期望-较大算法在概率模型中寻找可能性较大的参数估算值，其中模型依赖于未发现的潜在变量。EM在两个步骤中交替计算，第一步是计算期望，利用对隐藏变量的现有估计值，计算其较大可能估计值;第二步是较大化，较大化在第一步上求得的较大可能值来计算参数的值。 13、快速傅里叶变换(Fast Fourier transform，FFT)——计算离散的傅里叶变换(DFT)及其反转。该算法应用范围很广，从数字信号处理到解决偏微分方程，到快速计算大整数乘积。 14、梯度下降(Gradient descent)——一种数学上的最优化算法。 15、哈希算法(Hashing)。 16、堆排序(Heaps)。 17、Karatsuba乘法——需要完成上千位整数的乘法的系统中使用，比如计算机代数系统和大数程序库，如果使用长乘法，速度太慢。该算法发现于1962年。 18、LLL算法(Lenstra-Lenstra-Lovasz lattice reduction)——以格规约(lattice)基数为输入，输出短正交向量基数。LLL算法在以下公共密钥加密方法中有大量使用：背包加密系统(knapsack)、有特定设置的RSA加密等等。 19、较大流量算法(Maximum flow)——该算法试图从一个流量网络中找到较大的流。它优势被定义为找到这样一个流的值。较大流问题可以看作更复杂的网络流问题的特定情况。较大流与网络中的界面有关，这就是较大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一个流网络中的较大流。 20、合并排序(Merge Sort)。 21、牛顿法(Newton's mod)——求非线性方程(组)零点的一种重要的迭代法。 22、Q-learning学习算法——这是一种通过学习动作值函数(action-value function)完成的强化学习算法，函数采取在给定状态的给定动作，并计算出期望的效用价值，在此后遵循固定的策略。Q-leanring的优势是，在不需要环境模型的情况下，可以对比可采纳行动的期望效用。 23、两次筛法(Quadratic Sieve)——现代整数因子分解算法，在实践中，是目前已知第二快的此类算法(仅次于数域筛法Number Field Sieve)。对于110位以下的十位整数，它仍是最快的，而且都认为它比数域筛法更简单。 24、RANSAC——是“RANdom SAmple Consensus”的缩写。该算法根据一系列观察得到的数据，数据中包含异常值，估算一个数学模型的参数值。其基本假设是：数据包含非异化值，也就是能够通过某些模型参数解释的值，异化值就是那些不符合模型的数据点。 25、RSA——公钥加密算法。较早的适用于以签名作为加密的算法。RSA在电商行业中仍大规模使用，大家也相信它有足够安全长度的公钥。 26、Schönhage-Strassen算法——在数学中，Schönhage-Strassen算法是用来完成大整数的乘法的快速渐近算法。其算法复杂度为：O(N log(N) log(log(N)))，该算法使用了傅里叶变换。 27、单纯型算法(Simplex Algorithm)——在数学的优化理论中，单纯型算法是常用的技术，用来找到线性规划问题的数值解。线性规划问题包括在一组实变量上的一系列线性不等式组，以及一个等待较大化(或最小化)的固定线性函数。 28、奇异值分解(Singular value decomposition，简称SVD)——在线性代数中，SVD是重要的实数或复数矩阵的分解方法，在信号处理和统计中有多种应用，比如计算矩阵的伪逆矩阵(以求解最小二乘法问题)、解决超定线性系统(overdetermined linear systems)、矩阵逼近、数值天气预报等等。 29、求解线性方程组(Solving a system of linear equations)——线性方程组是数学中最古老的问题，它们有很多应用，比如在数字信号处理、线性规划中的估算和预测、数值分析中的非线性问题逼近等等。求解线性方程组，可以使用高斯—约当消去法(Gauss-Jordan elimination)，或是柯列斯基分解( Cholesky decomposition)。 30、Strukturtensor算法——应用于模式识别领域，为所有像素找出一种计算方法，看看该像素是否处于同质区域( homogenous region)，看看它是否属于边缘，还是是一个顶点。 31、合并查找算法(Union-find)——给定一组元素，该算法常常用来把这些元素分为多个分离的、彼此不重合的组。不相交集(disjoint-set)的数据结构可以跟踪这样的切分方法。合并查找算法可以在此种数据结构上完成两个有用的操作：查找：判断某特定元素属于哪个组。合并：联合或合并两个组为一个组。 32、维特比算法(Viterbi algorithm)——寻找隐藏状态最有可能序列的动态规划算法，这种序列被称为维特比路径，其结果是一系列可以观察到的事件，特别是在隐藏的Markov模型中。

人工智能算法有哪些

人工智能算法有：决策树、随机森林算法、逻辑回归、SVM、朴素贝叶斯、K最近邻算法、K均值算法、Adaboost算法、神经网络、马尔可夫。

大数据分析常见的手段有哪几种?

【导读】众所周知，伴随着大数据时代的到来，大数据分析也逐渐出现，扩展开来，大数据及移动互联网时代，每一个使用移动终端的人无时无刻不在生产数据，而作为互联网服务提供的产品来说，也在持续不断的积累数据。数据如同人工智能一样，往往能表现出更为客观、理性的一面，数据可以让人更加直观、清晰的认识世界，数据也可以指导人更加理智的做出决策。随着大数据的日常化，为了防止大数据泛滥，所以我们必须要及时采取数据分析，提出有用数据，那大数据分析常见的手段有哪几种呢?一、可视化分析不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据，让数据自己说话，让群众们以更直观，更易懂的方式了解结果。二、数据挖掘算法数据挖掘又称数据库中的知识发现人工智能机式别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。那么说可视化是把数据以直观的形式展现给人看的，数据挖掘就可以说是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。三、预测性分析能力预测性分析结合了多种高级分析功能，包括特设统计分析、预测性建模、数据挖掘、文本分析、优化、实时评分、机器学习等。这些工具可以帮助企业发现数据中的模式，并超越当前所发生的情况预测未来进展。数据挖掘可以让分析员更好的理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。四、语义引擎由于非结构化数据的多样性带来了数据分析的新的挑战，需要一系列的工具去解析，提取，分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。五、数据质量和数据管理数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。关于“大数据分析常见的手段有哪几种?”的内容就给大家介绍到这里了，更多关于大数据分析的相关内容，关注小编，持续更新。

机器学习有哪些算法

朴素贝叶斯分类器算法是最受欢迎的学习方法之一，按照相似性分类，用流行的贝叶斯概率定理来建立机器学习模型，特别是用于疾病预测和文档分类。它是基于贝叶斯概率定理的单词的内容的主观分析的简单分类。

什么时候使用机器学习算法 - 朴素贝叶斯分类器？

（1）如果您有一个中等或大的训练数据集。

（2）如果实例具有几个属性。

（3）给定分类参数，描述实例的属性应该是条件独立的。

A．朴素贝叶斯分类器的应用

（1）情绪分析 - 用于Facebook分析表示积极或消极情绪的状态更新。

（2）文档分类 - Google使用文档分类来索引文档并查找相关性分数，即PageRank。 PageRank机制考虑在使用文档分类技术解析和分类的数据库中标记为重要的页面。

（3）朴素贝叶斯算法也用于分类关于技术，娱乐，体育，等的新闻文章。

（4）电子邮件垃圾邮件过滤 - Google Mail使用NaïveBayes算法将您的电子邮件归类为垃圾邮件或非垃圾邮件。

B．朴素贝叶斯分类器机器学习算法的优点

（1）当输入变量是分类时，朴素贝叶斯分类器算法执行得很好。

（2）当朴素贝叶斯条件独立假设成立时，朴素贝叶斯分类器收敛更快，需要相对较少的训练数据，而不像其他判别模型，如逻辑回归。

（3）使用朴素贝叶斯分类器算法，更容易预测测试数据集的类。多等级预测的好赌注。

（4）虽然它需要条件独立假设，但是朴素贝叶斯分类器在各种应用领域都表现出良好的性能。

Python中的数据科学库实现NaïveBayes - Sci-Kit学习

数据科学图书馆在R实施朴素贝叶斯 - e1071

3.2 K均值聚类算法

K-means是用于聚类分析的普遍使用的无监督机器学习算法。 K-Means是一种非确定性和迭代的方法。该算法通过预定数量的簇k对给定数据集进行操作。 K Means算法的输出是具有在簇之间分割的输入数据的k个簇。

例如，让我们考虑维基百科搜索结果的K均值聚类。维基百科上的搜索词“Jaguar”将返回包含Jaguar这个词的所有页面，它可以将Jaguar称为Car，Jaguar称为Mac OS版本，Jaguar作为动物。 K均值聚类算法可以应用于对描述类似概念的网页进行分组。因此，算法将把所有谈论捷豹的网页作为一个动物分组到一个集群，将捷豹作为一个汽车分组到另一个集群，等等。

A．使用K-means聚类机学习算法的优点

（1）在球状簇的情况下，K-Means产生比层级聚类更紧密的簇。

（2）给定一个较小的K值，K-Means聚类计算比大量变量的层次聚类更快。

B．K-Means聚类的应用

K Means Clustering算法被大多数搜索引擎（如Yahoo，Google）用于通过相似性对网页进行聚类，并识别搜索结果的“相关率”。这有助于搜索引擎减少用户的计算时间。

Python中的数据科学库实现K均值聚类 - SciPy，Sci-Kit学习，Python包装

数据科学库中的R实现K均值聚类 - 统计

3.3 支持向量机学习算法

支持向量机是一种分类或回归问题的监督机器学习算法，其中数据集教导关于类的SVM，以便SVM可以对任何新数据进行分类。它通过找到将训练数据集分成类的线（超平面）将数据分类到不同的类中来工作。由于存在许多这样的线性超平面，SVM算法尝试最大化所涉及的各种类之间的距离，并且这被称为边际最大化。如果识别出最大化类之间的距离的线，则增加对未看见数据良好推广的概率。

A．SVM分为两类：

线性SVM - 在线性SVM中，训练数据，即分类器由超平面分离。

非线性SVM在非线性SVM中，不可能使用超平面来分离训练数据。例如，用于面部检测的训练数据由作为面部的一组图像和不是面部的另一组图像（换句话说，除了面部之外的所有其他图像）组成。在这种条件下，训练数据太复杂，不可能找到每个特征向量的表示。将面的集合与非面的集线性分离是复杂的任务。

B．使用SVM的优点

（1）SVM对训练数据提供最佳分类性能（精度）。

（2）SVM为未来数据的正确分类提供了更高的效率。

（3）SVM的最好的事情是它不对数据做任何强有力的假设。

（4）它不会过度拟合数据。

C．支持向量机的应用

（1）SVM通常用于各种金融机构的股票市场预测。例如，它可以用来比较股票相对于同一行业中其他股票的表现的相对表现。股票的相对比较有助于管理基于由SVM学习算法做出的分类的投资决策。

（2）Python中的数据科学库实现支持向量机-SciKit学习，PyML，SVMStruct Python，LIBSVM

（3）R中的数据科学库实现支持向量机 - klar，e1071

3.4 Apriori机器学习算法

Apriori算法是无监督机器学习算法，其从给定数据集生成关联规则。关联规则意味着如果项目A出现，则项目B也以一定概率出现。生成的大多数关联规则采用IF_THEN格式。例如，如果人们买了一个iPad，他们还买了一个iPad保护套。为了得到这样的结论的算法，它首先观察购买iPad的人购买iPad的人数。这样一来，比例就像100个购买iPad的人一样，85个人还购买了一个iPad案例。

A．Apriori机器学习算法的基本原理：

如果项集合频繁出现，则项集合的所有子集也频繁出现。

如果项集合不经常出现，则项集合的所有超集都不经常出现。

B．先验算法的优点

（1）它易于实现并且可以容易地并行化。

（2）Apriori实现使用大项目集属性。

C.Apriori算法应用

检测不良药物反应

Apriori算法用于关于医疗数据的关联分析，例如患者服用的药物，每个患者的特征，不良的不良反应患者体验，初始诊断等。该分析产生关联规则，其帮助识别患者特征和药物的组合导致药物的不良副作用。

市场篮子分析

许多电子商务巨头如亚马逊使用Apriori来绘制数据洞察，哪些产品可能是一起购买，哪些是最响应促销。例如，零售商可能使用Apriori预测购买糖和面粉的人很可能购买鸡蛋来烘烤蛋糕。

自动完成应用程序

Google自动完成是Apriori的另一个流行的应用程序，其中 - 当用户键入单词时，搜索引擎寻找人们通常在特定单词之后键入的其他相关联的单词。

Python中的数据科学库实现Apriori机器学习算法 - 在PyPi中有一个python实现Apriori

数据科学库在R中实现Apriori机器学习算法 – arules

3.5 线性回归机器学习算法

线性回归算法显示了2个变量之间的关系，以及一个变量中的变化如何影响另一个变量。该算法显示了在改变自变量时对因变量的影响。自变量被称为解释变量，因为它们解释了因变量对因变量的影响。依赖变量通常被称为感兴趣的因子或预测因子。

A．线性回归机器学习算法的优点

（1）它是最可解释的机器学习算法之一，使得它很容易解释给别人。

（2）它易于使用，因为它需要最小的调谐。

（3）它是最广泛使用的机器学习技术运行快。

B．线性回归算法应用

估计销售额

线性回归在业务中有很大的用途，基于趋势的销售预测。如果公司每月的销售额稳步增长 - 对月度销售数据的线性回归分析有助于公司预测未来几个月的销售额。

风险评估

线性回归有助于评估涉及保险或金融领域的风险。健康保险公司可以对每个客户的索赔数量与年龄进行线性回归分析。这种分析有助于保险公司发现，老年顾客倾向于提出更多的保险索赔。这样的分析结果在重要的商业决策中起着至关重要的作用，并且是为了解决风险。

Python中的数据科学库实现线性回归 - statsmodel和SciKit

R中的数据科学库实现线性回归 - 统计

3.6 决策树机器学习算法

你正在制作一个周末计划，去访问最好的餐馆在城里，因为你的父母访问，但你是犹豫的决定在哪家餐厅选择。每当你想去一家餐馆，你问你的朋友提利昂如果他认为你会喜欢一个特定的地方。为了回答你的问题，提利昂首先要找出，你喜欢的那种餐馆。你给他一个你去过的餐馆列表，告诉他你是否喜欢每个餐厅（给出一个标记的训练数据集）。当你问提利昂你是否想要一个特定的餐厅R，他问你各种问题，如“是”R“屋顶餐厅？”，“餐厅”R“服务意大利菜吗？”，现场音乐？“，”餐厅R是否营业至午夜？“等等。提利昂要求您提供几个信息问题，以最大限度地提高信息收益，并根据您对问卷的答案给予YES或NO回答。这里Tyrion是你最喜欢的餐厅偏好的决策树。

决策树是一种图形表示，其使用分支方法来基于某些条件来例示决策的所有可能的结果。在决策树中，内部节点表示对属性的测试，树的每个分支表示测试的结果，叶节点表示特定类标签，即在计算所有属性之后作出的决定。分类规则通过从根到叶节点的路径来表示。

A．决策树的类型

（1）分类树 - 这些被视为用于基于响应变量将数据集分成不同类的默认种类的决策树。这些通常在响应变量本质上是分类时使用。

（2）回归树 - 当响应或目标变量是连续或数字时，使用回归树。与分类相比，这些通常用于预测类型的问题。

根据目标变量的类型 - 连续变量决策树和二进制变量决策树，决策树也可以分为两种类型。它是有助于决定对于特定问题需要什么样的决策树的目标变量。

B．为什么选择决策树算法？

（1）这些机器学习算法有助于在不确定性下作出决策，并帮助您改善沟通，因为他们提供了决策情况的可视化表示。

（2）决策树机器学习算法帮助数据科学家捕获这样的想法：如果采取了不同的决策，那么情境或模型的操作性质将如何剧烈变化。

（3）决策树算法通过允许数据科学家遍历前向和后向计算路径来帮助做出最佳决策。

C．何时使用决策树机器学习算法

（1）决策树对错误是鲁棒的，并且如果训练数据包含错误，则决策树算法将最适合于解决这样的问题。

（2）决策树最适合于实例由属性值对表示的问题。

（3）如果训练数据具有缺失值，则可以使用决策树，因为它们可以通过查看其他列中的数据来很好地处理丢失的值。

（4）当目标函数具有离散输出值时，决策树是最适合的。

D.决策树的优点

（1）决策树是非常本能的，可以向任何人轻松解释。来自非技术背景的人，也可以解释从决策树绘制的假设，因为他们是不言自明的。

（2）当使用决策树机器学习算法时，数据类型不是约束，因为它们可以处理分类和数值变量。

（3）决策树机器学习算法不需要对数据中的线性进行任何假设，因此可以在参数非线性相关的情况下使用。这些机器学习算法不对分类器结构和空间分布做出任何假设。

（4）这些算法在数据探索中是有用的。决策树隐式执行特征选择，这在预测分析中非常重要。当决策树适合于训练数据集时，在其上分割决策树的顶部的节点被认为是给定数据集内的重要变量，并且默认情况下完成特征选择。

（5）决策树有助于节省数据准备时间，因为它们对缺失值和异常值不敏感。缺少值不会阻止您拆分构建决策树的数据。离群值也不会影响决策树，因为基于分裂范围内的一些样本而不是准确的绝对值发生数据分裂。

E.决策树的缺点

（1）树中决策的数量越多，任何预期结果的准确性越小。

（2）决策树机器学习算法的主要缺点是结果可能基于预期。当实时做出决策时，收益和产生的结果可能与预期或计划不同。有机会，这可能导致不现实的决策树导致错误的决策。任何不合理的期望可能导致决策树分析中的重大错误和缺陷，因为并不总是可能计划从决策可能产生的所有可能性。

（3）决策树不适合连续变量，并导致不稳定性和分类高原。

（4）与其他决策模型相比，决策树很容易使用，但是创建包含几个分支的大决策树是一个复杂和耗时的任务。

（5）决策树机器学习算法一次只考虑一个属性，并且可能不是最适合于决策空间中的实际数据。

（6）具有多个分支的大尺寸决策树是不可理解的，并且造成若干呈现困难。

F.决策树机器学习算法的应用

（1）决策树是流行的机器学习算法之一，它在财务中对期权定价有很大的用处。

（2）遥感是基于决策树的模式识别的应用领域。

（3）银行使用决策树算法按贷款申请人违约付款的概率对其进行分类。

（4）Gerber产品公司，一个流行的婴儿产品公司，使用决策树机器学习算法来决定他们是否应继续使用塑料PVC（聚氯乙烯）在他们的产品。

（5）Rush大学医学中心开发了一个名为Guardian的工具，它使用决策树机器学习算法来识别有风险的患者和疾病趋势。

Python语言中的数据科学库实现决策树机器学习算法是 - SciPy和Sci-Kit学习。

R语言中的数据科学库实现决策树机器学习算法是插入符号。

3.7 随机森林机器学习算法

让我们继续我们在决策树中使用的同样的例子，来解释随机森林机器学习算法如何工作。提利昂是您的餐厅偏好的决策树。然而，提利昂作为一个人并不总是准确地推广你的餐厅偏好。要获得更准确的餐厅推荐，你问一对夫妇的朋友，并决定访问餐厅R，如果大多数人说你会喜欢它。而不是只是问Tyrion，你想问问Jon Snow，Sandor，Bronn和Bran谁投票决定你是否喜欢餐厅R或不。这意味着您已经构建了决策树的合奏分类器 - 也称为森林。

你不想让所有的朋友给你相同的答案 - 所以你提供每个朋友略有不同的数据。你也不确定你的餐厅偏好，是在一个困境。你告诉提利昂你喜欢开顶屋顶餐厅，但也许，只是因为它是在夏天，当你访问的餐厅，你可能已经喜欢它。在寒冷的冬天，你可能不是餐厅的粉丝。因此，所有的朋友不应该利用你喜欢打开的屋顶餐厅的数据点，以提出他们的建议您的餐厅偏好。

通过为您的朋友提供略微不同的餐厅偏好数据，您可以让您的朋友在不同时间向您询问不同的问题。在这种情况下，只是稍微改变你的餐厅偏好，你是注入随机性在模型级别（不同于决策树情况下的数据级别的随机性）。您的朋友群现在形成了您的餐厅偏好的随机森林。

随机森林是一种机器学习算法，它使用装袋方法来创建一堆随机数据子集的决策树。模型在数据集的随机样本上进行多次训练，以从随机森林算法中获得良好的预测性能。在该整体学习方法中，将随机森林中所有决策树的输出结合起来进行最终预测。随机森林算法的最终预测通过轮询每个决策树的结果或者仅仅通过使用在决策树中出现最多次的预测来导出。

例如，在上面的例子 - 如果5个朋友决定你会喜欢餐厅R，但只有2个朋友决定你不会喜欢的餐厅，然后最后的预测是，你会喜欢餐厅R多数总是胜利。

A.为什么使用随机森林机器学习算法？

（1）有很多好的开源，在Python和R中可用的算法的自由实现。

（2）它在缺少数据时保持准确性，并且还能抵抗异常值。

（3）简单的使用作为基本的随机森林算法可以实现只用几行代码。

（4）随机森林机器学习算法帮助数据科学家节省数据准备时间，因为它们不需要任何输入准备，并且能够处理数字，二进制和分类特征，而无需缩放，变换或修改。

（5）隐式特征选择，因为它给出了什么变量在分类中是重要的估计。

B.使用随机森林机器学习算法的优点

（1）与决策树机器学习算法不同，过拟合对随机森林不是一个问题。没有必要修剪随机森林。

（2）这些算法很快，但不是在所有情况下。随机森林算法当在具有100个变量的数据集的800MHz机器上运行时，并且50,000个案例在11分钟内产生100个决策树。

（3）随机森林是用于各种分类和回归任务的最有效和通用的机器学习算法之一，因为它们对噪声更加鲁棒。

（4）很难建立一个坏的随机森林。在随机森林机器学习算法的实现中，容易确定使用哪些参数，因为它们对用于运行算法的参数不敏感。一个人可以轻松地建立一个体面的模型没有太多的调整

（5）随机森林机器学习算法可以并行生长。

（6）此算法在大型数据库上高效运行。

（7）具有较高的分类精度。

C.使用随机森林机器学习算法的缺点

他们可能很容易使用，但从理论上分析它们是很困难的。

随机森林中大量的决策树可以减慢算法进行实时预测。

如果数据由具有不同级别数量的分类变量组成，则算法会偏好具有更多级别的那些属性。在这种情况下，可变重要性分数似乎不可靠。

当使用RandomForest算法进行回归任务时，它不会超出训练数据中响应值的范围。

D.随机森林机器学习算法的应用

（1）随机森林算法被银行用来预测贷款申请人是否可能是高风险。

（2）它们用于汽车工业中以预测机械部件的故障或故障。

（3）这些算法用于医疗保健行业以预测患者是否可能发展成慢性疾病。

（4）它们还可用于回归任务，如预测社交媒体份额和绩效分数的平均数。

（5）最近，该算法也已经被用于预测语音识别软件中的模式并对图像和文本进行分类。

Python语言中的数据科学库实现随机森林机器学习算法是Sci-Kit学习。

R语言的数据科学库实现随机森林机器学习算法randomForest。

哪些机器学习算法可以处理多分类

maxsoft作为logistics二分类的改进版，天生适合多分类；神经网络(如bp神经网络，随机权神经网络，RBF神经网络等)；通过建立多个支持向量机或者最小二乘支持向量机分类模型，通过投票算法选择概率最大的分类标签；也可以通过聚类算法(KNN，kMeans等)等无监督学习算法实现分类。或许不太完善，欢迎补充。(机器学习算法与Python学习)