1.决策树的构造
1.1优缺点
优点:
- 计算复杂度不高:以ID3为例,每次运算都是基于某一列特征,特征计算完后,下次计算不考虑该最有特征,并且通过适当剪枝可以简化复杂度
- 输出很容易理解:因为输出是树的结构,树的方向一目了然
[En]
the output is easy to understand: because the output is the structure of a tree, the direction of the tree is clear at a glance*
- 对中间值的缺失不敏感
- 可以处理不相关特 征数据:是基于每列特征来计算,不考虑特征之间的依赖关系
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。
1.2信息熵
它主要用来衡量信息的混乱程度。信息越混乱,它能包含的信息越多,信息量就越大。另一方面,如果信息越有序,它包含的信息就越少,熵就越小。
[En]
It is mainly used to measure the degree of confusion of information. the more chaotic the information is, the more information it can contain, the greater the entropy. On the other hand, if the more orderly the information is, the less information it contains, the smaller the entropy.