Domanda
Quali sono gli svantaggi di usare un albero decisionale per la classificazione?
Dare una risposta
Articoli simili
- Posso usare un piatto di ceramica per cuocere i fagioli in forno per 3 ore?
- Quali sono gli adattamenti di un giacinto d'acqua?
- Come iniziare a coltivare piante medicinali a Haridwar? Quali autorità possono aiutare
- Cosa sono le piante medicinali e aromatiche?
- Quali sono le proprietà medicinali provate della pianta, Self Heal o Heal all?
1) Gli alberi decisionali sono utilizzati al meglio per classificare i dati che sono intrinsecamente di natura categorica, come le informazioni sulle partite sportive, le diagnosi mediche e gli avvisi di sicurezza, ecc. Tuttavia, se c'è già una forte evidenza che suggerisce che il dataset sottostante ha un vero ordine statistico, allora alcuni metodi più semplici possono essere preferibili (tecniche di regressione per esempio).
2) La precisione di qualsiasi modello generato da questo tipo di algoritmo non è garantita. Se un dato attributo non ha un grande impatto sui risultati finali, allora può essere ignorato del tutto dall'algoritmo di classificazione che lavora all'interno dell'albero decisionale, quindi è probabile che sia necessaria una revisione manuale da parte di un analista prima dello schieramento o dell'utilizzo finale. Questo può essere superato con il continuo
Per concludere: Anche se l'albero decisionale può non essere accurato o preciso come altri metodi di classificazione, offre molti vantaggi in termini di facilità d'uso e flessibilità analitica. Nel complesso questo dovrebbe permettere ad un analista che capisce bene la metodologia di creare un modello che sia semplice, ma efficace.
3 Problems with Decision Trees
I illustrate by fitting a decision tree model in R to the iris dataset, which collects measurement data on 3 species of flowers. I focus on two of those measurements: sepal length and sepal width.
Now, I will perturb the data by adding 0.1 to each datapoint with probability 0.25, and subtracting 0.1 to each datapoint with probability 0.25.
Key observation - Notice how just by perturbing the data a little bit, I made a different-looking decision tree?
To get a better look at what's happening, I plot the decision tree boundaries and the actual data points on a scatter plot. I color each region by the plurality class.
Some problem we see here when we apply our decision tree on continuous data:
One very good method to reduce the instability is to rely on an ensemble of decision trees, by trying some sort of random forest or boosted decision tree algorithm. This also helps smooth out a classification plateau. An ensemble of slightly different trees will almost always outperform a single decision tree.
If you prefer classification boundaries that aren't as rigid, you would also be interested in tree ensembles or something like K-Nearest-Neighbors.
If you're looking for decision boundaries that are NOT parallel to the axis, you would want to try an SVM or Logistic Regression. See What are the advantages of logistic regression over decision trees? Are there any cases where it's better to use logistic regression instead of decision trees?
For the other side of decision trees, see What are the advantages of using a decision tree for classification?