Dữ liệu trong thực tế bao giờ cũng đa dạng, có thể là dữ liệu của hệ thống sinh viên, hoặc dữ liệu thời tiết. Tuy nhiên, những dữ liệu ban đầu, dù ít hay nhiều thì cũng tồn tại những điểm dữ liệu bất thường hoặc là dữ liệu quá lớn, dư thừa, làm cho quá trình khai phá trở nên khó nhằn hơn. Do đó, việc chọn lựa những thuộc tính cần thiết cho quá trình khai phá dữ liệu là vô cùng cấp bách. Vậy trích chọn thuộc tính là gì?
Giới thiệu
Trích chọn thuộc tính (attribute selection) là một nhiệm vụ vô cùng quan trọng trong tiến trình tiền xử lý dữ liệu (data pre-processing). Thông thường, các tập dữ liệu (dataset) ban đầu chứa những thông tin nhiễu (noisy data) hoặc thông tin dư thừa (redundant data), cũng có thể là tồn tại các giá trị bị thiếu (missing value) cho việc xây dựng các mô hình máy học (machine learning). Chẳng hạn, tập dữ liệu của một siêu thị trong thành phố có hàng chục đến hàng trăm thuộc tính để mô tả về các loại sản phẩm, ví dụ như: bánh mì, bơ, sữa, bia, …. Nếu chúng ta sử dụng tập dữ liệu này mà không trải qua quá trình tiền xử lý dữ liệu để xây dựng các mô hình thì sẽ mất khá nhiều tài nguyên máy tính (bao gồm tốc độ và bộ nhớ), thậm chí các thuộc tính dư thừa trong tập dữ liệu này cũng có thể sẽ gây ảnh hưởng đến độ chính xác của mô hình và gây ra nhiều khó khăn trong quá trình khai phá tri thức.
Có nhiều phương pháp trích chọn thuộc tính, và mẫu số chung của các giải thuật này là tính trọng số (score) của các thuộc tính đó. Sau khi tính được trọng số (score) cho mỗi thuộc tính, ta sẽ chọn ra những thuộc tính có trọng số tốt nhất để áp dụng vào mô hình. Đối với các phương pháp này, ta có thể chọn ra một ngưỡng nhất định (threshold) để tìm những thuộc tính có trọng số lớn hơn ngưỡng cho phép. Quá trình trích chọn thuộc tính luôn được thực hiện trước quá trình training model.
Các phương pháp trích chọn
Tùy thuộc vào cấu trúc dữ liệu được sử dụng cho mô hình và giải thuật mà ta sẽ đưa ra các phương pháp trích chọn thuộc tính khác nhau. Một số phương pháp trích chọn thuộc tính thông dụng: Interestingness score, Shannon’s Entropy, Bayesian with K2 Prior, Bayesian Dirichlet with uniform prior.
Bảng dưới đây cho biết các phương pháp trích chọn thuộc tính cho từng giải thuật
Giải Thuật | Phương pháp |
Naïve Bayes | Shannon’s Entropy
Bayesian with K2 Prior Bayesian Dirichlet with uniform prior |
Decision Trees | Interestingness score
Shannon’s Entropy Bayesian with K2 Prior Bayesian Dirichlet with uniform prior |
Neural Network | Interestingness score
Shannon’s Entropy Bayesian with K2 Prior Bayesian Dirichlet with uniform prior |
Logistic Regression | Interestingness score
Shannon’s Entropy Bayesian with K2 Prior Bayesian Dirichlet with uniform prior |
Clustering | Interestingness score |
Linear Algorithm | Interestingness score |
Tổng Kết
Như vậy, trích chọn thuộc tính là một nhiệm vụ cực kì quan trọng trong bước tiền xử lý dữ liệu. Thông qua việc trích chọn thuộc tính, những dữ liệu dư thừa sẽ được loại bỏ khỏi tập dữ liệu, tạo ra tập dữ liệu chất lượng hơn, giúp chúng ta thuận tiện hơn trong việc khai phá dữ liệu sau này.