Ngày nay, mật độ thông tin ngày càng nhiều, từ các trang tin tức như www.zing.vn, đến những trang mạng xã hội, điển hình như www.facebook.com. Một vị hiền triết đã nói rằng: “Dữ liệu vô hạn, tri thức hữu hạn”. Vậy làm sao để ta có thể khai thác được nguồn tri thức đó một cách hiệu quả, và với những tri thức đó, ta có thể làm gì? Hãy đọc tiếp phần sau để có một cái nhìn tổng quát hơn về lĩnh vực khai phá dữ liệu nhé!
Khai phá dữ liệu là gì?
Cũng giống như khai thác tài nguyên khoáng sản, ví dụ, đào vàng, kim cương. Khai phá dữ liệu là quá trình khám phá tri thức có ích từ lượng lớn dữ liệu, những dữ liệu này có thể từ kho dữ liệu, web, hoặc các nguồn dữ liệu khác.
Mục đích của đào vàng là để kiếm tiền, làm đồ trang sức. Vậy thì mục dích của việc khai phá dữ liệu là để làm gì?
Các ứng dụng trong khai phá dữ liệu
Như đã đề cập ở trên, nếu như đào vàng là để làm đồ trang sức, thì khai phá dữ liệu dùng để tìm ra tri thức mới, phục vụ cho từng công việc cụ thể. Chẳng hạn, với dữ liệu giao dịch trong siêu thị, các nhà quản lý sẽ khai thác, từ đó có thể hiểu được xu hướng mua hàng của người tiêu dùng, biết được khi vào siêu thị, khách hàng sẽ đến quầy hàng nào đầu tiên, những mặt hàng nào sẽ được nhiều người quan tâm hơn…
Khai phá dữ liệu được ứng dụng rộng rãi trong nhiều lĩnh vực. Dưới đây là những lĩnh vực mà khai phá dữ liệu đang được ứng dụng nhiều nhất:
Phân tích và quản lý thị trường
Khai thác hồ sơ khách hàng: phân tích xem liệu khách hàng A có phải là khách hàng tiềm năng sẽ mua sản phẩm B hay không?
Xác định yêu cầu khách hàng: xem coi sản phẩm nào là sản phẩm phù hợp nhất cho từng đối tượng khách hàng khác nhau.
Tiếp thị mục tiêu: phân tích xem khách hàng nào có sở thích, thu nhập, hoặc độ tuổi gần giống nhau sẽ được gom thành một nhóm. Với mỗi nhóm khách hàng khác nhau, các doanh nghiệp sẽ dễ dàng hơn trong việc tiếp thị và cung cấp sản phẩm phù hợp.
Phân tích doanh nghiệp và quản lý rủi ro
Lập kế hoạch tài chính và đánh giá tài sản: bao gồm phân tích và dự đoán dòng chảy của đồng tiền, phân tích giá trị phụ thuộc (contingent claim) để thẩm định tài sản.
Phát hiện gian lận – fraud detection
Phát hiện gian lận thường được sử dụng trong các lĩnh vực như ngân hàng, với dịch vụ thẻ tín dụng, hoặc là viễn thông. Đối với viễn thông, khai phá dữ liệu từ các cuộc gọi lừa đảo sẽ giúp các cơ quan điều tra xác định thời gian gọi, gọi trong bao lâu, gọi đến ai, ai là người gọi, từ đó sẽ xác định được thủ phạm và truy bắt chúng.
Trong lĩnh vực tài chính, bán hàng, nó còn được dùng để phân tích các mô hình, xem coi có trường hợp nào đi chệch khỏi quỹ đạo hay không, doanh thu bán hàng có khác với chỉ tiêu dự kiến hay không.
Ngoài ra, khai phá dữ liệu còn được ứng dụng rộng rãi trong các lĩnh vực khác như tin sinh học, địa chất học, thể thao, y tế,…
Các tiến trình khai phá dữ liệu
Có nhiều ý kiến cho rằng khai phá dữ liệu tương đương với thuật ngữ KDD – Knowledge discovery from data. Một số khác thì cho rằng khai phá dữ liệu chỉ là một trong những bước của quá trình khai phá tri thức. Một cách tổng quát, khai phá tri thức gồm có những bước sau:
Làm sạch dữ liệu- data cleaning: bước này sẽ loại bỏ nhiễu và dữ liệu không nhất quán
Tích hợp dữ liệu- data integration: tích hợp dữ liệu từ nhiều nguồn dữ liệu khác nhau
Chọn dữ liệu – data selection: chọn ra dữ liệu phù hợp trong kho dữ liệu để tiến hành phân tích
Chuyển đổi dữ liệu- data transformation: chuyển đổi dữ liệu và hợp nhất thành những dạng phù hợp cho quá trình khai phá dữ liệu
Khai phá dữ liệu – data mining: sử dụng các giải thuật để đưa ra những mô hình dữ liệu
Đánh giá mô hình – pattern evaluation: xác định xem liệu mô hình dữ liệu mà mình vừa tìm được có chứa thông tin hữu ích hay không, tri thức trong đó có đúng hay không?
Biểu diễn tri thức – knowledge presentation: trực quan hóa dữ liệu bằng đồ thị, hoặc giao diện để biểu diễn cho người dùng, sao cho người dùng có thể dễ dàng hiểu được.
Tổng kết
Dữ liệu trong cuộc sống thì rất nhiều, nhưng để biến nó thành những kiến thức hữu ích và phục vụ công việc thì là một công việc khó khăn, đòi hỏi phải có nhiều thời gian để khai phá và đánh giá chất lượng kiến thức đó. Với bài viết này, mình hy vọng các bạn sẽ có cái nhìn tổng quan hơn về khai phá dữ liệu, từ đó bắt đầu con đường nghiên cứu sâu hơn trong lĩnh vực này.