Rate this post

https://www.youtube.com/watch?v=tps://www.youtube.com/channel/UC7qHJA0RfqX1txaNQO_oskA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 69 trang )

1.2 Khám phá tri thức và quá trình khám phá tri thức1.2.1 Khám phá tri thức
Khám phá hay phát hiện tri thức trong CSDL là một quy trình nhận biếtcác mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổnghợp, hợp thức, khả ích, và có thể hiểu được. Còn khai phá dữ liệu là một bướctrong quy trình khám phá tri thức gồm có các thuật toán khai thác dữ liệuchuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được đểtìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói một cách khác, mục đíchcủa phát hiện tri thức và khai phá dữ liệu chính là tìm ra các và/hoặc các môhình đang tồn tại trong các CSDL nhưng vẫn còn bị che khuất bởi hàng núi dữliệu.1.2.2 Quá trình khám phá tri thức
Việc khám phá tri thức thông thường có thể mô tả bằng sơ đồ các quy trìnhsau:Hình 1: Quá trình khám phá tri thức12Trong đó, mỗi bước là một quy trình có vai trò riêng và nhiệm vụ khácnhau, bao gồm:Bước thứ nhất: Tìm hiểu lĩnh vực ứng dụng và hình thành bài toán,bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phépchọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng vàbản chất của dữ liệu.Bước thứ hai: Thu thập và xử lý dữ liệu thô, còn được gọi là tiền xử lýdữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rútgọn dữ liệu nếu cần thiết, bước này chiếm khá nhiều thời gian trong toàn bộquy trình khám phá tri thức.Bước thứ ba: Khai phá dữ liệu, hay nói cách khác là trích ra các mẫuhoặc/và các mô hình ẩn dưới các dữ liệu.Bước thứ tư: Hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các môtả và dự đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu đượccó thể được lấy trung bình trên tất cả các lần thực hiện.Bước thứ năm: Sử dụng tri thức đã được khai phá vào thực tế. Các trithức phát hiện được tích hợp chặt chẽ trong hệ thống. Tuy nhiên để sử dụngđược các tri thức đó đôi khi cần đến các chuyên gia trong các lĩnh vực quantâm vì tri thức rút ra có thể chỉ mang tính chất hỗ trợ quyết định hoặc cũng cóthể được sử dụng cho một quá trình khám phá tri thức khác.Mặc dù được tóm tắt thành năm bước nhưng thực chất quá trình xâydựng và thực hiện việc khám phá tri thức không chỉ tuân theo các bước cốđịnh mà các quá trình này còn có thể được lặp đi lặp lại ở một hoặc một sốgiai đoạn trước và cứ tiếp tục như thế sẽ làm cho quá trình khai phá và tìmkiếm dữ liệu ngày càng hoàn thiện hơn.131.3 Khai phá dữ liệu1.3.1 Khai phá dữ liệu
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phátri thức. Về bản chất nó là giai đoạn duy nhất tìm ra được thông tin mới. Việckhai phá dữ liệu còn được coi như là việc khai phá tri thức từ dữ liệu, trích lọctri thức, phân tích dữ liệu – mẫu, đào xới, nạo vét dữ liệu.Khai phá dữ liệu (Data Mining) được định nghĩa là quá trình trích lọccác thông tin có giá trị ẩn trong lượng lớn dữ liệu được lưu trữ trong các
CSDL hoặc các kho dữ liệu … Khai phá dữ liệu cũng còn được gọi là mộtquá trình tìm kiếm, khám phá ở nhiều góc độ để tìm ra các mối tương quan,các mối liên hệ dưới nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các môhình tồn tại bên trong cơ sở dữ liệu đang bị che khuất. Để trích rút các mẫu,mô hình tiềm ẩn có tính “tri thức” ta phải tìm và áp dụng các phương pháp, kỹthuật khai phá sao cho các kỹ thuật và phương pháp này phải phù hợp với tínhchất, đặc trưng của dữ liệu và mục đích sử dụng. Tuy khai phá dữ liệu chỉ làmột bước trong quá trình khám phá tri thức nhưng nó lại là bước tiên quyết,quan trọng và ảnh hưởng đến toàn bộ quá trình.Tóm lại, khai phá dữ liệu là một quá trình tìm kiếm thông tin “tri thức”tiểm ẩn trong cơ sở dữ liệu lớn, khổng lồ. Vì thế, có thể nói rằng hai thuật ngữkhám phá tri thức và khai phá dữ liệu là tương đương nếu nói ở khía cạnhtổng quan, còn nếu xét ở góc độ chi tiết thì khai phá dữ liệu là một giai đoạncó vai trò quan trọng trong quá trình khám phá tri thức.1.3.2 Mục tiêu của khai phá dữ liệu
Qua những nội dung đã trình bày ở trên, ta có thể hiểu một cách sơ lượcrằng khai phá dữ liệu là quá trình tìm kiếm thông tin hữu ích, tiềm ẩn và mangtính dự báo trong các cơ sở dữ liệu lớn. Việc khai phá dữ liệu nhằm các mụcđích chính như sau:14- Khai thác những thông tin tiềm ẩn mang tính chất dự đoán từ những cơsở dữ liệu lớn dựa trên các công cụ khai phá dữ liệu nhằm dự đoánnhững xu hướng trong tương lai nhằm giúp các đối tượng cần khai phátri thức như: Các tổ chức, doanh nghiệp, nhà nghiên cứu, … để hỗ trợviệc đưa ra những quyết định kịp thời, được định hướng trên những trithức được khám phá mang lại.- Thực hiện phân tích xử lý, tính toán dữ liệu một cách tự động cho mỗiquá trình xử lý dữ liệu để tìm ra tri thức.1.3.3 Quá trình khai phá dữ liệu
KPDL là một giai đoạn quan trọng trong quá trình KPTT. Về bản chất,nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong
CSDL chủ yếu phục vụ cho mô tả và dự đoán. Dự đoán là thực hiện việc suyluận trên dữ liệu để đưa ra các dự báo nhằm phân tích tập dữ liệu huấn luyệnvà tạo ra một mô hình cho phép dự đoán các mẫu, mô hình mới chưa biết. Môtả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộctính dữ liệu trong kho dữ liệu mà con người có thể hiểu được.Quá trình KPDL bao gồm các bước:Hình 2: Quá trình khai phá dữ liệu
Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp.Thu nhập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiềnxử lý chúng sao cho thuật toán KPDL có thể hiểu được. Đây là một quá15trình rất khó khăn, có thể gặp rất nhiều các vướng mắc như: Dữ liệuphải được sao cho nhiều bản (nếu được chiết xuất vào các tệp), quản lýtập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu môhình dữ liệu thay đổi), …Thuật toán khai phá dữ liệu: Lựa chọn thuật toán KPDL và thực hiệnviệc KPDL để tìm được các mẫu có ý nghĩa, các mẫu này được biểudiễn dưới dạng luật kết hợp, cây quyết định, … tương ứng với ý nghĩacủa nó.1.3.4 Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phádữ liệu
Vấn đề khai phá dữ liệu có thể được phân chia theo lớp các hướng tiếpcận chính sau:1.3.4.1Phân lớp và dự đoán
Hướng tiếp cận này làm nhiệm vụ đưa ra các dự đoán dựa vào các suydiễn trên dữ liệu hiện thời. Kỹ thuật này gồm có: Phân lớp, hồi quy, … Là quátrình xếp một đối tượng vào một trong những lớp đã biết trước (ví dụ: phânlớp các bệnh nhân theo dữ liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữliệu thời tiết …). Đối với hướng tiếp cận này thường sử dụng một số kỹ thuậtcủa máy như cây quyết định, mạng nơron nhân tạo, …1.3.4.2Phân cụm dữ liệu
Mục tiêu của phương pháp phân cụm dữ liệu là quá trình nhóm cácđiểm dữ liệu trong cơ sở dữ liệu thành các cụm sao cho những điểm dữ liệutrong cùng một cụm có độ tương đồng lớn và những điểm không cùng mộtcụm có sự tương đồng là rất nhỏ. Điểm mạnh của phân cụm dữ liệu là đưa rađược những cấu trúc có ích hoặc những cụm có đối tượng tìm thấy trực tiếp từdữ liệu mà không cần bất kì một tri thức cơ sở nào. Giống như cách tiếp cậnhọc máy, phân cụm dữ liệu được hiểu như là phương pháp “học không có16thầy”. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏiphải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụmdữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằngví dụ. Trong phương pháp này sẽ không biết kết quả các cụm thu được sẽ nhưthế nào khi bắt đầu quá trình. Vì vậy, cần có một chuyên gia để đánh giá cáccụm thu được. Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng vềphân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang
Web … Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bướctiền xử lý cho các thuật toán khai phá dữ liệu khác.1.3.4.3Phân lớp dữ liệu và hồi quy
Mục tiêu của phương pháp phân lớp là dự đoán nhãn lớp cho các mẫudữ liệu. Quá trình phân lớp dữ liệu thường gồm 2 bước: Xây dựng mô hình vàsử dụng mô hình: Bước 1: Một mô hình sẽ được xây dựng dựa trên việc phân tích cácmẫu dữ liệu sẵn có. Mỗi mẫu tương ứng với một lớp, được quyết địnhbởi một thuộc tính gọi là thuộc tính lớp. Các mẫu dữ liệu này còn đượcgọi là tập dữ liệu huấn luyện. Các nhãn lớp của tập dữ liệu huấn luyệnđều phải được xác định trước khi xây dựng mô hình, vì vậy phươngpháp này còn được gọi là học có thầy, khác với phân cụm dữ liệu là họckhông có thầy. Bước 2: Sử dụng mô hình để phân lớp dữ liệu. Trước hết phải tính độchính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hìnhsẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trongtương lai. Phương pháp hồi quy khác với phân lớp dữ liệu ở chỗ, hồiquy dùng để dự đoán về các giá trị liên tục còn phân lớp dữ liệu thì chỉdùng để dự đoán về các giá trị rời rạc.171.3.5Thách thức – khó khăn trong khám phá tri thức và khai phá dữ liệu
KPTT và KPDL liên quan đến nhiều ngành, nhiều lĩnh vực trong thựctế, vì vậy các thách thức và khó khăn ngày càng nhiều, càng lớn. Một số cácthách thức và khó khăn cần được quan tâm:Các cơ sở dữ liệu lớn, các tập dữ liệu cần xử lý có kích thước rất lớn,trong thực tế, kích thước của các tập dữ liệu thường ở mức tera – byte (hàngngàn giga – byte) .- Mức độ nhiễu cao hoặc dữ liệu bị thiếu.- Số chiều lớn.- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện khôngcòn phù hợp.- Quan hệ giữa các trường phức tạp.1.3.6Ứng dụng của khai phá dữ liệu
Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng,khách hàng giá trị, phân loại và dự đoán hành vi khách hàng, …) sử dụng sảnphẩm hay dịch vụ của công ty để giúp công ty có chiến lược kinh doanh hiệuquả hơn.Biology: Phân nhóm động vật và thực vật dựa vào các thuộc tính củachúng.Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả …Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và cácdịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gianlận tài chính (identifying frauds).WWW: Phân loại tài liệu (document classification), phân loại ngườidùng web (clustering weblog), …181.3.7Kết luận
Khai phá dữ liệu đã và đang trở thành một trong những hướng nghiêncứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế giới vàđược ứng dụng trong nhiều lĩnh vực khác nhau. Tại Việt Nam kỹ thuật nàycòn tương đối mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vàoứng dụng. Trong những năm gần đây, rất nhiều các phương pháp và thuậttoán mới liên tục được công bố. Điều này chứng tỏ những ưu thế, lợi ích vàkhả năng ứng dụng thực tế to lớn của khai phá dữ liệu. Trong chương này đãtrình bày một cách tổng quan về khám phá tri thức và khai phá dữ liệu.19CHƯƠNG 2PHÂN CỤM DỮ LIỆU VÀ CÁCTHUẬT TOÁN PHÂN CỤM DỮ LIỆU2.1 Khái niệm về phân cụm dữ liệu
Phân cụm dữ liệu là một kỹ thuật phát triển mạnh mẽ trong nhiều nămtrở lại đây do các ứng dụng và lợi ích to lớn của nó đối với các lĩnh vực trongthực tế. Ở một mức cơ bản nhất, người ta định nghĩa phân cụm dữ liệu nhưsau:Phân cụm dữ liệu là một kỹ thuật trong Data Mining nhằm tìm kiếm,phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tậpdữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định.Một cụm các đối tượng dữ liệu có thể xem như một nhóm trong nhiềuứng dụng, ví dụ: mô hình về phân cụm các trường dựa trên tiêu chuẩn về thunhập và số nợ. Cụm 1 là cụm những người thu nhập cao, số nợ nhiều, cụm 2gồm những người thu nhập cao nhưng nợ ít. Cụm 3 gồm những đối tượng thunhập ít những nợ nhiều.Hình 3: Mô hình về phân cụm dựa trên tiêu chuẩn thu nhập và số nợ20Quá trình phân cụm là quá trình tìm ra các đối tượng trong cơ sở dữliệu một cách tự động. Không giống như phân lớp, phân cụm không cầnnhững thông tin được xác định trước. Nói cách khác, phân cụm là phươngpháp học từ quan sát hay còn gọi là học không thầy trong trí tuệ nhân tạo.Phân cụm đặc biệt hiệu quả khi không biết về thông tin các cụm, hoặc khi taquan tâm tới các thuộc tính của cụm mà chưa biết hoặc biết ít về các thông tinđó.Bài toán phân cụm là quá trình nhóm một cơ sở dữ liệu thành nhữngnhóm đối tượng dữ liệu phục vụ cho mục đích cụ thể của từng ứng dụng thứctế. Không có một thuật toán phân cụm nào là tốt nhất và thích hợp cho tất cảmọi ứng dụng mà với mỗi ứng dụng khác nhau người thì người ta phải lựachọn ra một thuật toán phân cụm cụ thể thích ứng với ứng dụng đó. Kết quảđánh giá cho từng thuật toán cũng phụ thuộc vào những yêu cầu của từng ứngdụng.2.2 Các ứng dụng của phân cụm
Phân cụm dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiềulĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tươngđối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứngdụng tại nhiều lĩnh vực như:- Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý …nhằm cung cấp thông tin cho quy hoạch đô thị.- Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cungcấp thông tin cho nhận dạng các vùng nguy hiểm.- Thương mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trưngtương đồng và những đặc tả họ từ các bản ghi mua bán trong CSDLmua hàng.- Sinh học: Phân loại các gen với các chức năng tương đồng và thu đượccác cấu trúc trong mẫu.21

Xem thêm :   Vẽ tranh vẽ thiên nhiên đơn giản, những bức tranh vẽ thiên nhiên đẹp xuất sắc

Hai phần ba phụ huynh tại Anh bối rối vì không thể trả lời những câu hỏi khoa học phổ thông mà những đứa con của họ đặt ra.

Bạn đang xem: Khám phá tri thức học đường

Rùng mình tiên đoán hiểm họa năm 2016?
Hai nhà tiên tri nối tiếng thế giới Vanga và Nostramadus đã đưa ra 1 loạt những dự báo về thế giới trong năm 2016 khiến không ít người hoang mang. Liệu trong những dự đoán đó có điều gì sẽ trở thành hiện thực?
Các biện pháp xử trí khi bị ngộ độc thực phẩm tại nhà
Ngộ độc thực phẩm là biểu hiện bệnh lý xuất hiện sau khi ăn, uống những thức ăn nhiễm độc, nhiễm khuẩn, thức ăn bị biến chất ôi thiu, có chất bảo quản, phụ gia.
Lời tiên tri đáng sợ của Vanga năm 2016 là có cơ sở
Nhà tiên tri Vanga đã từng có những lời tiên tri đoán trước về nhiều sự kiện quan trọng và đáng sợ đã và sẽ xảy ra trên thế giới, có những tiên đoán đã thành 70% hiện thực.
Nhà tiên tri Vanga và những dự đoán về các thảm họa
Không có nhiều người tin vào tiên đoán của những nhà tiên tri. Tuy nhiên, người ta không thể làm ngơ khi những tiên đoán đó thành hiện thực tới 70%. Hãy cùng xem các tiên tri của Vanga qua bài viết dưới đây
Lý thuyết của Einstein chứng minh ma có thật?
Những người săn ma tin rằng sự tồn tại của ma có thể được khẳng định bằng lý thuyết về năng lượng của Albert Einstein.
Ma quỷ có thực sự tồn tại? Đây là một trong những câu hỏi bí ẩn gây nhiều tranh cãi nhất trong lịch sử loài người. Từ xa xưa, khi con người có nhận thức, họ đã tin và ma quỷ. Tuy nhiên, cho tới ngày nay các nhà khoa học vẫn chưa tìm được câu trả lời cho hiện tượng bí ẩn siêu nhiên này.
Việc phát hiện một loại chất protein đặc biệt đã giúp các nhà khoa học trả lời cho câu hỏi chưa tìm được lời đáp trong suốt hàng ngàn năm qua.
Bắt đầu xây dựng từ năm 1994 và hoàn thành vào năm 2012, đập Tam Hiệp mang lại nhiều lợi ích kinh tế những cũng nhận nhiều chỉ trích về tác động cho môi trường xung quanh.

Xem thêm :   15 Khu Du Lịch Gần Sài Gòn Đẹp, Ăn Ngon, Tiện Di Chuyển, 25 Địa Điểm Du Lịch Gần Sài Gòn Đỉnh Của Chóp

Xem thêm: Giải Bài Tập Bằng Camera 4+, Hướng Dẫn Giải Bài Tập Qua Ảnh Chụp Điện Thoại

Một tổ chức tiên tri dự báo vào ngày 29/7, Trái Đất sẽ trải qua một trận động đất toàn cầu dữ dội, đồng thời các vì sao cũng sẽ liên tục rơi xuống hành tinh xanh.

*

Công nghệ mới

*

Phần mềm hữu ích

*

Khoa học máy tính

*

Phát minh khoa học

*

AI – Trí tuệ nhân tạo

*

Khám phá khoa học

*

Sinh vật học

*

Khảo cổ học

*

Đại dương học

*

Thế giới động vật

*

Danh nhân thế giới

*

Khoa học vũ trụ

*

1001 bí ẩn

*

Ngày tận thế

*

Chinh phục sao Hỏa

*

Kỳ quan thế giới

*

Người ngoài hành tinh – UFO

*

Trắc nghiệm Khoa học

*

Lịch sử Khoa học quân sự Tại sao Địa danh nổi tiếng Bệnh và thông tin bệnh

*

Y học – Sức khỏe

*

Môi trường

*

Bệnh Ung thư Virus Covid 19

*

Ứng dụng khoa học

*

Khoa học & Bạn đọc

*

Công trình khoa học

*

Câu chuyện khoa học

*

Sự kiện Khoa học

*

Thư viện ảnh

*

Góc hài hước

*

Video

Cảm ơn bạn đã đọc bài viết hành trình của tri thức . Đừng quên truy cập Chaolong TV kênh trực tiếp bóng đá số 1 Việt Nam hiện nay để có những phút giây thư giãn cùng trái bóng tròn !

By Chaolong TV

Chaolong TV trang web xem livestream bóng đá trực tiếp miễn phí tất cả các giải đấu hàng đầu thế giới. Xem bóng đá trực tiếp tốc độ cao chất lượng 4k, không quảng cáo, bình luận tiếng việt.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *