RapidMiner Studio 6
ฉัตรชัย หลิมประเสริฐศิริ ส่งคู่มือ S/W เกี่ยวกับ Data Mining มาให้ลองอ่านดู
สรุปความเห็น : ดูภาพรวมว่า S/W จัดการกับเนื้อหา ที่ยาก/ซับซ้อน ได้อย่างไร ?
- เห็น วิธีการ อธิบาย เนื่อหาที่ยาก
- เห็น Interface การ Design ที่แปลกตา พยายามใช้ "รูป" (มากขึ้น)
(ดี/ไม่ดี , โดน/ไม่โดน , ...)
Data Mining หรือ "เหมืองข้อมูล" เป็นเรื่องที่ทำได้ยาก (ไม่เข้าใจ, ซับซ้อน,ลงทุนสูง)
แน่นอนว่า ก็จะมีพูดกันกลุ่มที่จำกัด ...
อ๊ะ เข้าทางเลยครับ ธุรกิจใดที่ "สามารถทำ" ในสิ่งที่คนอื่นๆทำไม่ได้ หรือ ทำได้ยาก
ธุรกิจนั้นก็ได้เปรียบคู่แข่ง แเล้ว หลายธุรกิจที่เริ่มเข้ามาสู่สนามนี้กันมากขึ้น
เนื้อหาต่อไปนี้ เกิดจากการ อ่านและวิเคราะห์ออกมาน๊ะครับ
ใครสนใจรายละเอียด ไป download มาอ่านได้
เนื้อหา เรียงตามลำดับดังนี้
1. Fundamental
2. First Step
3. Design of Analysis Process
4. Data and Result Visualization
5. Repository
ความเห็น : ดูสารบัญ ว่า จัดอย่างไร เห็น Intro ตั้ง 2 หัวข้อ แสดง ว่าเนื้่อหาซับซ้อนพอสมควร
1. Fundamental
ความเห็น : s/w ที่มี "หลักการ" ดูเหมือนมักไม่เหมาะกับ "คนทั่วไป" (หลอกตัวเองกัน)
แต่สิ่งที่ผมเห็นใน ทุกยุค ก็มีอะไรซับซ้อนเต็มไปหมด (ไม่ใช่ ไม่มี)
เพียงแต่ถ้า "คุณชอบ" เรื่องซับซ้อนมันก็ไม่ยากเกิน เช่น
คนรุ่นเก่า จดจำขั้นตอนทางธุรกิจ ที่ซับซ้อนได้หมด
คนรุ่นใหม่ รู้จัก/เรียนรู้ สารพัด app ที่ซับซ้อน บนมือถือได้ และเร็วมาก
เรื่องบังเอิญ ?
- เลือกตัวเลข ระหว่าง 1-10 เช่น เลือก 8
- เลขนั้น คูณด้วย 9 8*9 = 72
- นำตัวเลข แต่ละหลักมารวมกัน 7+2=9
- นำผลที่ได้ คูณด้วย 4 9*4 = 36
- นำค่าที่ได้ หารด้วย 3 36/3 = 12
- ลบด้วย 10 จะได้ 2 เสมอ 12-10 =2
ความเห็น : เป็นการเริ่มต้นได้สวยงามครับ (มุขนี้ อาจจะเก่าไปนิด)
ในโลกนี้ หลายเรื่อง "ไม่ใช่"
เรื่องบังเอิญ เรารู้ล่วงหน้า และมีส่วนจัดการได้
นิยาม Attribute กับ Target Attribute (เป้าหมาย)
เริ่มสอดแทรกคำที่ "จำเป็น" (ไม่เสียเวลา หรือเพิ่ม นิยามเป็นทางการ) เช่น Discovery, Predict
ความเห็น : สร้าง "คำจำกัดความ" สั้น เข้าใจง่าย ก่อนเข้ารายละเอียด
Attribute ->: Role, Value (ชนิดตัวแปร)
เตือนความจำ คู่มือนี้ ใช้เพื่อสอน "ใช้ S/W สร้าง Data Mining"
ต้องพูดถึง รายละเอียด "จำเป็น" ซึ่งบางเรื่องอาจจะดูใหม่/ยาก สำหรับคนทั่วไป
Model การเลือกรูปแบบการคิด
ความเห็น : แจ๋วเป็นความพยายามที่จะ "ลดเนื้อหาของ Data Mining ลงอย่างมาก"
คนสายวิชาการ ละเอียด อาจไม่ชอบ เพราะ ตัดทอนไปมาก
2. First Step
อธิบาย การทำงาน แบบย่อ และอธิบาย การใช้ s/w ขั้นต้น
S/W จะ process (จัดการ) data ปริมาณ "มาก" ที่มีความสัมพันธ์กัน แล้วแสดงผลในรูปแบบที่เข้าใจง่าย (กราฟ, flow design) โดยจะต้องตั้งค่า process (ด้วยวิธีง่ายๆ และจัดเก็บในรูปแบบ XML)
ต้องติดตั้งโปรแกรมก่อน
1. สร้าง เรียก Repository (แปลว่า พื้นที่เก็บ)
ความเห็น : ใช้คำใหม่ แทนที่จะเรียก Project,Profile
(ภาพ ตัวอย่างในบทที่ 3 ตั้งชื่อ Repository ว่า Project1)
2. (ใน Repository) สร้าง Process
ซึ่งจะประกอบด้วย Perspective ส่วนออกแบบ (Design Analysis) และ ผลลัพธ์ (Result)
Design : data มาจากไหน ? เอาไปจัดการอะไร ? มีกฏ/ข้อกำหนด อย่างไร ?
ผลที่ได้ นำไปใช้กับ Model อะไร (ในการวิเคราะห์)
ผลจากการวิเคราะห์ แสดงในรูปแบบ อะไร
ความเห็น : เห็นความพยายามเปลี่ยน "การตั้งค่าแบบ ข้อความ" เป็น "รูปภาพ" เพื่อให้ใช้ง่าย,เข้าใจง่าย
พยายามให้ ผู้เรียน คุ้นเคย ก่อนเริ่มทำจริง (บทต่อไป)
จาก ตย. การทำงานจริง ยังมีความซับซ้อนอยู่ ทำให้ภาพรวม ยังไม่ง่าย
แต่สำหรับ คนที่เคยใช้ s/w อื่นในรุ่นก่อนหน้านี้ คงเห็นว่า "ดีกว่า" น๊ะครับ
(เมื่อวานผมได้ เห็น S/W ที่ใช้ ศักยภาพของ H/W มา ลดขั้นตอน แต่เป็น Demo แบบสั้น 1 ชม.
แต่เห็นชัดว่า "ลดขั้นตอน" ในการใช้งานจริงก็คงต้องมีความยุ่งยาก)
3. Design of Analysis Process
ความเห็น : ไม่เข้ารายละเอียด น๊ะครับ
คนที่เคยทำ ETL มาก่อน จะพบว่า เปลี่ยนรูปแบบ และวิธีจัดการ เล็กน้อย
4. Data and Result Visualization
ปรกติ ผลลัพธ์จาก Data Mining จะได้เป็น Data ต้องเปลี่ยนผลลัพธ์เป็น กราฟ
ความเห็น : ไม่แน่ใจว่า เข้าใจถูกมั๊ย ยังไม่เห็น จุดที่โดดเด่น
5. Managing : Data Repository
ความเห็น : ไม่แน่ใจว่า เข้าใจถูกมั๊ย ยังไม่เห็น จุดที่โดดเด่น
การจัดเก็บเป็น Repository (หรือ Project) ทำให้ ปรับ/copy ได้ทั้งระดับภายใน และภาพรวม