วันอาทิตย์ที่ 31 สิงหาคม พ.ศ. 2557

QlikView

QlikView


เย็นวันศุกร์ ได้ฟัง Demo แนะนำ QlikView 1:30 ชม.  โดยบริษัท Metro

สรุปแบบย่อ 

- เป็น Tool ในการแสดงผล BI  ... ดูใช้งานง่ายดี
     การเลือก  ใช้ลากคลุม ได้แทบทุกส่วน (ปุ่ม, list box)
     วิธีการใช้ Interface จำ 3 สีในการใช้
     พื้นฐานที่ หลาย S/W ไม่ทำกัน
     - แต่ละส่วน copy & paste ได้  (สร้าง Chart โดย  copy  & paste ที่ Chart)
     - ลดการ code โดยสร้าง interface

- ครอบคลุม การสร้าง BI ... อันนี้โดนครับ
  ได้เห็น  การทำงานร่วมกับ In Memory  (การทำงานสวนใหญ่ใน memory)
   ทำให้   "ลดขั้นตอน" การทำ BI ขั้นต้นบางส่วนได้
     เช่น  ไม่ต้อง design Dim, ไม่ต้อง Process Cute
     อันนี้แหละ  "โดน" จริงๆ

ผมเคยตั้งคำถามว่า  ถ้า H/W ทำงานเร็ว   งาน BI จะสร้างได้เร็วขึ้นมาก
เช่น ไม่ต้องเสียเวลาทำ Dim, Cube

Dim(ension) ในความหมายง่ายๆ  คือ ข้อมูลที่เกิดจาก Select Distinct  field
    Column, Field ดังกล่าว  มี  ค่า,สมาชิก  อะไรบ้าง
    เช่น สินค้า : มีสินค้าอะไรบ้าง ?  
           พนักงานขาย : มี ใครบ้าง ?

    เรามักต้องเสียเวลา "ปรับ" ให้ Dim มีความทันสมัย  (อันนี้ไม่ช้า แต่จุกจิก)
    Cube เป็นฐานข้อมูลแบบพิเศษ  ทำเพื่อให้การ access ข้อมูลได้เร็วกว่า  ฐานข้อมูล "มาก" (ภายใต้  H/W เดียวกันสภาพแวดล้อมเดียวกัน)   โดยแปลงจาก ฐานข้อมูลของเราใน Data Warehouse อาศัย  Dim เป็นองค์ประกอบหลัก (ต้องทำ Dim ก่อน)

Dim ที่ทำให้ดู ซับซ้อนขึ้น  คือการกำหนด Hierarchy   โครง/แนว การดู
    hierarchy ที่คุ้นเคยกัน
    เช่น  วันที่  (ควรจะ) ต้องบอก ปี,เดือน ด้วย (วันที่ 15  ไม่สามารถบอกความ)
            อำเภอ  (ควรจะ) ต้องบอก จังหวัด  ด้วย  (อำเภอ เมือง  ความหมายกว้างไป)  


    บางท่านบอกว่า สิ่งนี้ คือ ส่วนหนึ่งของ Knowledge Transfer  ถ้าคนที่กำหนด hierarchy พยายามถ่ายทอดเทคนิคการ ดูข้อมูลของตนเองในรูปแบบ โครง/แนว
     เช่น  การวิเคราะห์ยอดขาย (ของ มือโปรท่านหนึ่ง) จะเริ่มต้นดู  พื้นที่ : ตามกลุ่มประเทศ  แทนที่จะดูโดยเริ่มต้นจาก ทวีป  เป็นต้น

วันศุกร์ที่ 29 สิงหาคม พ.ศ. 2557

RapidMiner Studio 6

RapidMiner Studio 6

ฉัตรชัย หลิมประเสริฐศิริ ส่งคู่มือ S/W เกี่ยวกับ Data Mining มาให้ลองอ่านดู

สรุปความเห็น : ดูภาพรวมว่า S/W จัดการกับเนื้อหา ที่ยาก/ซับซ้อน ได้อย่างไร ?
- เห็น  วิธีการ อธิบาย เนื่อหาที่ยาก
- เห็น  Interface การ Design  ที่แปลกตา  พยายามใช้ "รูป" (มากขึ้น)
      (ดี/ไม่ดี  , โดน/ไม่โดน , ...)

Data Mining หรือ  "เหมืองข้อมูล"  เป็นเรื่องที่ทำได้ยาก (ไม่เข้าใจ, ซับซ้อน,ลงทุนสูง)
   แน่นอนว่า   ก็จะมีพูดกันกลุ่มที่จำกัด ... 

อ๊ะ  เข้าทางเลยครับ  ธุรกิจใดที่  "สามารถทำ"   ในสิ่งที่คนอื่นๆทำไม่ได้ หรือ ทำได้ยาก
   ธุรกิจนั้นก็ได้เปรียบคู่แข่ง  แเล้ว   หลายธุรกิจที่เริ่มเข้ามาสู่สนามนี้กันมากขึ้น


เนื้อหาต่อไปนี้  เกิดจากการ  อ่านและวิเคราะห์ออกมาน๊ะครับ
ใครสนใจรายละเอียด  ไป download มาอ่านได้

เนื้อหา เรียงตามลำดับดังนี้
1. Fundamental
2. First Step
3. Design of Analysis Process
4. Data and Result Visualization
5. Repository

ความเห็น : ดูสารบัญ ว่า จัดอย่างไร  เห็น Intro ตั้ง 2 หัวข้อ  แสดง ว่าเนื้่อหาซับซ้อนพอสมควร

1. Fundamental

ความเห็น : s/w ที่มี "หลักการ"  ดูเหมือนมักไม่เหมาะกับ  "คนทั่วไป"  (หลอกตัวเองกัน)
แต่สิ่งที่ผมเห็นใน ทุกยุค  ก็มีอะไรซับซ้อนเต็มไปหมด  (ไม่ใช่ ไม่มี)
เพียงแต่ถ้า  "คุณชอบ"  เรื่องซับซ้อนมันก็ไม่ยากเกิน  เช่น  
   คนรุ่นเก่า  จดจำขั้นตอนทางธุรกิจ ที่ซับซ้อนได้หมด
   คนรุ่นใหม่  รู้จัก/เรียนรู้ สารพัด app ที่ซับซ้อน  บนมือถือได้  และเร็วมาก

เรื่องบังเอิญ  ?

- เลือกตัวเลข ระหว่าง 1-10        เช่น เลือก 8
- เลขนั้น คูณด้วย 9                          8*9 = 72
- นำตัวเลข แต่ละหลักมารวมกัน      7+2=9
- นำผลที่ได้ คูณด้วย 4                     9*4 = 36
- นำค่าที่ได้  หารด้วย 3                    36/3 = 12
- ลบด้วย 10  จะได้ 2 เสมอ              12-10 =2

ความเห็น : เป็นการเริ่มต้นได้สวยงามครับ (มุขนี้  อาจจะเก่าไปนิด)
ในโลกนี้  หลายเรื่อง "ไม่ใช่"  เรื่องบังเอิญ   เรารู้ล่วงหน้า และมีส่วนจัดการได้

นิยาม  Attribute กับ Target Attribute (เป้าหมาย)
เริ่มสอดแทรกคำที่ "จำเป็น" (ไม่เสียเวลา  หรือเพิ่ม นิยามเป็นทางการ) เช่น Discovery, Predict
ความเห็น : สร้าง  "คำจำกัดความ" สั้น  เข้าใจง่าย ก่อนเข้ารายละเอียด

Attribute ->: Role, Value (ชนิดตัวแปร)
เตือนความจำ  คู่มือนี้  ใช้เพื่อสอน "ใช้ S/W สร้าง Data Mining"
    ต้องพูดถึง รายละเอียด "จำเป็น"  ซึ่งบางเรื่องอาจจะดูใหม่/ยาก สำหรับคนทั่วไป

Model  การเลือกรูปแบบการคิด
ความเห็น : แจ๋วเป็นความพยายามที่จะ  "ลดเนื้อหาของ Data Mining ลงอย่างมาก"
คนสายวิชาการ ละเอียด อาจไม่ชอบ เพราะ ตัดทอนไปมาก

2. First Step

อธิบาย การทำงาน แบบย่อ    และอธิบาย  การใช้ s/w ขั้นต้น
S/W จะ process (จัดการ) data ปริมาณ "มาก"  ที่มีความสัมพันธ์กัน  แล้วแสดงผลในรูปแบบที่เข้าใจง่าย (กราฟ, flow design)  โดยจะต้องตั้งค่า  process (ด้วยวิธีง่ายๆ  และจัดเก็บในรูปแบบ XML)

ต้องติดตั้งโปรแกรมก่อน

1. สร้าง เรียก Repository (แปลว่า พื้นที่เก็บ)
ความเห็น : ใช้คำใหม่  แทนที่จะเรียก  Project,Profile
        (ภาพ ตัวอย่างในบทที่ 3 ตั้งชื่อ Repository ว่า Project1)

2. (ใน Repository) สร้าง Process    
    ซึ่งจะประกอบด้วย  Perspective  ส่วนออกแบบ (Design Analysis) และ ผลลัพธ์ (Result)
            Design :  data มาจากไหน ?  เอาไปจัดการอะไร ?  มีกฏ/ข้อกำหนด อย่างไร ?
                          ผลที่ได้    นำไปใช้กับ Model  อะไร (ในการวิเคราะห์)
                          ผลจากการวิเคราะห์  แสดงในรูปแบบ อะไร

ความเห็น : เห็นความพยายามเปลี่ยน "การตั้งค่าแบบ ข้อความ" เป็น "รูปภาพ" เพื่อให้ใช้ง่าย,เข้าใจง่าย
     พยายามให้  ผู้เรียน  คุ้นเคย   ก่อนเริ่มทำจริง (บทต่อไป)
     จาก ตย. การทำงานจริง ยังมีความซับซ้อนอยู่  ทำให้ภาพรวม ยังไม่ง่าย

แต่สำหรับ  คนที่เคยใช้ s/w อื่นในรุ่นก่อนหน้านี้ คงเห็นว่า "ดีกว่า" น๊ะครับ
(เมื่อวานผมได้ เห็น S/W ที่ใช้  ศักยภาพของ H/W มา  ลดขั้นตอน  แต่เป็น Demo แบบสั้น 1 ชม.
     แต่เห็นชัดว่า   "ลดขั้นตอน"   ในการใช้งานจริงก็คงต้องมีความยุ่งยาก)

3. Design of Analysis Process

ความเห็น : ไม่เข้ารายละเอียด  น๊ะครับ
   คนที่เคยทำ ETL มาก่อน  จะพบว่า เปลี่ยนรูปแบบ และวิธีจัดการ เล็กน้อย

4. Data and Result Visualization

ปรกติ ผลลัพธ์จาก Data Mining  จะได้เป็น Data  ต้องเปลี่ยนผลลัพธ์เป็น  กราฟ
ความเห็น : ไม่แน่ใจว่า  เข้าใจถูกมั๊ย    ยังไม่เห็น  จุดที่โดดเด่น

5. Managing : Data Repository

ความเห็น : ไม่แน่ใจว่า  เข้าใจถูกมั๊ย    ยังไม่เห็น  จุดที่โดดเด่น
     การจัดเก็บเป็น Repository (หรือ Project) ทำให้  ปรับ/copy  ได้ทั้งระดับภายใน และภาพรวม