หมายเหตุ : วิดิโอที่นำมาประกอบไม่ได้เกี่ยวกับเนื้อหาโดยตรง แต่เป็นเรื่องของการพูดถึงภาพรวมของ Text mining เพื่อให้เกิดความเข้าใจได้ดีขึ้น
Gemma Hersh ผู้อำนวยการฝ่ายแผนและนโยบายของสำนักพิมพ์หนังสือวิชาการยักษ์ใหญ่ของโลกอย่าง Elsevier ได้แสดงปาฐกถาในหัวข้อ “Welcoming Robots” ที่งาน ALPSP International Conference โดยเธอได้ยกประเด็นที่เป็นที่ถกเถียงกันมากนั่นคือ Data mining
เรามาดูวิสัยทัศน์ของ Gemma Hersh ในเรื่องนี้กัน
Hersh เป็นผู้อำนวยการฝ่ายแผนและนโยบายของ Elsevier ซึ่งมีภาระหน้าที่ในการควบคุมดูแลเรื่อง open access และ Data mining การวิจัยข้อมูล MOOCs และนำข้อมูลจากการให้บริการเหล่านี้มาประเมินผลเพื่อพัฒนาต่อเนื่องไป ทั้งนี้เพื่อให้ Elsevier สามารถให้บริการลูกค้าได้อย่างมีประสิทธิภาพและต่อเนื่อง
ก่อนหน้าที่จะร่วมงานกับ Elsevier นั้น Hersh เคยทำงานกับรัฐบาลสหรัฐฯและสมาคมสำนักพิมพ์อเมริกันมาก่อน ดังนั้นคำถามก็คือ เพราะเหตุใด Elsevier ถึงต้องการคนที่มีทักษะและความเชี่ยวชาญอย่าง Hersh
Elsevier ต้องการคนที่สามารถสร้างความสัมพันธ์ที่แน่นแฟ้นกับหน่วยงานที่สร้างนโยบายระดับโลกรวมทั้งในระดับมหาวิทยาลัยและห้องสมุด แล้วสามารถแปลความสิ่งที่กำลังจะเกิดขึ้นกับนโยบายเหล่านั้นให้กลายเป็นสิ่งที่มีความหมายทางธุรกิจได้ เรามีความจำเป็นต้องสามารถเข้าใจในมุมมองที่แตกต่างกันได้ เพื่อให้เกิดการคิดอย่างต่อเนื่องกับนโยบายเหล่านี้ คิดว่าคนเหล่านี้ หน่วยงานเหล่านี้ต้องเข้ามาเกี่ยวข้องอย่างไรและเราสามารถช่วยเหลือชุมชนของนักวิจัยของเราได้อย่างไร ซึ่งมันเป็นเรื่องสำคัญที่เราสามารถสื่อสารกับมุมมองของเราได้อย่างชัดเจนและรับฟังเสียงตอบรับจากคนอื่น ๆ เพื่อให้สามารถเป็นประโยชน์กับคนส่วนใหญ่ได้
แล้วถ้าอย่างนั้นคุณให้คำจำกัดความเกี่ยวกับ Text mining ว่าอย่างไร ?
Text mining เป็นเรื่องค่อนข้างใหม่แต่เป็นเครื่องมือในการวิจัยที่จำเพาะ ช่วยให้นักวิจัยสามารถแปลความหมายของข้อมูลที่มีความหลากหลายอย่างมหาศาลได้ นอกจากนี้ Text and Data Mining ( TDM ) สามารถนำไปประยุกต์ใช้ในการหาข้อมูลรูปแบบใหม่ หรือเพื่อตอบคำถามงานวิจัยที่จำเพาะเจาะจงหรือเพียงแต่ดึงคำที่เฉพาะเจาะจงหรือข้อมูลได้อย่างรวดเร็วจากปริมาณข้อมูลจำนวนมหาศาล
สำนักพิมพ์ Elsevier ให้การสนับสนุนในเรื่องนี้เนื่องจากเล็งเห็นความต้องการของนักวิจัย ซึ่งจะทำให้นักวิจัยที่ใช้แพลทฟอร์มของทางสำนักพิมพ์สามารถเข้าถึงข้อมูลจำนวนมหาศาลได้พร้อม ๆ กันกับคนอื่น ๆ ที่กำลังอ่านหรือใช้เนื้อหาเดียวกันนี้อยู่จะได้รับบริการที่เหมือนกัน ไม่มีอะไรผิดเพี้ยนไป
นอกจากนี้แล้วเรายังมองไปถึงประเด็นที่ว่า สามารถเปิดให้นักวิจัยได้เข้าถึงข้อมูลได้ฟรีโดยไม่คิดมูลค่าหากจุดประสงค์ของงานวิจัยมิได้เป็นไม่เพื่อการค้า ซึ่งจะเป็นการส่งเสริมวิทยาศาสตร์และการวิจัยไปในตัวอีกด้วย
แล้วทำไมนักวิจัยถึงต้องใช้ฐานข้อมูลเหล่านี้ที่ Elsevier ได้ตีพิมพ์
คำตอบก็คือ ฐานข้อมูล ScienDirect ได้รวบรวมและนำเสนอบทความทางวารสารและเนื้อหาในหนังสือกว่า 2,500 รายการและมีหนังสือกว่า 26,000 หัวเรื่อง คิดเป็นเนื้อหาเกือบ 11 ล้านชิ้น นอกจากนี้แล้ว impact factor กว่า 61% ของวารสารของเราได้เพิ่มขึ้นในช่วงปี 2012 และ 2013 รวมทั้งวารสารหลายรายการของเราครองตำแหน่งต้น ๆ ของ impact factor ในหมวดหมู่นั้น ๆ หรือกล่าวอีกนัยหนึ่งว่า เรามีเนื้อหาที่มีคุณภาพสูงที่นักวิจัยต้องการใช้เพิ่มขึ้นในการวิจัย อย่างไรก็ตาม เราตระหนักดีว่านักวิจัยส่วนใหญ่ต้องการสืบค้นที่อ้างอิงกับสำนักพิมพ์ที่หลากหลาย และนั่นคือเหตุผลว่าทำไมเราถึงภูมิใจที่จะเป็นหนึ่งในสำนักพิมพ์รายแรก ๆ ที่ลงนามในสัญญาการเป็นสมาชิกของ CrossRef Text and Data mining ซึ่งทำให้นักวิจัยสามารถเข้าถึงฐานข้อมูลขนาดมหึมาจากสำนักพิมพ์ในกลุ่มนี้ได้โดยผ่าน CrossRef API
ปัจจุบันมีกลุ่มนักวิจัยที่เคยใช้ TDM เพื่อสร้างงานวิจัยที่ก้าวหน้ามากขึ้น ยกตัวอย่างเช่น เว็บไซต์ www.neuroelectro.org ได้พัฒนาการใช้ ScienceDirect API สำหรับ TDM อย่างไรก็ตาม TDM ยังดูค่อนข้างเป็นกิจกรรมเฉพาะอยู่
การที่เราเน้นใช้ API ซึ่งเน้นเรื่องของการจัดส่งเนื้อหาจำนวนมากโดยปราศจากการลดทอนความเสถียรของแพลทฟอร์ม เป็นการทำงานที่เหมาะสมกับการทำ Data mining เราทำเนื้อหาให้เข้าถึงได้ผ่าน API โดยอยู่ในรูปของเอกสาร xml ซึ่งเป็นที่นิยมใช้สำหรับ TDM แล้วเรายังจัดให้มี API Key ของแต่ละ user หรือ developer อีกด้วย ทำให้เราสามารถให้บริการแบบรายบุคคลได้เลยหากมีการร้องขอ
https://blog.alpsp.org/2014/09/welcoming-robots.html