Voice Labs
Natchaya Temyingyong
3
Min
Read
July 16, 2025

การดึงคีย์เวิร์ดสำคัญจากเสียงสนทนาไทย ด้วย Generative AI

การสนทนาทางโทรศัพท์ยังคงเป็นช่องทางสำคัญในการให้บริการลูกค้า โดยเฉพาะในหลายอุตสาหกรรม ซึ่งบทสนทนาเหล่านี้มักซ่อนข้อมูลเชิงลึกอันมีค่าไว้ในรูปแบบเสียงที่ไม่มีโครงสร้าง

เพื่อดึงข้อมูลสำคัญออกมา เราจึงใช้แนวทาง Keyword-Driven Approach โดยเริ่มต้นจากไฟล์บันทึกเสียงการสนทนาระหว่างพนักงานและลูกค้า เสียงของแต่ละฝ่ายจะถูกแปลงเป็นข้อความด้วยระบบถอดเสียง (Speech-to-Text) จากนั้น Generative AI จะทำการวิเคราะห์แต่ละประโยค และดึงคำหรือวลีที่สำคัญออกมา ซึ่งคีย์เวิร์ดเหล่านี้ช่วยให้นักวิเคราะห์สามารถเข้าใจประเด็นหลักของบทสนทนาได้อย่างรวดเร็ว

กระบวนการทำงาน

กระบวนการตัดคำและดึงคีย์เวิร์ด:

ไดอะแกรมแสดงขั้นตอนการสกัดคำสำคัญจากการบันทึกเสียง โดยมีลูกศรเชื่อมแต่ละขั้นตอนเข้าด้วยกัน
รูปที่ 1: แผนภาพภาพรวมของกระบวนการตัดคำและดึงคีย์เวิร์ด

ขั้นตอนที่ 1: การแปลงเสียงเป็นข้อความ (Speech-to-Text)

ในขั้นตอนนี้ ระบบจะทำการแปลงเสียงจากการสนทนาระหว่างลูกค้าและพนักงานให้กลายเป็นข้อความ โดยแยกคำพูดของแต่ละฝ่ายออกจากกัน และถอดเสียงแยกเป็นรายบุคคลด้วยระบบถอดเสียงอัตโนมัติ (Speech-to-Text Engine) การแยกบทสนทนานี้ช่วยให้สามารถรักษาบริบทของผู้พูดได้อย่างชัดเจน เช่น ข้อความนี้มาจากฝั่งลูกค้าหรือจากพนักงาน

ขั้นตอนที่ 2: การดึงคีย์เวิร์ด (Keyword Extraction)

เครื่องมือที่ใช้: Gemma-3n-e4b

หลังจากที่ข้อความถูกถอดเสียงเรียบร้อยแล้ว ระบบจะส่งแต่ละประโยคเข้าโมเดล AI เพื่อดึงคีย์เวิร์ดที่สำคัญออกมา โมเดลจะทำงานภายใต้ Prompt ที่ออกแบบเฉพาะ ซึ่งจำลองบทบาทของผู้เชี่ยวชาญด้านการสกัดคีย์เวิร์ด เพื่อแนะนำให้ AI โฟกัสกับคำหรือวลีที่ช่วยให้นักวิเคราะห์หรือหัวหน้างานเข้าใจสถานการณ์ได้รวดเร็วและสามารถจำแนกหมวดหมู่ของบทสนทนาได้

คีย์เวิร์ดที่ดึงออกมานี้จะไม่ได้จำกัดแค่คำศัพท์ทั่วไป แต่จะเน้นคำที่สะท้อน “หัวข้อสำคัญ” เช่น ประเภทของสินค้า ปัญหาที่ลูกค้ารายงาน หรือการดำเนินการที่พูดถึงในบทสนทนา แนวทางนี้มีความยืดหยุ่นสูง สามารถปรับเปลี่ยน Prompt ให้เหมาะกับบริบทของแต่ละอุตสาหกรรมได้ เพื่อให้ได้คีย์เวิร์ดที่สอดคล้องกับเนื้อหาจริงในแต่ละกรณี

วิธีประเมินผลและผลลัพธ์

เพื่อประเมินประสิทธิภาพของกระบวนการดึงคีย์เวิร์ด เราใช้วิธีการประเมิน 2 รูปแบบ ได้แก่ Fuzzy Match และ Exact Match ทั้งสองวิธีจะเปรียบเทียบคีย์เวิร์ดที่โมเดล AI สกัดได้ กับชุดคีย์เวิร์ดอ้างอิงที่มนุษย์เป็นผู้กำหนดไว้ล่วงหน้า (Reference Keywords) เพื่อวัดความแม่นยำในการระบุคำสำคัญ

  1. Fuzzy Match Evaluation

Fuzzy Match อนุญาตให้มีการจับคู่ที่ใกล้เคียงหรือคล้ายกันได้ แม้ข้อความจะไม่ตรงกันอย่างสมบูรณ์แบบ เหมาะสำหรับกรณีที่คีย์เวิร์ดที่ได้จาก AI มีความหมายถูกต้อง แต่มีการใช้คำที่ต่างกัน เช่น “ปัญหาในการเข้าสู่ระบบ” กับ “ล็อกอินไม่ได้” ซึ่งมีความหมายเดียวกันแม้คำจะไม่ตรงกัน

  1. Exact Match Evaluation

การประเมินแบบ Exact Match จะนับว่าคำที่สกัดได้ “ถูกต้อง” ก็ต่อเมื่อ ตรงกับคำอ้างอิงแบบตัวอักษรต่ออักษร (Character-for-Character) เป็นวิธีที่เข้มงวดกว่า และช่วยวัดความสามารถของโมเดลในการสร้างผลลัพธ์ที่ตรงตามที่คาดหวังอย่างแม่นยำ

ผลลัพธ์

ผลลัพธ์ต่อไปนี้เป็นการประเมินประสิทธิภาพของโมเดลสกัดคีย์เวิร์ดที่ออกแบบมาเพื่อศูนย์บริการลูกค้าประกันภัย โมเดลจะวิเคราะห์ประโยคจากบทถอดเสียงการสนทนาภาษาไทยระหว่างเจ้าหน้าที่และลูกค้า โดยดึงคีย์เวิร์ดที่นักวิเคราะห์หรือหัวหน้าศูนย์บริการลูกค้าจะใช้เพื่อทำความเข้าใจและจัดหมวดหมู่สถานการณ์ในบทสนทนาได้อย่างรวดเร็ว

กราฟแท่งเปรียบเทียบประสิทธิภาพของการดึงคำสำคัญระหว่างการจับคู่อย่างคลุมเครือ (Fuzzy Match) กับการจับคู่อย่างตรงตัว (Exact Match) โดยพิจารณาจาก 3 ดัชนี ได้แก่ Precision, Recall และ F1 Score
รูปที่ 2: ประสิทธิภาพการสกัดคีย์เวิร์ด
ตารางเปรียบเทียบผลการประเมินสองวิธี ได้แก่ Fuzzy Match และ Exact Match โดยใช้เกณฑ์ precision, recall และ F1 score
ตารางที่ 1: ประสิทธิภาพการสกัดคีย์เวิร์ด

การประเมินผลแสดงให้เห็นว่าโมเดลสกัดคีย์เวิร์ดมีประสิทธิภาพโดยรวมที่ดี โดยเฉพาะอย่างยิ่งเมื่ออนุญาตให้ใช้การจับคู่แบบยืดหยุ่น (Flexible Matching):

1. ผลการประเมินแบบ Fuzzy Match แสดงถึงประสิทธิภาพที่โดดเด่น โดยมีค่า F1 Score อยู่ที่ 72.4% ซึ่งหมายความว่าโมเดลสามารถดึงคีย์เวิร์ดที่เกี่ยวข้องได้อย่างแม่นยำ แม้ว่าการใช้ถ้อยคำจะมีความแตกต่างเล็กน้อยจากคำอ้างอิง

เพื่อเปรียบเทียบประสิทธิภาพ เราได้ทำการประเมินโมเดลของเรา Gemma-3n-e4b พร้อมกับ prompt จาก Amity เทียบกับโมเดล KeyBERT, Typhoon และโมเดลพื้นฐาน Gemma-3n 

ผลลัพธ์แสดงให้เห็นว่าโมเดลของเรามีความแม่นยำ (Precision) ที่สูงกว่ามาก ซึ่งสะท้อนถึงความสามารถในการระบุคีย์เวิร์ดที่เกี่ยวข้องได้อย่างแม่นยำ ดังภาพด้านล่าง

กราฟแท่งเปรียบเทียบค่า precision ของโมเดลการสกัดคำสำคัญ 4 โมเดลโดยใช้การประเมินแบบ fuzzy match
รูปที่ 3: การเปรียบเทียบความแม่นยำของโมเดลสกัดคีย์เวิร์ด (การประเมินแบบ Fuzzy Match)

2. ผลการประเมินแบบ Exact Match มีค่า F1 Score อยู่ที่ 61.8% ซึ่งต่ำกว่าการประเมินแบบ Fuzzy Match เล็กน้อย แสดงให้เห็นว่าโมเดลมีความแม่นยำในระดับที่ดีในการสร้างผลลัพธ์ที่ตรงตามคำแบบตัวต่อตัว แต่ยังมีช่องว่างสำหรับการปรับปรุงในด้านการใช้ถ้อยคำที่ตรงกันอย่างสมบูรณ์แบบ

โดยรวมแล้ว โมเดลแสดงให้เห็นถึงประสิทธิภาพที่ดีในการระบุคีย์เวิร์ดที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งเมื่อพิจารณาความหมายเชิงบริบท (semantic similarity)

ประโยชน์

  1. เพิ่มประสิทธิภาพการวิเคราะห์การโทร
    ด้วยการดึงคีย์เวิร์ดที่เกี่ยวข้องจากแต่ละประโยคโดยอัตโนมัติ ผู้จัดการและนักวิเคราะห์สามารถเข้าใจหัวข้อหลักของการสนทนาได้อย่างรวดเร็วโดยไม่ต้องอ่านบทถอดเสียงทั้งหมดด้วยตนเอง
  2. การจัดหมวดหมู่และการติดแท็กที่แม่นยำขึ้น
    คีย์เวิร์ดช่วยในการจัดประเภทบทสนทนาเป็นหมวดหมู่ เช่น ปัญหาสินค้า, ข้อร้องเรียนของลูกค้า หรือคำขอบริการ ซึ่งช่วยให้งานจัดการเคสและรายงานเป็นไปอย่างมีประสิทธิภาพ
  3. เพิ่มความเข้าใจเชิงลึกเกี่ยวกับลูกค้า
    การระบุคำสำคัญจากบทสนทนาระหว่างลูกค้าและเจ้าหน้าที่ช่วยเผยให้เห็นปัญหาที่พบบ่อย คำถามที่ถูกถามบ่อย และแนวโน้มใหม่ ๆ เพื่อพัฒนาคุณภาพการให้บริการ
  4. การเพิ่มความสามารถในการรองรับและใช้ระบบอัตโนมัติ

การดึงคำสำคัญจากบทสนทนาภาษาไทยที่มีจำนวนมากแบบอัตโนมัติ ช่วยให้วิเคราะห์ข้อมูลได้ง่ายขึ้น รวดเร็วขึ้น และสามารถขยายได้มากขึ้นโดยไม่ต้องพึ่งพาการดำเนินการด้วยมนุษย์

สนใจร่วมเป็นส่วนหนึ่งกับ AI Labs ของเราได้ที่นี่ 

ร่วมมือและเป็นพันธมิตรกับศูนย์วิจัยและปฏิบัติการ AI ของเรา

ร่วมเป็นพันธมิตรกับ Amity’s AI Lab เพื่อพัฒนาโซลูชัน AI ร่วมกันผ่านโอกาสในการทำงานร่วมกัน ติดต่อเราผ่านอีเมล LINE หรือโทรศัพท์เพื่อเสนอโปรเจกต์ ทีมงานของเราจะติดต่อกลับหาคุณในไม่ช้า

ร่วมมือกับเรา