top of page

AI ที่เข้าใจความสัมพันธ์ระหว่างภาษาและรูปภาพ อาจทําให้พวกเราเข้าใจสิ่งที่อยู่ในหัวของ AI มากขึ้น

Updated: Sep 26, 2020



โมเดล AI ที่เรียนรู้และเข้าใจด้านภาษาอย่าง GPT-3 ที่โด่งดังสามารถเขียนประโยคและบทความได้ด้วยตัวเอง และ BERT ของ Google ที่ทําให้ผลการ search ของ Google ดีขึ้นได้นั้น ใช้เทคนิคการสอนโมเดลที่ชื่อว่า “Masking”


การทํา Masking นั้นใช้วิธีการนําประโยคมา นําคําออกไปคํานึง ยกตัวอย่างเช่น


The woman went to the ___ to work out. หรือ

They bought a ___ of bread to make sandwiches.


จากนั้นให้โมเดลพยายามเติมคําในช่องว่างนั้นให้ได้มีความหมาย โดยเวลาสอนโมเดล ผู้สอนจะสุ่ม mask คําออกไปและให้มันทําแบบฝึกหัดเติมคําเหล่านี้ไปซํ้าๆ เป็นล้านๆครั้ง ซึ่งการสอนโมเดลเช่นนี้ จะทําให้โมเดลสามารถจับความสัมพันธ์ระหว่างคํา ประโยค และพารากราฟต่างๆได้


ทีมวิจัยจาก ALLEN INSTITUTE FOR AI นําเทคนิคนี้มาประยุกต์สอนโมเดล เพื่อสร้าง AI ทีรู้จักความสัมพันธ์ระหว่าง ภาษาและรูปภาพ (Visual-language model) โดยนํารูปภาพให้โมเดลดู พร้อมประโยคที่ mask บางคําออกไปและให้โมเดล พยายามเติมคําลงไปให้สอดคล้องกับรูป เช่น


A ____ stands on a dirt ground near a tree.

การสอนแบบนี้ นอกจากโมเดลจะเรียนรู้ด้านภาษาแล้ว ยังทําให้โมเดลเข้าใจความสัมพันธ์ของภาษากับรูปภาพได้ด้วย ซึ่งผลก็เป็นอย่างนั้นจริงๆ หลังจากที่สอนโมเดลให้เข้าใจได้แล้ว โมเดลก็สามารถตอบได้อย่างถูกต้อง หรือแม้กระทั่งตอบคําถามที่มีข้อมูลในรูปภาพ


Photo by Dominika Roseclay from Pexels


เช่นในรูปนี้โมเดลจะสามารถระบุได้ว่าเป็นรูป เด็กผู้ชายเตะบอล รวมถึงสามารถตอบคําถามง่ายๆได้เช่น "เด็กผู้ชายคนนี้เตะลูกบอลสีอะไรอยู่" ซึ่งแปลว่าโมเดลพอระบุได้คร่าวๆด้วยซํ้าถึงความสัมพันธ์ของสิ่งของในรูปภาพ



ด้วยความสงสัย ทีมวิจัยเลยไม่หยุดอยู่แค่นั้นถ้า AI มันพอตอบได้ขนาดนี้ แล้วลองมาคิดเทียบกับเด็กเล็กๆดูหละ?


สมมติเราให้ภาพหมู 3 ตัวในฟาร์มให้เด็กดู และเด็กสามารถตอบได้ว่าในภาพมีหมู 3 ตัวอยู่ในฟาร์มได้อย่างถูกต้องแล้ว เราบอกให้เด็กวาดรูปหมู 4 ตัวบนถนนดู เด็กส่วนใหญ่ที่รู้จักทั้งหมูและถนนก็จะสามารถวาดรูปออกมาได้


ทางทีมเลยลองให้ AI ที่ได้รับการเรียนรู้ความสัมพันธ์ระหว่างตัวอักษรและรูปภาพลองวาดรูปที่มันมองเห็นออกมา จากประโยคที่ให้ไป ผลปรากฏว่ารูปที่ AI จินตนาการในหัวนั้นมันไม่ make sense เอาซะเลย


เมื่อขอให้ AI วาดรูปจากคําซึ่งดูไม่ออกเลยว่าวาดรูปจากคําอะไร...



การแปลประโยคกลับเป็นรูปนั้น ย่อมยากกว่าการเขียนอธิบายรูปเยอะเพราะโมเดล AI ต้องมี common sense อีกจํานวนมากที่ต้องเรียนรู้หาความสัมพันธ์ระหว่างสิ่งต่างๆบนโลกนี้ เช่น ถ้าเราต้องการให้ AI วาดรูปจากประโยค “ยีราฟเดินบนถนน” สิ่งที่ AI ต้องเรียนรู้อีกจํานวนมากซึ่งเป็น common sense ที่สอนโมเดลยาก เช่น ถนนควรมีสีดำและอยู่ติดกับทุ่งหญ้ากว้างใหญ่ที่มีต้นไม้ ไม่ใช่อยู่ในเมืองหรือติดทะเล เพราะมัน make sense มากกว่าที่ยีราฟจะเดินอยู่บนถนนใกล้ๆทุ่งหญ้า


ทางทีมวิจัยจึงสอนโมเดลเพิ่ม โดยทีนี้ใช้ท่า masking เดิมแต่ขยายไปยังรูปภาพด้วย คือการนํา pixel หลายๆ pixel ในรูปภาพออกและให้โมเดล AI พยายามเติม pixel ที่ถูกต้องลงไปตามที่ประโยคบอกแทน ผลลัพธ์ที่ได้ออกมา มีความน่าพอใจอย่างยิ่งตามรูปด้านล่าง โดยท่านสามารถลองเล่นโมเดล AI ตัวนี้ได้จาก link นี้ https://vision-explorer.allenai.org/text_to_image_generation


ภาพจาก AI2: จะเห็นว่า โอเค มันก็พอมีเค้าแบบที่มนุษย์เรียนรู้ความสัมพันธ์ของโลกนี้อยู่เนอะ



ด้วยวิธีนี้ทําให้เราเห็นอีกหนึ่งก้าวของการพัฒนา AI ซึ่งแสดงว่าการเรียนรู้ของมันนั้น สามารถเก็บความสัมพันธ์ที่ค่อนข้าง abstract ได้ ซึ่งเป็นหนึ่งปัจจัยสําคัญในการเรียนรู้สิ่งต่างๆบนโลกนี้ รวมทั้งเข้าใจว่าสิ่งสําคัญที่โมเดล AI ที่หลายคนมองว่าเป็น “Black box” นั้น มันเห็นอะไรกันแน่


————————

  • กดไลค์กดแชร์ Page ของเราเพื่อติดตามเรื่องราวดีๆ และความเคลื่อนไหวของพวกเรา

  • องค์กรใดสนใจใช้ AI เข้ามาช่วยเพิ่มประสิทธิภาพงานสามารถติดต่อมาพูดคุยกันได้ที่ info@oztrobotics.com

www.oztrobotics.com

#OZTRobotics #AISolution



ref : https://www.technologyreview.com/2020/09/25/1008921/ai-allen-institute-generates-images-from-captions/

142 views0 comments
bottom of page