อัลกอริทึมการติดตามด้วยมือนี้อาจนำไปสู่การจดจำภาษามือ — OPDEV.MEN

อัลกอริทึมการติดตามด้วยมือนี้อาจนำไปสู่การจดจำภาษามือ thumbnail

ผู้คนนับล้านสื่อสารโดยใช้ภาษามือ แต่จนถึงขณะนี้โครงการเพื่อจับภาพท่าทางที่ซับซ้อนและแปลเป็นคำพูดด้วยวาจาได้ประสบความสำเร็จอย่าง จำกัด ความก้าวหน้าใหม่ในการติดตามแบบเรียลไทม์จากห้องทดลอง AI ของ Google อาจเป็นความก้าวหน้าที่บางคนรอคอย เทคนิคใหม่ใช้ทางลัดที่ชาญฉลาดเล็กน้อยและแน่นอนว่าการเพิ่มประสิทธิภาพโดยทั่วไปของระบบการเรียนรู้ด้วยเครื่องจักรเพื่อผลิตตามเวลาจริงแผนที่มือที่แม่นยำและนิ้วมือทั้งหมดโดยไม่ใช้อะไรนอกจากสมาร์ทโฟนและกล้อง “ ในขณะที่วิธีการที่ทันสมัยในปัจจุบันอาศัยสภาพแวดล้อมเดสก์ท็อปที่มีประสิทธิภาพสำหรับการอนุมานเป็นหลักวิธีการของเราให้ประสิทธิภาพแบบเรียลไทม์บนโทรศัพท์มือถือ โพสต์บล็อก. “ การรับรู้ด้วยมือแบบเรียลไทม์ที่มีความทนทานเป็นภารกิจการมองเห็นคอมพิวเตอร์ที่ท้าทายอย่างมากเนื่องจากมือมักจะแยกตัวเองหรือกัน (เช่นการใช้นิ้วและฝ่ามือและการสั่นของมือ) และไม่มีรูปแบบความคมชัดสูง” ไม่เพียงแค่นั้น แต่การเคลื่อนไหวของมือมักจะรวดเร็วบอบบางหรือทั้งสองอย่าง – ไม่จำเป็นต้องเป็นสิ่งที่คอมพิวเตอร์จับได้ในเวลาจริง โดยทั่วไปการทำสิ่งที่ถูกต้องเป็นเรื่องยากมากและการทำอย่างถูกต้องนั้นทำได้ยากมาก ถึงแม้จะมีกล้องหลายตัวแท่นเจาะลึกแบบเดียวกับที่ใช้โดย SignAll ก็มีปัญหาในการติดตามทุกการเคลื่อนไหว (แต่นั่นไม่ได้หยุดพวกเขา) จุดประสงค์ของนักวิจัยในกรณีนี้อย่างน้อยส่วนหนึ่งก็คือการลดปริมาณข้อมูลที่อัลกอริทึมที่จำเป็นในการกรอง ข้อมูลน้อยลงหมายถึงการเปลี่ยนแปลงที่รวดเร็วยิ่งขึ้น สิ่งหนึ่งที่พวกเขาทิ้งความคิดที่จะให้ระบบตรวจจับตำแหน่งและขนาดของทั้งมือ แต่พวกเขามีระบบค้นหาฝ่ามือซึ่งไม่เพียง แต่เป็นส่วนที่โดดเด่นที่สุดและมีรูปร่างที่น่าเชื่อถือ แต่เป็นรูปสี่เหลี่ยมสำหรับบู๊ตซึ่งหมายความว่าพวกเขาไม่ต้องกังวลเกี่ยวกับระบบที่สามารถจัดการกับภาพสี่เหลี่ยมสูง สั้นและอื่น ๆ แน่นอนว่าเมื่อฝ่ามือได้รับการยอมรับแล้วนิ้วมือจะแตกออกจากปลายด้านหนึ่งและสามารถวิเคราะห์แยกกันได้ อัลกอริธึมที่แยกต่างหากจะดูที่ภาพและกำหนดพิกัด 21 จุดโดยประมาณให้ประสานกับนิ้วและนิ้วใกล้เคียงรวมถึงระยะห่างที่น่าจะเป็นไปได้ (สามารถเดาได้ตามขนาดและมุมของฝ่ามือเหนือสิ่งอื่นใด) ในการทำส่วนการรู้จำลายนิ้วมือพวกเขาต้องเพิ่มคะแนน 21 แต้มเหล่านั้นลงในมือ 30,000 ภาพในสถานการณ์การโพสท่าและแสงต่างๆเพื่อให้ระบบการเรียนรู้ของเครื่องเข้าสู่ร่างกายและเรียนรู้จาก ตามปกติปัญญาประดิษฐ์จะอาศัยการทำงานของมนุษย์อย่างหนักเพื่อไปต่อ เมื่อกำหนดท่าทางของมือแล้วท่านั้นจะถูกเปรียบเทียบกับท่าทางที่รู้จักกันดีตั้งแต่สัญลักษณ์ภาษามือสำหรับตัวอักษรและตัวเลขไปจนถึงสิ่งต่าง ๆ เช่น “สันติภาพ” และ “โลหะ” ผลลัพธ์เป็นอัลกอริธึมการติดตามด้วยมือที่ทั้งรวดเร็วและแม่นยำและทำงานบนสมาร์ทโฟนปกติมากกว่าเดสก์ท็อปที่ถูกหลอกหรือคลาวด์ (เช่นเดสก์ท็อปที่ถูกหลอก) ทุกอย่างทำงานภายใต้กรอบ MediaPipe ซึ่งผู้คนด้านเทคโนโลยีมัลติมีเดียอาจรู้จักบางสิ่งอยู่แล้ว ด้วยความโชคดีที่นักวิจัยคนอื่น ๆ สามารถนำสิ่งนี้ไปใช้และดำเนินการกับมันได้บางทีอาจจะปรับปรุงระบบที่มีอยู่เดิมซึ่งต้องการฮาร์ดแวร์ที่มีเนื้อวัวมากขึ้น มันอยู่ไกลจากที่นี่ไปจนถึงการเข้าใจภาษามืออย่างแท้จริงซึ่งใช้ทั้งมือการแสดงออกทางสีหน้าและความหมายอื่น ๆ เพื่อสร้างโหมดการสื่อสารที่หลากหลายไม่เหมือนใคร ยังไม่ได้ใช้ในผลิตภัณฑ์ Google ใด ๆ ดังนั้นนักวิจัยจึงมีอิสระที่จะทำงานให้ฟรี ซอร์สโค้ดอยู่ที่นี่เพื่อให้ทุกคนรับและต่อยอด “ เราหวังว่าการมอบฟังก์ชั่นการรับรู้ด้วยมือนี้ให้กับชุมชนการวิจัยและพัฒนาที่กว้างขึ้นจะส่งผลให้เกิดกรณีการใช้งานที่สร้างสรรค์การกระตุ้นแอพพลิเคชั่นใหม่และลู่ทางการวิจัยใหม่” พวกเขาเขียน
ดูข้อมูลเพิ่มเติม จากแหล่งเว็บไซต์ข่าว

Facebook Comments