SoundSense: เปลี่ยน 'เสียง' ให้เป็น 'ภาพ' บนแว่น AR นวัตกรรมสุดล้ำช่วยผู้บกพร่องทางการได้ยิน!

SoundSense Project

สวัสดีเพื่อนๆ ชาว Tech และสาย Maker ทุกคน! วันนี้เราจะพาไปดูโปรเจกต์เจ๋งๆ ดีกรีรางวัล "Qualcomm Best Use of Edge AI for Hardware Hack" จากงาน MIT Reality Hack 2026 ที่มีชื่อว่า SoundSense ครับ

คุณเคยสงสัยไหมว่า นกแสก (Barn Owl) บินล่าเหยื่อในความมืดสนิทได้ยังไง? คำตอบคือพวกมันไม่ได้แค่ "ได้ยินเสียง" แต่มันสามารถ "สร้างแผนที่ 3 มิติของเสียง" ขึ้นมาในหัวได้เลย! นี่แหละครับคือแรงบันดาลใจ (Biomimicry) ที่ทีมพัฒนาใช้สร้าง SoundSense ขึ้นมา เพื่อช่วยเปลี่ยนเสียงที่มองไม่เห็น ให้กลายเป็น "ข้อมูลภาพและซับไตเติ้ลบนแว่น AR" สำหรับผู้บกพร่องทางการได้ยิน (Hearing impairments) ให้พวกเขารับรู้ทิศทางของเสียงและบทสนทนาได้แบบเรียลไทม์ โคตรคูล!

ของที่ใช้ในโปรเจกต์นี้ (Hardware & Software)

โปรเจกต์นี้ใช้การทำงานร่วมกันระหว่างฮาร์ดแวร์ฝั่งไมโครคอนโทรลเลอร์และ AI ซอฟต์แวร์ครับ:

  • บอร์ดหลัก: Arduino UNO Q
  • เซนเซอร์เสียง: MAX4466 microphone และ KY-037 Sound Sensor (เรียงกัน 4 ตัวเป็น Acoustic Array)
  • ซอฟต์แวร์: Arduino App Lab, Whisper.cpp (รัน Local AI), ElevenLabs API (สำรอง), Unity (สำหรับทำ AR)

💡 แอบป้ายยา: สำหรับเพื่อนๆ ที่อยากทดลองทำโปรเจกต์สไตล์ Wearable AR/AI แบบนี้ หากต้องการหาบอร์ด Arduino, เซนเซอร์ไมค์ หรืออยากได้ เส้นพลาสติก 3D Print (Filament) คุณภาพสูง เอาไปปริ้นท์เคสใส่แว่นหรือกล่องเซนเซอร์เท่ๆ ทนๆ แบบในงานนี้ล่ะก็ แวะไปช้อปอุปกรณ์สาย Maker ที่ Globalbyte ได้เลยครับ ของครบ ส่งไว พร้อมลุยโปรเจกต์แน่นอน!

SoundSense ทำงานยังไง? (Architecture)

ระบบนี้เป็นการรวมร่างกันระหว่าง Direction Sensing (จับทิศทาง), VAD (ดักจับเสียงพูด), Speech-to-Text และการส่งข้อมูลเข้าแว่น AR ครับ มาดูสเตปการทำงานกัน:

  1. ตัวเซนเซอร์ไมค์ (A0–A3) จะจับความดังของเสียงรอบตัวผู้ใช้ว่ามาจากทิศทางไหน
  2. บอร์ด Arduino MCU จะส่งข้อมูลเสียงผ่าน Serial ไปยังฝั่ง Linux MPU ของบอร์ด UNO Q
  3. ฝั่ง Linux จะรันโมเดล Speech-to-Text (Whisper.cpp) หรือใช้ ElevenLabs API แปลงเสียงเป็นข้อความ
  4. ระบบจะแพ็กข้อมูล (ทิศทางเสียง + ซับไตเติ้ลข้อความ) ส่งผ่าน TCP Streaming ไปยังแว่น AR (Unity Client)
  5. แว่น AR จะแสดงแถบสีไล่ระดับ (Smooth gradient) ตรงขอบจอเพื่อบอกทิศทางเสียง พร้อมขึ้นกล่องข้อความ (Caption boxes) ให้อ่านได้ทันที!
SoundSense UI Concept
System Architecture Sound Sensor Array 1 Sound Sensor Array 2 Sound Sensor Array 3 SoundSense Logo SoundSense Gallery

เบื้องหลังและอุปสรรคที่เจอ (Challenges)

ความท้าทายหลักที่ทีมเจอคือ Arduino App Lab ครับ! ปกติ App Lab จะรันแอปใน Docker container ซึ่งมันไม่ยอมให้เราเข้าไปยุ่งกับไฟล์ docker compose ทำให้การเซ็ตอัพ Local AI Model ทำได้ยากมาก

วิธีแก้ปัญหาของทีมนี้คือการใช้ DirectBridge (ของ Rami) สร้าง Socket เชื่อมต่อระหว่างฝั่ง MCU และ MPU บนบอร์ด UNO Q โดยตรง ทำให้สามารถโยนข้อมูลเซนเซอร์ทะลุเข้าไปให้ฝั่ง Debian Linux ที่รันโมเดล AI อยู่จัดการต่อได้สบายๆ เลยครับ

การจัดระเบียบไฟล์ในโปรเจกต์ (Repo Layout)

  • Arduino/sketch/ : โค้ดฝั่ง MCU ส่งข้อมูลทิศทางผ่าน RouterBridge
  • Arduino/python/main.py : รัน TCP Server บน UNO Q (Linux)
  • ElevenLabs/backend/ : โค้ดฝั่ง Python จัดการอัดเสียง, VAD, STT, และเป็น TCP Client
  • debug_audio/ : ใช้เก็บไฟล์ WAV สั้นๆ ไว้เช็คตอน Debug
  • (ส่วนของ Unity AR Client ไม่ได้รวมอยู่ใน Repo นี้ครับ)

ลองทำตามดูไหม? (Quick Start - Local Dev)

การเซ็ตอัพฝั่ง Python Backend และรัน TCP Server บน UNO Q ทำได้ตามโค้ดด้านล่างนี้เลยครับ:

1) Python backend
cd ElevenLabs
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
export ELEVENLABS_API_KEY="your_key_here"
python backend/main.py
2) UNO Q TCP server
python Arduino/python/main.py

ส่วนของเฟิร์มแวร์ Arduino ให้เปิดไฟล์ Arduino/sketch/sketch.ino ใน Arduino IDE แล้วอัปโหลดลงบอร์ด พร้อมต่อเซนเซอร์เสียงแอนะล็อกเข้าพอร์ต A0–A3 ได้เลยครับ (การตั้งค่าอื่นๆ เช่น ELEVENLABS_API_KEY, TCP_PORT สามารถแก้ได้ใน ElevenLabs/backend/config.py)

XR App Testing
XR App Testing 2 Arduino + Quest TCP Test 3D Printed Casing Printing Casing Process UNO Q in Case Wearable Sensors

ความภูมิใจและก้าวต่อไป (Accomplishments & What’s Next)

ทีมงานภูมิใจมากที่สามารถสร้างต้นแบบอุปกรณ์ช่วยเหลือผู้บกพร่องทางการได้ยินออกมาได้อย่างรวดเร็ว และออกแบบให้มันใส่ในชีวิตประจำวันได้จริง (Ergonomic design) ได้เรียนรู้ทั้งการทำ Embedded development แบบรีโมทผ่าน SSH, การรันโมเดล Speech-to-text แบบ Local, และการจัดการ Python Virtual environments ครับ

ก้าวต่อไปของโปรเจกต์นี้ คือการอัปเกรดเซนเซอร์เสียง (Sound sensors) ให้เป็นไมโครโฟนคุณภาพสูงขึ้น เพิ่มจำนวนเซนเซอร์เพื่อให้จับทิศทางได้แม่นยำกว่าเดิม และปรับปรุงตามเสียงตอบรับของผู้ใช้งานจริงครับ

Team SoundSense

โฉมหน้าทีมงาน SoundSense: Awassada Ariyaphuttarat, Esha Morakhiya, Jake Tan, John Travis Hunter, Laksh Vadbheru

อ้างอิงข้อมูลจาก: Globalbyteshop Blog

โปรเจกต์ SoundSense: Hackster.io | Devpost

โปรเจกต์ที่เกี่ยวข้อง: DirectBridge | Whisper.cpp | MIT Reality Hack 2026 Repo

สร้างสรรค์ด้วย: Arduino, ElevenLabs, Qualcomm, Unity, Whisper.cpp (License: MIT)

*คำเตือน: เนื้อหานี้เป็นการสรุปและเรียบเรียงแนวคิดจากบทความโปรเจกต์ Hackathon ต้นฉบับภาษาอังกฤษ ข้อมูลและกระบวนการทำงานบางส่วนอาจถูกปรับเพื่อความเข้าใจที่สนุกและง่ายขึ้น โปรดตรวจสอบรายละเอียดเชิงเทคนิคและซอร์สโค้ดฉบับเต็มได้ที่ เว็บไซต์ต้นฉบับ หรือ GitHub ของทีมผู้สร้าง

 

แท็ก


Blog posts

เข้าสู่ระบบ

ลืมรหัสผ่านใช่ไหม?

ยังไม่มีบัญชีใช่ไหม?
สร้างบัญชี