SoundSense: เปลี่ยน 'เสียง' ให้เป็น 'ภาพ' บนแว่น AR นวัตกรรมสุดล้ำช่วยผู้บกพร่องทางการได้ยิน!

สวัสดีเพื่อนๆ ชาว Tech และสาย Maker ทุกคน! วันนี้เราจะพาไปดูโปรเจกต์เจ๋งๆ ดีกรีรางวัล "Qualcomm Best Use of Edge AI for Hardware Hack" จากงาน MIT Reality Hack 2026 ที่มีชื่อว่า SoundSense ครับ

คุณเคยสงสัยไหมว่า นกแสก (Barn Owl) บินล่าเหยื่อในความมืดสนิทได้ยังไง? คำตอบคือพวกมันไม่ได้แค่ "ได้ยินเสียง" แต่มันสามารถ "สร้างแผนที่ 3 มิติของเสียง" ขึ้นมาในหัวได้เลย! นี่แหละครับคือแรงบันดาลใจ (Biomimicry) ที่ทีมพัฒนาใช้สร้าง SoundSense ขึ้นมา เพื่อช่วยเปลี่ยนเสียงที่มองไม่เห็น ให้กลายเป็น "ข้อมูลภาพและซับไตเติ้ลบนแว่น AR" สำหรับผู้บกพร่องทางการได้ยิน (Hearing impairments) ให้พวกเขารับรู้ทิศทางของเสียงและบทสนทนาได้แบบเรียลไทม์ โคตรคูล!

ของที่ใช้ในโปรเจกต์นี้ (Hardware & Software)

โปรเจกต์นี้ใช้การทำงานร่วมกันระหว่างฮาร์ดแวร์ฝั่งไมโครคอนโทรลเลอร์และ AI ซอฟต์แวร์ครับ:

บอร์ดหลัก: Arduino UNO Q
เซนเซอร์เสียง: MAX4466 microphone และ KY-037 Sound Sensor (เรียงกัน 4 ตัวเป็น Acoustic Array)
ซอฟต์แวร์: Arduino App Lab, Whisper.cpp (รัน Local AI), ElevenLabs API (สำรอง), Unity (สำหรับทำ AR)

💡 แอบป้ายยา: สำหรับเพื่อนๆ ที่อยากทดลองทำโปรเจกต์สไตล์ Wearable AR/AI แบบนี้ หากต้องการหาบอร์ด Arduino, เซนเซอร์ไมค์ หรืออยากได้ เส้นพลาสติก 3D Print (Filament) คุณภาพสูง เอาไปปริ้นท์เคสใส่แว่นหรือกล่องเซนเซอร์เท่ๆ ทนๆ แบบในงานนี้ล่ะก็ แวะไปช้อปอุปกรณ์สาย Maker ที่ Globalbyte ได้เลยครับ ของครบ ส่งไว พร้อมลุยโปรเจกต์แน่นอน!

SoundSense ทำงานยังไง? (Architecture)

ระบบนี้เป็นการรวมร่างกันระหว่าง Direction Sensing (จับทิศทาง), VAD (ดักจับเสียงพูด), Speech-to-Text และการส่งข้อมูลเข้าแว่น AR ครับ มาดูสเตปการทำงานกัน:

ตัวเซนเซอร์ไมค์ (A0–A3) จะจับความดังของเสียงรอบตัวผู้ใช้ว่ามาจากทิศทางไหน
บอร์ด Arduino MCU จะส่งข้อมูลเสียงผ่าน Serial ไปยังฝั่ง Linux MPU ของบอร์ด UNO Q
ฝั่ง Linux จะรันโมเดล Speech-to-Text (Whisper.cpp) หรือใช้ ElevenLabs API แปลงเสียงเป็นข้อความ
ระบบจะแพ็กข้อมูล (ทิศทางเสียง + ซับไตเติ้ลข้อความ) ส่งผ่าน TCP Streaming ไปยังแว่น AR (Unity Client)
แว่น AR จะแสดงแถบสีไล่ระดับ (Smooth gradient) ตรงขอบจอเพื่อบอกทิศทางเสียง พร้อมขึ้นกล่องข้อความ (Caption boxes) ให้อ่านได้ทันที!

ดูภาพ Diagram และเซนเซอร์เพิ่มเติม (View more) ซ่อนภาพ (View less)

เบื้องหลังและอุปสรรคที่เจอ (Challenges)

ความท้าทายหลักที่ทีมเจอคือ Arduino App Lab ครับ! ปกติ App Lab จะรันแอปใน Docker container ซึ่งมันไม่ยอมให้เราเข้าไปยุ่งกับไฟล์ docker compose ทำให้การเซ็ตอัพ Local AI Model ทำได้ยากมาก

วิธีแก้ปัญหาของทีมนี้คือการใช้ DirectBridge (ของ Rami) สร้าง Socket เชื่อมต่อระหว่างฝั่ง MCU และ MPU บนบอร์ด UNO Q โดยตรง ทำให้สามารถโยนข้อมูลเซนเซอร์ทะลุเข้าไปให้ฝั่ง Debian Linux ที่รันโมเดล AI อยู่จัดการต่อได้สบายๆ เลยครับ

การจัดระเบียบไฟล์ในโปรเจกต์ (Repo Layout)

Arduino/sketch/ : โค้ดฝั่ง MCU ส่งข้อมูลทิศทางผ่าน RouterBridge
Arduino/python/main.py : รัน TCP Server บน UNO Q (Linux)
ElevenLabs/backend/ : โค้ดฝั่ง Python จัดการอัดเสียง, VAD, STT, และเป็น TCP Client
debug_audio/ : ใช้เก็บไฟล์ WAV สั้นๆ ไว้เช็คตอน Debug
(ส่วนของ Unity AR Client ไม่ได้รวมอยู่ใน Repo นี้ครับ)

ลองทำตามดูไหม? (Quick Start - Local Dev)

การเซ็ตอัพฝั่ง Python Backend และรัน TCP Server บน UNO Q ทำได้ตามโค้ดด้านล่างนี้เลยครับ:

1) Python backend

cd ElevenLabs
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
export ELEVENLABS_API_KEY="your_key_here"
python backend/main.py

2) UNO Q TCP server

python Arduino/python/main.py

ส่วนของเฟิร์มแวร์ Arduino ให้เปิดไฟล์ Arduino/sketch/sketch.ino ใน Arduino IDE แล้วอัปโหลดลงบอร์ด พร้อมต่อเซนเซอร์เสียงแอนะล็อกเข้าพอร์ต A0–A3 ได้เลยครับ (การตั้งค่าอื่นๆ เช่น ELEVENLABS_API_KEY, TCP_PORT สามารถแก้ได้ใน ElevenLabs/backend/config.py)

ดูภาพการทดสอบแว่น AR และเคส 3D Print (View more) ซ่อนภาพ (View less)

ความภูมิใจและก้าวต่อไป (Accomplishments & What’s Next)

ทีมงานภูมิใจมากที่สามารถสร้างต้นแบบอุปกรณ์ช่วยเหลือผู้บกพร่องทางการได้ยินออกมาได้อย่างรวดเร็ว และออกแบบให้มันใส่ในชีวิตประจำวันได้จริง (Ergonomic design) ได้เรียนรู้ทั้งการทำ Embedded development แบบรีโมทผ่าน SSH, การรันโมเดล Speech-to-text แบบ Local, และการจัดการ Python Virtual environments ครับ

ก้าวต่อไปของโปรเจกต์นี้ คือการอัปเกรดเซนเซอร์เสียง (Sound sensors) ให้เป็นไมโครโฟนคุณภาพสูงขึ้น เพิ่มจำนวนเซนเซอร์เพื่อให้จับทิศทางได้แม่นยำกว่าเดิม และปรับปรุงตามเสียงตอบรับของผู้ใช้งานจริงครับ

โฉมหน้าทีมงาน SoundSense: Awassada Ariyaphuttarat, Esha Morakhiya, Jake Tan, John Travis Hunter, Laksh Vadbheru

พร้อมสร้างนวัตกรรมเปลี่ยนโลกแบบทีม SoundSense แล้วหรือยัง?

ช้อปบอร์ด Arduino, เซนเซอร์ และเส้น 3D Print ได้เลย! เข้ากลุ่ม Community อวดผลงานและหาไอเดียทำโปรเจกต์ สอบถามเทคนิคหรือสั่งซื้อสินค้าผ่าน LINE OA

อ้างอิงข้อมูลจาก: Globalbyteshop Blog

โปรเจกต์ SoundSense: Hackster.io | Devpost

โปรเจกต์ที่เกี่ยวข้อง: DirectBridge | Whisper.cpp | MIT Reality Hack 2026 Repo

สร้างสรรค์ด้วย: Arduino, ElevenLabs, Qualcomm, Unity, Whisper.cpp (License: MIT)

*คำเตือน: เนื้อหานี้เป็นการสรุปและเรียบเรียงแนวคิดจากบทความโปรเจกต์ Hackathon ต้นฉบับภาษาอังกฤษ ข้อมูลและกระบวนการทำงานบางส่วนอาจถูกปรับเพื่อความเข้าใจที่สนุกและง่ายขึ้น โปรดตรวจสอบรายละเอียดเชิงเทคนิคและซอร์สโค้ดฉบับเต็มได้ที่ เว็บไซต์ต้นฉบับ หรือ GitHub ของทีมผู้สร้าง

แท็ก

Arduino Arduino AI Arduino Forgetfulino Arduino IDE Arduino Nano Arduino Nano R3 Arduino UNO Q Arduino UNO R4 Arduino Ventuno Q