Ha valaha is vettél részt megbeszélésen egy kis, üvegfalú tárgyalóban, biztosan tapasztaltad már: a hangod tompának tűnik és a túloldalon ülők nehezen értik, amit mondasz. Nem az a probléma, hogy túl halk vagy – hanem az, ahogyan a hang terjed ebben a térben.
Ez a cikk egy olyan technikai kihívásról szól, ami elsőre egyszerűnek tűnhet, de valójában összetett, sokrétű és az iparágban még mindig nem sikerült teljesen megoldani. Egyúttal arról is szól, hogyan dolgozott a Yealink csapata kitartóan, lépésről lépésre, hogy megoldást találjon erre a problémára.
Miért jelent kihívást a hangtechnika üvegfalú terekben?
Az ilyen helyiségek – szemben a hagyományos tárgyalókkal – sokkal kedvezőtlenebb akusztikai adottságokkal rendelkeznek. A nagy, fényes üvegfelületek és a hangelnyelő anyagok hiánya miatt a hanghullámok szinte azonnal visszaverődnek a falakról, mennyezetről és az asztalokról. Ez pedig erős visszhangot és torz hangzást eredményez.
A legnagyobb problémák:
-
A mély hangok elmosódnak, kevésbé érthetővé válik a beszéd.
-
A korai visszaverődések megzavarják a beszéd természetes hangzását.
-
A hagyományos visszhangszűrő algoritmusok valós időben nem elég hatékonyak.
-
A túl erős szűrés pedig a hang természetességét rontja el.
Emiatt sok iparági szereplő fizikai megoldásokhoz nyúl – például speciális bútorokat használnak vagy több mikrofont helyeznek el a teremben. Ezek viszont drága és gyakran kiszámíthatatlan eredményt hozó megoldások.
Mi lenne viszont, ha egyetlen eszköz önmagában képes lenne minden tárgyalóban tiszta, érthető hangzást biztosítani?
AI-alapú zajcsökkentés
2022-ben kezdte el a Yealink bevezetni AI-alapú zajszűrési algoritmusainkat az A20, A30 és IWB eszközökben. Ezek a megoldások képesek voltak kezelni az állandó és hirtelen háttérzajokat és megbízható alapot adtak a tiszta hangrögzítéshez.
Ez alatt három kulcsfontosságú technológiát fejlesztették:
-
Valódi megbeszélésekből származó adatbázisokat hoztak létre.
-
Hatékony, eszközön futtatható AI-modelleket terveztek.
-
Olyan telepítési rendszert alkottak, amely különböző hardverekkel kompatibilis.
Ez a háttér tette lehetővé, hogy elkezdjék a visszhang problémájának célzott megoldását.
A visszhangcsökkentés lépésről lépésre
Először az úgynevezett „késői visszhanggal” kezdték – ezek azok az utórezgések, amik még akkor is hallhatók, amikor már befejeztük a beszédet. A vállalat célja egy olyan modell volt, ami valós környezetekben működik, anélkül hogy növelné az eszköz terhelését.
Valós irodai felvételeket rögzítettek, akusztikai modelljüket finomították és egy valós idejű, személyre szabott algoritmust fejlesztettek.
Az eredmények biztatóak voltak:
-
A visszhang érezhetően csökkent különböző helyiségekben.
-
A Microsoft Teams AV minősítési laborjában pozitív visszajelzéseket kaptak.
-
A felhasználók jobb hangérthetőségről számoltak be, különösen közepes méretű szobákban.
Fontos mérföldkő – de még nem a végső cél.
A legnagyobb kihívás: a „korai visszhang”
Ahhoz, hogy a beszéd valóban tisztán és érthetően szóljon, meg kellett oldaniuk azt a problémát, hogy a hang már a megszólalás pillanatában visszhangzik. Ezek a korai visszhangok annyira összefonódnak az eredeti hanggal, hogy hagyományos technikákkal nagyon nehéz őket eltávolítani, anélkül hogy torzítanánk a beszéd természetes hangzását.
Többféle megoldást is kipróbáltak, mire végül egy generatív modell mellett döntöttek. Ez képes volt a beszéd újraalkotására úgy, hogy a zavaró visszhangot jelentősen csökkenti – mindezt minimális torzítással. Ennek azonban az volt az ára, hogy jóval nagyobb számítási kapacitást igényelt.
MEGOLDÁS: hatékony működés beépített NPU-n
Ahhoz, hogy ez a fejlett modell költséghatékony eszközökön is fusson, olyan futtatási rendszert fejlesztettekk, amely kifejezetten a Rockchip NPU chipekre lett optimalizálva. Így a modell gyorsan, hatékonyan és energiatakarékosan működhet beágyazott rendszerekben – ami kulcsfontosságú volt a termékhasználat szempontjából.
Ami elsőre csak egy átlagos tárgyalónak tűnik, az valójában egy összetett technikai tesztkörnyezet. Munkájuk során több területet is össze kell hangolni:
-
Akusztikai mérnöki tervezés
-
Hangfelvételek gyűjtése és AI-modellek tanítása
-
Mesterséges intelligencia fejlesztés és beágyazás
-
Gyors és hatékony futtatás optimalizálása
A fejlesztés során nemcsak az algoritmusok pontosságát figyelik – hanem azt is, hogyan szól ez a megoldás valós emberek fülének, valódi terekben.
Mindig egy lépéssel előrébb
„Tudjuk, hogy a tiszta beszéd a sikeres kommunikáció alapja – és hogy ezt üvegfalú, akusztikailag nehéz terekben elérni nem egyszerű. Ehhez komoly fejlesztés, hosszú távú gondolkodás és technológiai elhivatottság kell.
Büszkék vagyunk arra, amit eddig elértünk – de nem állunk meg. Teremről teremre, hangról hangra haladunk előre, hogy még többet hozzunk ki abból, ami lehetséges.” – Yealink csapata.






