Strona główna Technologia Patrz i słuchaj: słuchawki AI eliminują szumy tła i już po pierwszym...

Patrz i słuchaj: słuchawki AI eliminują szumy tła i już po pierwszym spojrzeniu skupiają się na jednym głośniku

7
0

Zespół Uniwersytetu w Waszyngtonie opracował system sztucznej inteligencji, który pozwala użytkownikowi noszącemu słuchawki patrzeć na mówiącą osobę przez trzy do pięciu sekund, a następnie słyszeć w czasie rzeczywistym tylko głos zarejestrowanego mówcy, nawet jeśli słuchacz porusza się w hałaśliwych miejscach i nie znajduje się już w pobliżu. twarzą do mówiącego. (Zdjęcie Uniwersytetu Waszyngtońskiego / Kiyomi Taguchi)

Być może słyszałeś napomnienie: „patrz na mnie, kiedy do ciebie mówię”. A co by było, gdyby mając na sobie słuchawki, można było wyraźniej słyszeć kogoś, po prostu na niego patrząc?

To coś, co dzieje się z nowy system sztucznej inteligencji opracowany przez naukowców z Uniwersytetu Waszyngtońskiego, w którym osoba nosząca słuchawki redukujące hałas może „zapisać” pojedynczą osobę do systemu, po prostu patrząc na nią przez kilka sekund. System następnie wycisza wszystkie inne dźwięki z otoczenia i odtwarza tylko głos zarejestrowanego mówcy, nawet jeśli słuchacz się porusza i nie jest już zwrócony twarzą do mówiącego.

Projekt zatytułowany „Docelowe słyszenie mowy” jest dziełem tego samego zespołu z UW, który wcześniej opracował system „słyszenia semantycznego” dla słuchawek z redukcją szumów, w którym słuchacze mogą decydować, które dźwięki odfiltrować z otoczenia, a które wpuścić. Śpiew ptaków ? Tak. Dziecko krzyczy? Nie.

Zbliżenie na słuchawki AI wyposażone w mikrofony binauralne podłączone do gotowych słuchawek z redukcją szumów. (Zdjęcie Uniwersytetu Waszyngtońskiego / Kiyomi Taguchi)

Nowy system opiera się na gotowych słuchawkach wyposażonych w mikrofony. Osoba nosząca słuchawki naciska przycisk, kierując głowę w stronę mówiącej osoby. Fale dźwiękowe z głosu mówiącego docierają do mikrofonów po obu stronach zestawu słuchawkowego, a słuchawki wysyłają ten sygnał do wbudowanego komputerw którym oprogramowanie do uczenia maszynowego uczy się wzorców wokalnych żądanego mówcy.

System wychwytuje głos mówiącego i odtwarza go słuchaczowi w czasie rzeczywistym, nawet gdy para się porusza. Według UW zdolność systemu do skupiania się na zarejestrowanym głosie poprawia się w miarę kontynuowania mówienia przez mówiącego, co dostarcza systemowi większej ilości danych szkoleniowych – twierdzi UW.

Dostępne są już słuchawki redukujące hałas, takie jak Apple AirPods Professional, które mogą automatycznie dostosowywać poziom dźwięku podczas rozmowy. Prototyp UW idzie o krok dalej i pozwala kontrolować, kogo i kiedy słuchać.

Wyobraź sobie, że nosisz słuchawki w zatłoczonej restauracji lub kawiarni, gdzie hałas w tle utrudnia wyraźne usłyszenie osoby siedzącej naprzeciwko. Naciśnięcie przycisku i spojrzenie na głośnik zmienia sytuację.

Obecnie system może zapisać tylko jednego mówcę na raz i jest w stanie zarejestrować mówcę tylko wtedy, gdy z tego samego kierunku, co głos docelowego mówcy, nie dochodzi inny głośny głos. Użytkownik może przeprowadzić kolejną rejestrację na głośniku, aby poprawić przejrzystość.

Zespół zaprezentował jego ustalenia 14 maja w Honolulu na konferencji ACM CHI na temat czynników ludzkich w systemach komputerowych. The kod urządzenia sprawdzającego koncepcję jest dostępny dla innych, na których można budować. System nie jest dostępny komercyjnie.

Obejrzyj system w akcji:

Źródło