sterowanie głosowe

Witam

Aktualnie jestem zielony w tym temacie, ale moze ktos podsunie mi kierunek poszukiwan. Czy ktos praktycznie implementowal algorytmy rozpoznawania mowy ma uP lub DSP. Chodzi mi o rozpoznawanie prostych fraz jak np. "wlacz/wyłącz (nazwa urzadzenie/pomieszczenia)". System powinien reagowac na głos 4-5 roznych osob, gdzie fraza jest wypowiadana z roznych czesci pomieszczenia Myslalem o potraktowaniu sygnalu FFT i zastosowaniu np. SSN. Aplikacja do rozpoznawania liter dosc dobrze sie spisywala przy zastosowaniu SSN - jednak to byla aplikacja na PC. ednak mysle ze jakies dedykowane algorytmy beda znacznie skuteczniejsze.

Pzdr Darek

Reply to
Darek
Loading thread data ...

Dla ścisłości. Litery się widzi a głoski słyszy. Wybacz ale nie da się nic zrobić jak się nie ma podstaw.

Reply to
kogutek

Ja tez jestem zielony ale tak sobie mysle - w zadnym z posiadanych telefonow nie bylem do konca zadowolony z tego rozwiazania. Nie lapie za pierwszym razem wypowiedzianego imienia, np tato - moze za krotkie? To jak nazwac tatusia kochanego, tatusiek moze by wystarczylo? A ty jeszcze chcesz by to rozpoznawalo glos kilku osob, bardzo podobne slowa wlacz/wylacz i to z konca pomieszczenia i szeptem pewnie tez ma sie wlaczyc (np jak bedziesz chore mial gardlo to nie krzykniesz przeciez). Technologia ma juz wiele lat za soba w komorkach a nadal taki bajer nie jest idealny...

Reply to
Papkin

ok co ja chce osiagnac. Mutacje mam juz za soba wiec jezeli pojawia sie bledy rozpoznawnia jezeli bede mial chore gardlo, to przezyje. Co do ilosci osob mozna wlasciwie ograniczyc do trzech.

Wlasnie przez warunki - czyli wypowiadanie komend z roznego miejsca w pomieszczeniu przez 3 rozne osoby - pomyslalem o sieciach neuronowych, poniewaz jak pisalem wczesniej, testowalem juz takie rozwiazanie przy rozpoznawaniu liter pisanych przez rozne osoby. Dzialalo dosc skutecznie. Zdaje sobie sprawe ze rozpoznanie glosu bedzie znacznie bardziej skomplikowane.

Co do telefonow komorkowych, to nie podejzewam aby ktos stosowal tam wyszukane metody rozpoznawania mowy - jest to taki gadzet dzieki ktoremu telefon ma sie sprzedawac lepiej, po drugie jakosc mikrofonu jest jaka jaest w telefonie jak i skutecznosc. Moj system mial by rozpoznawac wyselekconowane slowa, niekoniecznie wlacz lub wylacz, ktore sa faktycznie bardzo podobne, jakies slowa kluczowe, ktore rozna sie miedzy soba i najlatwiej rozpoznac.

Pzdr Darek

Reply to
Darek

IMHO pozostałbym przy embedded PC, bo jakoś to sobie słabo wyobrażam na mikrokontrolerze, o ile ma być faktycznie skuteczne. Ale prawdę mówiąc, w ogóle sobie to słabo wyobrażam, i raczej bym się nie spodziewał, że ktos udostępni koledze swoje programy (zwłaszcza o ile jako tako działają), bo taka dobrze działająca aplikacja sporo by była warta :) Zatem pozostają kombinacje z pisaniem własnego programu, no, chyba że to jakiś mocno komercyjny produkt ma być, to może się ktoś zgłosi. A o ile to ma być w jakimś sensownym budżecie, to jakieś mini itx, może jakiś komercyjny soft do tego (chociaż są jakieś free też), choć zapewne będzie problem ze sterowaniem czegokolwiek poza samym PC, bo generalnie te programy do tego służą... Ale - może jakaś nakładka na dostępny soft...

Reply to
sundayman
Órzytkownik "sundayman" napisał:

widziałem program na PC (jakiś pentium 200MHz, dawny znajomy się w to bawił) rozpoznający pojedyńcze słowa, oparty na sioeci neuronowej, więc jest to spokojnie do zrobienia, nie wiem tylko po co autor chce komplikowac to transformatą furiera?:O) moim zdaniem wystarczy sieć odbierająca dzwięk z mikrofonu:O)

Reply to
Papa Smurfs

Ale autor wątku chciałby żeby to działało, a nie "działało" :) Więc obawiam się, że 200 MHz moż być mało. Przykładowo, mam w maku (znaczy w OSX) wbudowane w system rozpoznawanie, tyle że po angielsku, no i to właśnie "działa", a nie działa... Skuteczne rozpoznawanie mowy to chyba ciągle trochę "święty Graal" jest...

Reply to
sundayman

Z FFT (czyli dziedzina częstotliwości) to będzie mały problem, brak okresowości sygnału, prócz tego jest zmienny w czasie. Chociaż tak akurat wygląda model słuchu u ssaków. "Na oko", bo rozpoznawaniem głosu się nie zajmowałem, powinna być to architektura SSN w układzie jednokierunkowym i jej wejścia w układzie temporalnym (dziedzina czasu). Powodzenia. K.

Reply to
John Smith

formatting link
to chyba jest lepsze od slynnego BSOD jak mikro miekki podlaczyl USB do win98? na jakies konferencji :-)

Sa jescze inne filmy ale chodzi o to samo, wpiszesz cos, chcesz skasowac a ten zapisuje komende zamiast ja wyknac! Moze lepiej np komendy wydwac z zamknietym nosem? Tak wiec uwazam ze kilka slow to sie da pudlo smierdzace nauczyc rozpoznac ale takie cos jak na filmie? Na razie wkladam miedzy bajki a na klawiaturze pisze bardzo szybko, praktyka czyni mistrza. Tylko lokiec tenisisty oraz nadgarstki hmmm cierpia.

F... vista , nie ma jakis organizacji zrzeszajacych poszkodowanych przez ten powolny jak mucha w smole a jednoczescnie ciezki jak slon, system operacyjny?

Reply to
Papkin
Órzytkownik "sundayman" napisał:

e tam, na 200MHz poza programem rozpoznającym można było jeszcze w tym samym czasie grać w Queika:O)

e tam, swego czasu wojsko usa wzięło ogromne fundusze na to i jestem pewien że mają to w paluszku:O) zresztą sieć neuronowa nie wymaga wielkiej mocy obliczeniowej, cała zabawa polega na dobrym jej zaprojektowaniu i nauczeniu, a nauczona sieć wykonuje to do czego została nauczona automatycznie i bez wysiłku:O) zastanowiło mnie tylko co miała by wnieść do tematu FFT? przecież jest ona zasobożerna na PC, bo oczywiście są specjalne procesorki co robią to w czasie rzeczywistym.

Reply to
Papa Smurfs

Użytkownik "Papa Smurfs" snipped-for-privacy@zagurami.eu napisał w wiadomości news:hf92kd$9f9$ snipped-for-privacy@atlantis.news.neostrada.pl...

teoretycznie pewnie tak, ale praktycznie, to jakoś słabo wychodzi :)

Reply to
sundayman

tu coś jest o mikrokontrolerach dedykowanych do takich zabaw...

formatting link

Reply to
sundayman

ElectronDepot website is not affiliated with any of the manufacturers or service providers discussed here. All logos and trade names are the property of their respective owners.