Latest post of the previous page:
Wszystkie są moje ulubione.SIEMANOPIX - "LSD"
SIEMANOPIX - "LSD"
Ja nawet sobie posciagalem wszystkie jego utwory i wlaczam do sesji w playliscie
SIEMANOPIX - "LSD"
Postanowiłem wrócić do tej nuty po kilku miesiącach i stwierdzam, że na prawdę robi robotę

SIEMANOPIX - "LSD"
No juz o tym pisalem ze wszystkie trzymaja poziom
SIEMANOPIX - "LSD"
Da się zrobić jakimś programem transkrypt danej piosenki, tak by można było wrzucić jej treść na forum?
SIEMANOPIX - "LSD"
Jeśli chcesz zrobić transkrypcję audio z wideo/dźwięku to jest to możliwe, ale w przypadku piosenki wyjdzie to słabo/średnio, do tego dodając ze jest tutaj język polski to też wyszłoby to średnio (angielski ma o wiele lepsze i bardziej rozbudowane modele AI do takiej transkrypcji, ale to raczej oczywiste) więc wychodziłoby nam tutaj równanie średnio/słabo * średnio = słabo, ale jako ciekawostkę powiem jak tworzyć transkrypcję z audio na komputerze z Windowsem przy użyciu Whispera (model sztucznej inteligencji od OpenAI do rozpoznawania mowy).Champion63 wrote: ↑16 hours agoDa się zrobić jakimś programem transkrypt danej piosenki, tak by można było wrzucić jej treść na forum?
Ja do tego używam odtwarzacza PotPlayer, bo ma on to wbudowane, można pobrać ze sklepu Microsoftu, wingeta:
Code: Select all
winget install --id Daum.PotPlayer
albo ze strony producenta: https://potplayer.daum.net/
Chyba potrzebna jest wersja 64 bitowa do Whispera, bo miałem problemy z uruchomieniem tego na tablecie z 32 bitowym windowsem 8, ale więcej nie próbowałem, na Windows 11 (który nie ma wersji 32 bitowej w ogóle) działa.
Następnie musisz pobrać film/samo audio i uruchomić przez potplayera i klikasz prawym przyciskiem myszki tak jak ja tutaj i będziesz miał możliwość pobrania modelu AI:
Później musisz wybrać model, którego chcesz użyć, ja nie mam karty graficznej i mam 6 rdzeniowy procesor (12 wątków), więc ustawiam to tak:
-Whisper.CPU - typowo zoptymalizowany pod procesor
I w parametrach wpisuję sobie:
Code: Select all
-t 12
Code: Select all
-ng true
Modele, no tutaj im wyżej tym lepiej, ale też większe obciążenie dla CPU/GPU i większe zużycie RAMu, a w przypadku karty graficznej vRAM.
Dla tych parametrów po upływie około 1 min. 20 sek. w przypadku mojego procesora będziemy mieli transkrypcję tego:
Teraz można zapisać napisy do pliku w ten sposób:
Ale jak mówię, dla języka polskiego i w przypadku muzyki to wypada raczej słabo, tutaj to co mi wyszło z tego wszystkiego:
Natomiast Ty bardziej tutaj potrzebujesz OCRa, bo tekst jest na youtubie, więc w przypadku nowego Windowsa 11 masz to wbudowane w narzedzie wycinanie, więc wystarczy zrobić screena (printscreen na klawiaturze, albo kombinacja klawiszy Windows+Shift+S) i wybierasz obszar ekranu gdzie chcesz zrobić screena tak:
I jak klikniesz to co zaznaczyłem na pomarańczowo to narzędzie odczyta Ci tekst jaki jest w stanie ze screena, czyli w tym przypadku:
I sobie możesz to skopiować.
A ogólnie to jak mówię transkrypcja z dźwięku ma większy sens w przypadku normalnych filmów... w sumie ten post można by na osobny poradnik przerobić, bo mi to tu nawet wyszło xd