Основной контент книги Podlodka #292 – Распознавание речи
Podcast

Osa kestus 1 t. 25 min.

2022 aasta

0+

Podcastist

В эфире ваша любимая рубрика: «как устроены сложные штуки» . Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван Бондаренко, старший преподаватель и научный сотрудник НГУ, рассказал из каких компонентов устроены типичные архитектуры таких систем, принцип их работы, и как системы эволюционируют, все больше полагаясь на нейронные сети. Не обошли стороной и практику и обсудили, как самому реализовать распознавание речи из open-source решений. Поддержи лучший подкаст про IT: www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodlodkaPodcast Ведущие в выпуске: Катя Петрова, Стас Цыганов Полезные ссылки: - https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (классическая книга Мартина и Журавского "Speech and Language Processing", правда, на английском языке) - https://www.deeplearningbook.org/ (супер-книга про глубокое обучение от Гудфеллоу, Бенджио и Курвиля, а ведь глубокое обучение активно используется в современных методах распознавания речи) - https://kaldi-asr.org/ (конструктор систем распознавания речи на основе компонентного подхода) - https://habr.com/ru/post/470696 (простое описание того, как установить Kaldi на своём компьютере и как его сравнить с другими системами распознавания) - https://github.com/alphacep/vosk-api (упоминавшийся мной проект Николая Шмырёва по распознаванию речи с "классической" архитектурой на базе Kaldi) - https://www.openslr.org/12 (знаменитый англоязычный датасет Librispeech, включающий в себя более 1000 часов аннотированной речи) - https://www.openslr.org/114 (большой вручную аннотированный датасет русской речи, созданный ребятами из SberDevices) - https://t.me/speech_recognition_ru (известный русскоязычный телеграм-канал по распознаванию речи, созданный Николаем Шмырёвым) - https://github.com/nsu-ai/russian_g2p (система для преобразования русских слов и текстов в цепочку фонем устной речи) - https://maelfabien.github.io/machinelearning/wav2vec (статья про современные речевые нейросеточки семейства Wav2Vec и Wav2Vec2) - https://jonathanbgn.com/2021/09/30/illustrated-wav2vec-2.html (Wav2Vec2 в картинках) - https://huggingface.co/bond005/wav2vec2-large-ru-golos (глубокая нейросеть типа Wav2Vec2 для распознавания русской речи) - https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm (глубокая нейросеть типа Wav2Vec2 с дополнительной языковой моделью для распознавания русской речи) - https://kheafield.com/code/kenlm/ (инструмент для построения своих языковых моделей) - https://habr.com/ru/post/513218/ (как распарсить Википедию и превратить её в текстовый корпус для обучения языковой модели в системе распознавания речи и не только) - https://habr.com/ru/post/494006 (почему не стоит слепо доверять опубликованным показателям качества систем распознавания речи и, вообще, пара слов о том, как сделать свою систему) - https://www.researchgate.net/profile/Ivan-Bondarenko (профиль Ивана на ResearchGate) - https://github.com/bond005 (гитхаб Ивана)

Viimane uuendus:
11 november 2023
Mis on podcast?
Logi sisse, et hinnata raamatut ja jätta arvustus
Vanusepiirang:
0+
Ilmumiskuupäev Litres'is:
11 november 2023
Kirjutamise kuupäev:
31 oktoober 2022
Kestus:
1 t. 25 min. 04 sek.
Õiguste omanikud:
Автор, Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла
Allalaadimise formaat:
1x