Нейросеть научилась озвучивать немые видеоролики

22century.ru — Исследователи из Университета Северной Каролины в Чапел-Хилл и из Adobe Research обучили рекуррентную нейронную сеть генерировать звук по видеоряду.
Новости, Компьютеры | yatsutko 15:00 13.12.2017
10 комментариев | 30 за, 1 против |
#1 | 20:45 13.12.2017 | Кому: fantomas
Давно умеет. См.:[censored]
#2 | 12:46 14.12.2017 | Кому: fantomas
Я не только пробую, но и занимаюсь эксплуатацией на практике решения для автоматизации работы оператора колл-центра, которое разработала моя команда.
#3 | 12:48 14.12.2017 | Кому: fantomas
Не надо путать хрен с пальцем. Мобильный телефон — довольно тормозная железка, и распознавание в реальном времени заметно хуже, чем в онлайне. Однако даже несмотря на это, скажем, Яндекс-такси на довольно приличном уровне распознаёт, скажем, адреса, произнесённые даже с самыми немыслимыми акцентами. Качество же распознавания для оффлайн-систем на приличном оборудовании — ещё на голову выше.
#4 | 12:50 14.12.2017 | Кому: luke
Опасне! Ведь уже:[censored] :)
#5 | 14:54 14.12.2017 | Кому: fantomas
Да уж, тяжело вам живётся.
#6 | 14:56 14.12.2017 | Кому: fantomas
> Что ты имеешь ввиду - довольно тормозная? Ведь не про саму железку, правда?

Если у тебя быстрая железка, ты можешь использовать алгоритмы распознавания, которые обеспечивают более хорошее качество. Если у тебя процессор из мобильного телефона и требование распознавать речь в реальном времени, то качество будет, разумеется, хуже.

> моя кошка больше понимает


Мой совет — ты можешь много заработать на этой кошке!
#7 | 16:40 14.12.2017 | Кому: fantomas
Я считаю, что ты ничего не знаешь о тех системах, которые я разрабатываю.
Но зато недоволен, похоже, абсолютно всем в этом мире)
#8 | 16:43 14.12.2017 | Кому: fantomas
Достаточно быстро для чего? Я тебе объяснил — качество распознавания напрямую зависит от двух показателей — от мощности процессора и от времени на распознавание. При твоей железке для русского языка онлайн WER при распознавании будет в районе 18—20% на хорошей модели. На Xeon 2650 20-ядерном и при времени в 4 раза большем, чем время записи, WER будет в районе 4—5% на современной модели распознавания на основе рекуррентных сеток.
#9 | 01:37 15.12.2017 | Кому: fantomas
> я говорил о голосовых меню и голосовых ботах

Ай, да ладно. Успел уже выказать недовольство нейросетями, распознаванием речи вообще, голосовыми меню и голосовыми роботами.
Интересно было бы посмотреть на твои персональные достижения. Судя по пафосу, как минимум открыл новую Теорию относительности.

> Так ты эксплуатирешь или разрабатываешь?


Разрабатываю.

> репозитария


Репозитория. Не умничай.

> То есть, выходит, как если бы прогресс был


Прогресс есть. Потому что ещё 5 лет назад WER на том же Xeon 2650 был 30%.

> Обращаю внимание, что обычно потребителя не волнуют отдельные одноразовые достижения


[censored]
#10 | 13:54 15.12.2017 | Кому: fantomas
> Если это слово заимствовано из английского

В современно русском репозиторий — хранилище, место хранения (программ, объектов, метаданных и т. п.). Репозитарий — в основном, используется в отношении соответствующих инструментов финансового рынка. Вариант «репозитарий» в реальной языковой практике в ИТ-среде не встречается. Репозиторий — 993 000 результатов в google, репозитарий — 85 100, из них примерно 9/10 используется как банковский или медицинский термин.
Войдите или зарегистрируйтесь чтобы писать комментарии.