Нейросеть научилась озвучивать немые видеоролики

22century.ru — Исследователи из Университета Северной Каролины в Чапел-Хилл и из Adobe Research обучили рекуррентную нейронную сеть генерировать звук по видеоряду.
Новости, Компьютеры | yatsutko 15:00 13.12.2017
20 комментариев | 30 за, 1 против |
#1 | 16:39 13.12.2017 | Кому: Всем
[censored]
fantomas
дурачок »
#2 | 20:01 13.12.2017 | Кому: Всем
Да пусть голос хотя бы научатся распознавать нормально для начала.
#3 | 20:45 13.12.2017 | Кому: fantomas
Давно умеет. См.:[censored]
fantomas
дурачок »
#4 | 21:11 13.12.2017 | Кому: oulenspiegel
> Давно умеет.

Ага. Ты сам попробуй это распознавание для начала. Небось телефон под рукой? Okay Goolge, и откроется много интересного - из Real Life, а не из статеек в интернете.
#5 | 01:13 14.12.2017 | Кому: Всем
Так вот какой программой Гоблин переводит фильмы!!!
#6 | 12:46 14.12.2017 | Кому: fantomas
Я не только пробую, но и занимаюсь эксплуатацией на практике решения для автоматизации работы оператора колл-центра, которое разработала моя команда.
#7 | 12:48 14.12.2017 | Кому: fantomas
Не надо путать хрен с пальцем. Мобильный телефон — довольно тормозная железка, и распознавание в реальном времени заметно хуже, чем в онлайне. Однако даже несмотря на это, скажем, Яндекс-такси на довольно приличном уровне распознаёт, скажем, адреса, произнесённые даже с самыми немыслимыми акцентами. Качество же распознавания для оффлайн-систем на приличном оборудовании — ещё на голову выше.
#8 | 12:50 14.12.2017 | Кому: luke
Опасне! Ведь уже:[censored] :)
fantomas
дурачок »
#9 | 14:21 14.12.2017 | Кому: oulenspiegel
> Не надо путать хрен с пальцем. Мобильный телефон — довольно тормозная железка,

Что ты имеешь ввиду - довольно тормозная? Ведь не про саму железку, правда? Если ты про онлайн, так кто в этом виноват, юзеры что-ли? Мы, юзеры делаем всё, что он нас хотят, например отдаем 25к за прокаченный Samsung 2017 года, садимся на 100-мегабитный интернет и ждем, что заработает распознавание речи. Но оно работает что-то не очень хорошо, иногда мне кажется, что моя кошка больше понимает, чем Ok-Google бот. А если ты про ещё какое-то распознавание, которое якобы где-то работает хорошо, то прости, камрад, нишевые разработки как-то не очень интересуют, да и есть большие сомнения, что они действительно работают, ибо если это было так, оно давно бы и на телефоне работало.

> Однако даже несмотря на это, скажем, Яндекс-такси на довольно приличном уровне распознаёт, скажем, адреса, произнесённые даже с самыми немыслимыми акцентами.


Распознавание адресов - частный случай, там задан контекст. Google, мать его, не справляется если идет смесь языков. На чистом русском бывает произносишь фразу, а это тупло начинает писать английский текст по типу

You look a more yeah!
Doo-bop sale only
Sly tired saved now
Doo-bop Tom

Или обратно: говоришь по английски, он тебе пишет русскими буквами. Я недавно купил себе smart watch (тоже за 25к), в надежде, что смогу голосом хотя бы будильник ставить (!), но это оказалось вообще полной шляпой, не работает практически ничего и никогда. Название данной конкретной шляпы - "S Voice".

> Качество же распознавания для оффлайн-систем на приличном оборудовании — ещё на голову выше.


Если это не доступно массово, считай что этого нет.
fantomas
дурачок »
#10 | 14:23 14.12.2017 | Кому: oulenspiegel
> Я не только пробую, но и занимаюсь эксплуатацией на практике решения для автоматизации работы оператора колл-центра, которое разработала моя команда.

Как же я ненавижу ботов в колл-центрах. Перед ними пальму первенства по идиотизму держали голосовые меню, но теперь их начали вытеснять еще более мудацкие голосовые боты. Они не просто тупые и ни хуя не понимают, дак еще и до опреатора не достучишься бывает сразу.
#11 | 14:54 14.12.2017 | Кому: fantomas
Да уж, тяжело вам живётся.
#12 | 14:56 14.12.2017 | Кому: fantomas
> Что ты имеешь ввиду - довольно тормозная? Ведь не про саму железку, правда?

Если у тебя быстрая железка, ты можешь использовать алгоритмы распознавания, которые обеспечивают более хорошее качество. Если у тебя процессор из мобильного телефона и требование распознавать речь в реальном времени, то качество будет, разумеется, хуже.

> моя кошка больше понимает


Мой совет — ты можешь много заработать на этой кошке!
fantomas
дурачок »
#13 | 15:59 14.12.2017 | Кому: oulenspiegel
> Да уж, тяжело вам живётся.

То есть, ты считаешь нормальным каждый раз заставлять слушать одну и ту же хуергу, которая отнимает у человека время и является АБСОЛЮТНО бесполезной? Или может нормально посадить бота говорить с человеком, и когда тот даёт команду "переключи на оператора" сообщать: "пожалуйста повторите"?
fantomas
дурачок »
#14 | 16:05 14.12.2017 | Кому: oulenspiegel
> Если у тебя быстрая железка, ты можешь использовать алгоритмы распознавания, которые обеспечивают более хорошее качество. Если у тебя процессор из мобильного телефона и требование распознавать речь в реальном времени, то качество будет, разумеется, хуже.

Моя железка работает на[censored] имеет 3ГБ RAM на борту, и это мой мобильный телефон. Достаточно ли быстро?
Как и где я эти алгоримты, обеспечивающие хорошее качество, могу использовать? И почему на этой моей железке (исходя из предположения, что она достаточно быстрая) сейчас вместо алгоритмов, обеспечиваюших хорошее качество, работает тупо говно?
#15 | 16:40 14.12.2017 | Кому: fantomas
Я считаю, что ты ничего не знаешь о тех системах, которые я разрабатываю.
Но зато недоволен, похоже, абсолютно всем в этом мире)
#16 | 16:43 14.12.2017 | Кому: fantomas
Достаточно быстро для чего? Я тебе объяснил — качество распознавания напрямую зависит от двух показателей — от мощности процессора и от времени на распознавание. При твоей железке для русского языка онлайн WER при распознавании будет в районе 18—20% на хорошей модели. На Xeon 2650 20-ядерном и при времени в 4 раза большем, чем время записи, WER будет в районе 4—5% на современной модели распознавания на основе рекуррентных сеток.
fantomas
дурачок »
#17 | 20:40 14.12.2017 | Кому: oulenspiegel
> Но зато недоволен, похоже, абсолютно всем в этом мире)

Не передергивай пожалуйста, я говорил о голосовых меню и голосовых ботах. Более того, я привел совершенно конкретные сценарии.

> Я считаю, что ты ничего не знаешь о тех системах, которые я разрабатываю.


Так ты эксплуатирешь или разрабатываешь? Или ты как раз из тех, кто устанавливает эти системы в колл-центры и поэтому тебе не комфортно продолжать обсуждать эту тему?

> Достаточно быстро для чего? Я тебе объяснил — качество распознавания напрямую зависит от двух показателей — от мощности процессора и от времени на распознавание. При твоей железке для русского языка онлайн WER при распознавании будет в районе 18—20% на хорошей модели. На Xeon 2650 20-ядерном и при времени в 4 раза большем, чем время записи, WER будет в районе 4—5% на современной модели распознавания на основе рекуррентных сеток.


Уже больше похоже на конкретику, поэтому конспектирую: то есть, лет через 10, когда мощность процессоров мобильного устройства стаенет сравнима с "Xeon 2650 20-ядерном", а ваши передовые технолгии станут доступны нам, обычным смертным, и мы сможем устанаваливать их из репозитария, вот тогда мы и сможем это оценить. Ничего не перепутал? Хорошо, подождем... [сел ждать]
Но ведь начал ты с чего:

> Давно умеет.


То есть, выходит, как если бы прогресс был, а тот же я его и не заметил, хотя стараюсь изо всех сил юзать голосовой ввод.

Обращаю внимание, что обычно потребителя не волнуют отдельные одноразовые достижения (доступные, как правило, за баснословные бабки и в виде особой привилегии) в областях, которые вообще-то должны на пользую людям работать. И ключевое слово тут - массово, и только тогда прогресс становится заметным за пределами лаборатории.
#18 | 01:37 15.12.2017 | Кому: fantomas
> я говорил о голосовых меню и голосовых ботах

Ай, да ладно. Успел уже выказать недовольство нейросетями, распознаванием речи вообще, голосовыми меню и голосовыми роботами.
Интересно было бы посмотреть на твои персональные достижения. Судя по пафосу, как минимум открыл новую Теорию относительности.

> Так ты эксплуатирешь или разрабатываешь?


Разрабатываю.

> репозитария


Репозитория. Не умничай.

> То есть, выходит, как если бы прогресс был


Прогресс есть. Потому что ещё 5 лет назад WER на том же Xeon 2650 был 30%.

> Обращаю внимание, что обычно потребителя не волнуют отдельные одноразовые достижения


[censored]
fantomas
дурачок »
#19 | 11:44 15.12.2017 | Кому: oulenspiegel
> Ай, да ладно. Успел уже выказать недовольство нейросетями, распознаванием речи вообще, голосовыми меню и голосовыми роботами.

Доступными массово, я тебе толкую который пост об этом.

> Интересно было бы посмотреть на твои персональные достижения. Судя по пафосу, как минимум открыл новую Теорию относительности.


А причем тут мои персональные достижения? У нас тема - искусственный интеллект и в сабже - что-то про анализ видео, и это всё конечно замечательно, вот только пока что всё это распознавание работает крайне хуево на моём телефоне, и на всех предыдущих тоже, и на смарт воч, и на компе, и читать боты текст не умеют. И почему у тебя это вызывает противление - большой вопрос.

> > репозитария

>
> Репозитория. Не умничай.

Еще и не начинал, но если хочешь - могу.

Если это слово заимствовано из английского, где оно звучит как /rɪˈpɒzɪtərɪ/, и где звук между t и r - безударный shwa, то, в зависимости от акцента, ты можешь читать его похожим на безударную "а", как первый гласный в слове молоко, или как короткую /ɜː/, и тогда она действительно больше похоже на "о", а вообще-то даже "ё".

Если же слово мы заимствуем из латинского repositorium, то должно быть только "о".

Иначе говоря, можно читать репозитарий или репозиторий - оба варианта будут подходящими.

> Прогресс есть. Потому что ещё 5 лет назад WER на том же Xeon 2650 был 30%.


Отлично! Теперь бы это всё нам, потребителям прочувствовать.
#20 | 13:54 15.12.2017 | Кому: fantomas
> Если это слово заимствовано из английского

В современно русском репозиторий — хранилище, место хранения (программ, объектов, метаданных и т. п.). Репозитарий — в основном, используется в отношении соответствующих инструментов финансового рынка. Вариант «репозитарий» в реальной языковой практике в ИТ-среде не встречается. Репозиторий — 993 000 результатов в google, репозитарий — 85 100, из них примерно 9/10 используется как банковский или медицинский термин.
Войдите или зарегистрируйтесь чтобы писать комментарии.