В пену

Нейросеть научилась озвучивать немые видеоролики

22century.ru — Исследователи из Университета Северной Каролины в Чапел-Хилл и из Adobe Research обучили рекуррентную нейронную сеть генерировать звук по видеоряду.

Новости, Компьютеры | yatsutko 15:00 13.12.2017

10 комментариев | 30 за, 1 против |

oulenspiegel »

#1 | 20:45 13.12.2017 | Кому: fantomas

Давно умеет. См.:[censored]

oulenspiegel »

#2 | 12:46 14.12.2017 | Кому: fantomas

Я не только пробую, но и занимаюсь эксплуатацией на практике решения для автоматизации работы оператора колл-центра, которое разработала моя команда.

oulenspiegel »

#3 | 12:48 14.12.2017 | Кому: fantomas

Не надо путать хрен с пальцем. Мобильный телефон — довольно тормозная железка, и распознавание в реальном времени заметно хуже, чем в онлайне. Однако даже несмотря на это, скажем, Яндекс-такси на довольно приличном уровне распознаёт, скажем, адреса, произнесённые даже с самыми немыслимыми акцентами. Качество же распознавания для оффлайн-систем на приличном оборудовании — ещё на голову выше.

oulenspiegel »

#4 | 12:50 14.12.2017 | Кому: luke

Опасне! Ведь уже:[censored] :)

oulenspiegel »

#5 | 14:54 14.12.2017 | Кому: fantomas

Да уж, тяжело вам живётся.

oulenspiegel »

#6 | 14:56 14.12.2017 | Кому: fantomas

> Что ты имеешь ввиду - довольно тормозная? Ведь не про саму железку, правда?

Если у тебя быстрая железка, ты можешь использовать алгоритмы распознавания, которые обеспечивают более хорошее качество. Если у тебя процессор из мобильного телефона и требование распознавать речь в реальном времени, то качество будет, разумеется, хуже.

> моя кошка больше понимает

Мой совет — ты можешь много заработать на этой кошке!

oulenspiegel »

#7 | 16:40 14.12.2017 | Кому: fantomas

Я считаю, что ты ничего не знаешь о тех системах, которые я разрабатываю.
Но зато недоволен, похоже, абсолютно всем в этом мире)

oulenspiegel »

#8 | 16:43 14.12.2017 | Кому: fantomas

Достаточно быстро для чего? Я тебе объяснил — качество распознавания напрямую зависит от двух показателей — от мощности процессора и от времени на распознавание. При твоей железке для русского языка онлайн WER при распознавании будет в районе 18—20% на хорошей модели. На Xeon 2650 20-ядерном и при времени в 4 раза большем, чем время записи, WER будет в районе 4—5% на современной модели распознавания на основе рекуррентных сеток.

oulenspiegel »

#9 | 01:37 15.12.2017 | Кому: fantomas

> я говорил о голосовых меню и голосовых ботах

Ай, да ладно. Успел уже выказать недовольство нейросетями, распознаванием речи вообще, голосовыми меню и голосовыми роботами.
Интересно было бы посмотреть на твои персональные достижения. Судя по пафосу, как минимум открыл новую Теорию относительности.

> Так ты эксплуатирешь или разрабатываешь?

Разрабатываю.

> репозитария

Репозитория. Не умничай.

> То есть, выходит, как если бы прогресс был

Прогресс есть. Потому что ещё 5 лет назад WER на том же Xeon 2650 был 30%.

> Обращаю внимание, что обычно потребителя не волнуют отдельные одноразовые достижения

[censored]

oulenspiegel »

#10 | 13:54 15.12.2017 | Кому: fantomas

> Если это слово заимствовано из английского

В современно русском репозиторий — хранилище, место хранения (программ, объектов, метаданных и т. п.). Репозитарий — в основном, используется в отношении соответствующих инструментов финансового рынка. Вариант «репозитарий» в реальной языковой практике в ИТ-среде не встречается. Репозиторий — 993 000 результатов в google, репозитарий — 85 100, из них примерно 9/10 используется как банковский или медицинский термин.

Войдите или зарегистрируйтесь чтобы писать комментарии.

Логин
Пароль
	Запомнить