22century.ru Исследователи из Университета Северной Каролины в Чапел-Хилл и из Adobe Research обучили рекуррентную нейронную сеть генерировать звук по видеоряду.
Ага. Ты сам попробуй это распознавание для начала. Небось телефон под рукой? Okay Goolge, и откроется много интересного - из Real Life, а не из статеек в интернете.
Не надо путать хрен с пальцем. Мобильный телефон — довольно тормозная железка, и распознавание в реальном времени заметно хуже, чем в онлайне. Однако даже несмотря на это, скажем, Яндекс-такси на довольно приличном уровне распознаёт, скажем, адреса, произнесённые даже с самыми немыслимыми акцентами. Качество же распознавания для оффлайн-систем на приличном оборудовании — ещё на голову выше.
> Не надо путать хрен с пальцем. Мобильный телефон — довольно тормозная железка,
Что ты имеешь ввиду - довольно тормозная? Ведь не про саму железку, правда? Если ты про онлайн, так кто в этом виноват, юзеры что-ли? Мы, юзеры делаем всё, что он нас хотят, например отдаем 25к за прокаченный Samsung 2017 года, садимся на 100-мегабитный интернет и ждем, что заработает распознавание речи. Но оно работает что-то не очень хорошо, иногда мне кажется, что моя кошка больше понимает, чем Ok-Google бот. А если ты про ещё какое-то распознавание, которое якобы где-то работает хорошо, то прости, камрад, нишевые разработки как-то не очень интересуют, да и есть большие сомнения, что они действительно работают, ибо если это было так, оно давно бы и на телефоне работало.
> Однако даже несмотря на это, скажем, Яндекс-такси на довольно приличном уровне распознаёт, скажем, адреса, произнесённые даже с самыми немыслимыми акцентами.
Распознавание адресов - частный случай, там задан контекст. Google, мать его, не справляется если идет смесь языков. На чистом русском бывает произносишь фразу, а это тупло начинает писать английский текст по типу
You look a more yeah!
Doo-bop sale only
Sly tired saved now
Doo-bop Tom
Или обратно: говоришь по английски, он тебе пишет русскими буквами. Я недавно купил себе smart watch (тоже за 25к), в надежде, что смогу голосом хотя бы будильник ставить (!), но это оказалось вообще полной шляпой, не работает практически ничего и никогда. Название данной конкретной шляпы - "S Voice".
> Качество же распознавания для оффлайн-систем на приличном оборудовании — ещё на голову выше.
Если это не доступно массово, считай что этого нет.
> Я не только пробую, но и занимаюсь эксплуатацией на практике решения для автоматизации работы оператора колл-центра, которое разработала моя команда.
Как же я ненавижу ботов в колл-центрах. Перед ними пальму первенства по идиотизму держали голосовые меню, но теперь их начали вытеснять еще более мудацкие голосовые боты. Они не просто тупые и ни хуя не понимают, дак еще и до опреатора не достучишься бывает сразу.
> Что ты имеешь ввиду - довольно тормозная? Ведь не про саму железку, правда?
Если у тебя быстрая железка, ты можешь использовать алгоритмы распознавания, которые обеспечивают более хорошее качество. Если у тебя процессор из мобильного телефона и требование распознавать речь в реальном времени, то качество будет, разумеется, хуже.
> моя кошка больше понимает
Мой совет — ты можешь много заработать на этой кошке!
То есть, ты считаешь нормальным каждый раз заставлять слушать одну и ту же хуергу, которая отнимает у человека время и является АБСОЛЮТНО бесполезной? Или может нормально посадить бота говорить с человеком, и когда тот даёт команду "переключи на оператора" сообщать: "пожалуйста повторите"?
> Если у тебя быстрая железка, ты можешь использовать алгоритмы распознавания, которые обеспечивают более хорошее качество. Если у тебя процессор из мобильного телефона и требование распознавать речь в реальном времени, то качество будет, разумеется, хуже.
Моя железка работает на[censored] имеет 3ГБ RAM на борту, и это мой мобильный телефон. Достаточно ли быстро?
Как и где я эти алгоримты, обеспечивающие хорошее качество, могу использовать? И почему на этой моей железке (исходя из предположения, что она достаточно быстрая) сейчас вместо алгоритмов, обеспечиваюших хорошее качество, работает тупо говно?
Достаточно быстро для чего? Я тебе объяснил — качество распознавания напрямую зависит от двух показателей — от мощности процессора и от времени на распознавание. При твоей железке для русского языка онлайн WER при распознавании будет в районе 18—20% на хорошей модели. На Xeon 2650 20-ядерном и при времени в 4 раза большем, чем время записи, WER будет в районе 4—5% на современной модели распознавания на основе рекуррентных сеток.
> Но зато недоволен, похоже, абсолютно всем в этом мире)
Не передергивай пожалуйста, я говорил о голосовых меню и голосовых ботах. Более того, я привел совершенно конкретные сценарии.
> Я считаю, что ты ничего не знаешь о тех системах, которые я разрабатываю.
Так ты эксплуатирешь или разрабатываешь? Или ты как раз из тех, кто устанавливает эти системы в колл-центры и поэтому тебе не комфортно продолжать обсуждать эту тему?
> Достаточно быстро для чего? Я тебе объяснил — качество распознавания напрямую зависит от двух показателей — от мощности процессора и от времени на распознавание. При твоей железке для русского языка онлайн WER при распознавании будет в районе 18—20% на хорошей модели. На Xeon 2650 20-ядерном и при времени в 4 раза большем, чем время записи, WER будет в районе 4—5% на современной модели распознавания на основе рекуррентных сеток.
Уже больше похоже на конкретику, поэтому конспектирую: то есть, лет через 10, когда мощность процессоров мобильного устройства стаенет сравнима с "Xeon 2650 20-ядерном", а ваши передовые технолгии станут доступны нам, обычным смертным, и мы сможем устанаваливать их из репозитария, вот тогда мы и сможем это оценить. Ничего не перепутал? Хорошо, подождем... [сел ждать]
Но ведь начал ты с чего:
> Давно умеет.
То есть, выходит, как если бы прогресс был, а тот же я его и не заметил, хотя стараюсь изо всех сил юзать голосовой ввод.
Обращаю внимание, что обычно потребителя не волнуют отдельные одноразовые достижения (доступные, как правило, за баснословные бабки и в виде особой привилегии) в областях, которые вообще-то должны на пользую людям работать. И ключевое слово тут - массово, и только тогда прогресс становится заметным за пределами лаборатории.
Ай, да ладно. Успел уже выказать недовольство нейросетями, распознаванием речи вообще, голосовыми меню и голосовыми роботами.
Интересно было бы посмотреть на твои персональные достижения. Судя по пафосу, как минимум открыл новую Теорию относительности.
> Так ты эксплуатирешь или разрабатываешь?
Разрабатываю.
> репозитария
Репозитория. Не умничай.
> То есть, выходит, как если бы прогресс был
Прогресс есть. Потому что ещё 5 лет назад WER на том же Xeon 2650 был 30%.
> Обращаю внимание, что обычно потребителя не волнуют отдельные одноразовые достижения
> Ай, да ладно. Успел уже выказать недовольство нейросетями, распознаванием речи вообще, голосовыми меню и голосовыми роботами.
Доступными массово, я тебе толкую который пост об этом.
> Интересно было бы посмотреть на твои персональные достижения. Судя по пафосу, как минимум открыл новую Теорию относительности.
А причем тут мои персональные достижения? У нас тема - искусственный интеллект и в сабже - что-то про анализ видео, и это всё конечно замечательно, вот только пока что всё это распознавание работает крайне хуево на моём телефоне, и на всех предыдущих тоже, и на смарт воч, и на компе, и читать боты текст не умеют. И почему у тебя это вызывает противление - большой вопрос.
> > репозитария > > Репозитория. Не умничай.
Еще и не начинал, но если хочешь - могу.
Если это слово заимствовано из английского, где оно звучит как /rɪˈpɒzɪtərɪ/, и где звук между t и r - безударный shwa, то, в зависимости от акцента, ты можешь читать его похожим на безударную "а", как первый гласный в слове молоко, или как короткую /ɜː/, и тогда она действительно больше похоже на "о", а вообще-то даже "ё".
Если же слово мы заимствуем из латинского repositorium, то должно быть только "о".
Иначе говоря, можно читать репозитарий или репозиторий - оба варианта будут подходящими.
> Прогресс есть. Потому что ещё 5 лет назад WER на том же Xeon 2650 был 30%.
Отлично! Теперь бы это всё нам, потребителям прочувствовать.
В современно русском репозиторий — хранилище, место хранения (программ, объектов, метаданных и т. п.). Репозитарий — в основном, используется в отношении соответствующих инструментов финансового рынка. Вариант «репозитарий» в реальной языковой практике в ИТ-среде не встречается. Репозиторий — 993 000 результатов в google, репозитарий — 85 100, из них примерно 9/10 используется как банковский или медицинский термин.