Комментарии

Аватар пользователя Wig
Wig(4 года 9 месяцев)

по каким именно параметрам?

Аватар пользователя Oleg78
Oleg78(7 лет 2 недели)

Желательно бесплатный. Для надиктовки статьи, например. 

Аватар пользователя Олег Киселев
Олег Киселев(10 лет 10 месяцев)

нет таких!

Был Яндекс апи бесплатно, но сейчас он только платный.

Бесплатные все заикаются и читают практически по слогам.

И уже достало когда закадровый текст на видеороликах роботом начитан, сразу ставлю дизлайк и выключаю и так тысячи людей делают.

Дешевле диктора найти под свои требования. Статью правильно прочитать в пару тысяч обойдётся.

Аватар пользователя stetson
stetson(11 лет 6 месяцев)

Дешевле диктора найти под свои требования.

Олег, вы просто очень невнимательный или пытаетесь рекламировать что-то свое?

Аватар пользователя Олег Киселев
Олег Киселев(10 лет 10 месяцев)

Раз Вы так считаете предложите свой Вариант бесплатный и программы с вменяемым качеством озвучки.

Люблю слушать аудиокниги и очень хотел найти программу для озвучки чтобы слушать различные научные статьи и журналы. И чтобы бесплатная и т.д. и т.п.

Так вот не нашёл приемлемого варианта. Были движки дигалоу для озвучивания, но там реально робот роботом с неправильным произношением.

Русский язык очень трудный для озвучки и нормальных бесплатных вариантов нет.

Аватар пользователя Wig
Wig(4 года 9 месяцев)

https://github.com/themanyone/whisper_dictation

https://github.com/speechbrain/speechbrain

https://github.com/tsmdt/whisply

https://github.com/NormVg/AutoCaptionGenAI

https://github.com/Picovoice/cheetah

https://github.com/Picovoice/leopard

https://github.com/HenestrosaDev/audiotext

Программ много, тестировать надо.
И компьютер нужен с видеокартой Nvidia,  чтобы было минимум 8 Мб видеопамяти

Аватар пользователя AVSm
AVSm(7 лет 3 дня)

Режим ясновидения надо включить?

Для какой ОС? Виндоуз, Андроид, Мак? Хранение локально или в облаке? Одного человека или группы людей (обсуждение)? Что сами пробовали?

Обзор "10 лучших программ для преобразования речи в текст" читали?

Аватар пользователя Oleg78
Oleg78(7 лет 2 недели)

Спасибо. Для windows. Впервые озаботился этой проблемой.

Аватар пользователя AVSm
AVSm(7 лет 3 дня)

Мой более чем скромный опыт показывает, что потом тратиться значительные усилия на вычитку и редактирование. И процесс приобретает бесконечный характер...

Я использовал программку для телефона - сильно подозреваю, что она на гугловском API. "Голосовой блокнот".

Аватар пользователя AVSm
AVSm(7 лет 3 дня)

Забыл добавить, что, например, мой знакомый много пользовался индийцами - посылая им диктофонные записи и получая транскрипты. Он был согласен на значительное удорожание ставки, только бы не поточные транскрипты (которые читались с неизменным хохотом)... Речь шла про английскую речь и англоязычные транскрипты.

Аватар пользователя AnTul
AnTul(3 года 8 месяцев)

Я давным-давно научился печатать вслепую и наслаждаюсь этим. Да, учиться очень скучно - нужно долбить и долбить все эти ОВАУВЫ, но зато когда научишься - пальцы сами по нужным клавишам долбят с дикой скоростью. Приятно, что при этом не нужно смотреть ни на клавиатуру, ни даже на экран. А решился я научиться потому что не нашёл ни одной нормальной программы, которая бы переводила речь в текст. Да, все нужно обучать, но даже когда обучишь - это ненормально. А потом я прочёл статью про компьютерное зрение и компьютерный слух. Там просто и доходчиво объяснялось, что компьютерное зрение нормальным не будет никогда - слишком большие объёмы информации нужно хранить, а потом ещё и обрабатывать. Если компьютеру показать ладонь и обучить его этому, то он в следующий раз её определит. Но! Только в том случае, если вы опять ему покажете ладонь в том же положении. Если немного повернёте и наклоните - он уже не поймёт что это (в то время не мог). Если согнёте один палец - тоже. То есть ему нужно тысячи ладоней показать в разных положениях, чтобы он мог определить. Но тогда повышается время обработки этих данных. И ладони могут быть женские, мужские, негритянские...

Со звуком вообще интересно. Оказывается, мы не говорим отдельными словами, мы издаём всё слитно, а мозг разбивает сплошной поток звуков на знакомые слова. До этой статьи я даже не знал этого и не задумывался. Компьютер так не умеет. Поэтому компьютеру нужно говорить каждое слово отдельно - то есть делать паузы. Понятно, что перед этим нужно его обучить. Но если вы охрипнете - то придётся учить заново. Так вот, даже если вы отлично обучили программу, не охрипли, у вас чуткий микрофон и мощный компьютер - всё равно речь в текст будет переводиться очень медленно. Из-за этих пауз. Любая секретарша, умеющая печатать даже 200 знаков в минуту, будет гораздо эффективнее всех этих систем (на то время, сейчас - не знаю). Так что лучше научитесь быстро печатать и купите себе эргономичную клавиатуру. Я так радовался, когда купил себе знаменитейшую Microsoft Ergonomic 4000 по большой скидке (всего за 3000 вместо 6500 - видимо распродавали остатки), и так удивился, когда через три года клавиши начали стираться, а некоторые почти перестали работать... Но сама клавиатура очень удобная - на ней сейчас печатаю. Руки лежат спокойно, не устают. Вот найдите что-нибудь эргономическое - и никаких распознаваний текста не нужно будет.

PS Может поэтому у меня комменты такие большие всегда - что мне печатать несложно?

Аватар пользователя Wig
Wig(4 года 9 месяцев)

У Вас устаревшие данные )

Что касается компьютерного зрения. Цифровое зрение это несколько другое явление, нежели биологическое.

Собственно все эти капчи от Гугла и Яндекса, которые сплошь и везде вынуждают разгадывать людей - это как раз таки идет халявное обучение онлайн нейронных сетей с компьютерным зрением. Просто людям это преподносится как защита от ботов. На самом деле капча от ботов не защитит, если кто-то заморочиться обойти вашу капчу. В интернете полно программ по обходу капчи.

Что же касается определения речи. Не имеет значения - какой у вас голос, для сети это несущественно, если ее обучали именно на распознавание речи в текст.

Она среди всего шума просто ищет слова (токены), которые у нее есть в базе данных.

А вот если обучали именно на распознавание голоса, то в таком случае тембр голоса конечно играет роль

Аватар пользователя Oleg78
Oleg78(7 лет 2 недели)

Тексты я печатаю. Уже 12 книг таким образом написал. Но иногда удобнее не писать, а говорить. И в то же время иметь текст для редактирования.

Аватар пользователя BQQ
BQQ(12 лет 10 месяцев)

Такое впечатление, что запрос написан несколько лет назад.

Распознавателей речи - полно, Гитхаб вполне удовлетворит.

Есть и системы с гуманными требованиями к железу.

============

искать на Гитхабе непосредственно и на paperswithcode.com.

Аватар пользователя Oleg78
Oleg78(7 лет 2 недели)

До этого не было необходимости.

Аватар пользователя Oleg78
Oleg78(7 лет 2 недели)

Всем спасибо!