Комментарии

Аватар пользователя Wig
Wig(3 года 7 месяцев)

по каким именно параметрам?

Аватар пользователя Oleg78
Oleg78(5 лет 10 месяцев)

Желательно бесплатный. Для надиктовки статьи, например. 

Аватар пользователя Олег Киселев
Олег Киселев(9 лет 8 месяцев)

нет таких!

Был Яндекс апи бесплатно, но сейчас он только платный.

Бесплатные все заикаются и читают практически по слогам.

И уже достало когда закадровый текст на видеороликах роботом начитан, сразу ставлю дизлайк и выключаю и так тысячи людей делают.

Дешевле диктора найти под свои требования. Статью правильно прочитать в пару тысяч обойдётся.

Аватар пользователя stetson
stetson(10 лет 4 месяца)

Дешевле диктора найти под свои требования.

Олег, вы просто очень невнимательный или пытаетесь рекламировать что-то свое?

Аватар пользователя Олег Киселев
Олег Киселев(9 лет 8 месяцев)

Раз Вы так считаете предложите свой Вариант бесплатный и программы с вменяемым качеством озвучки.

Люблю слушать аудиокниги и очень хотел найти программу для озвучки чтобы слушать различные научные статьи и журналы. И чтобы бесплатная и т.д. и т.п.

Так вот не нашёл приемлемого варианта. Были движки дигалоу для озвучивания, но там реально робот роботом с неправильным произношением.

Русский язык очень трудный для озвучки и нормальных бесплатных вариантов нет.

Аватар пользователя Wig
Wig(3 года 7 месяцев)

https://github.com/themanyone/whisper_dictation

https://github.com/speechbrain/speechbrain

https://github.com/tsmdt/whisply

https://github.com/NormVg/AutoCaptionGenAI

https://github.com/Picovoice/cheetah

https://github.com/Picovoice/leopard

https://github.com/HenestrosaDev/audiotext

Программ много, тестировать надо.
И компьютер нужен с видеокартой Nvidia,  чтобы было минимум 8 Мб видеопамяти

Аватар пользователя AVSm
AVSm(5 лет 10 месяцев)

Режим ясновидения надо включить?

Для какой ОС? Виндоуз, Андроид, Мак? Хранение локально или в облаке? Одного человека или группы людей (обсуждение)? Что сами пробовали?

Обзор "10 лучших программ для преобразования речи в текст" читали?

Аватар пользователя Oleg78
Oleg78(5 лет 10 месяцев)

Спасибо. Для windows. Впервые озаботился этой проблемой.

Аватар пользователя AVSm
AVSm(5 лет 10 месяцев)

Мой более чем скромный опыт показывает, что потом тратиться значительные усилия на вычитку и редактирование. И процесс приобретает бесконечный характер...

Я использовал программку для телефона - сильно подозреваю, что она на гугловском API. "Голосовой блокнот".

Аватар пользователя AVSm
AVSm(5 лет 10 месяцев)

Забыл добавить, что, например, мой знакомый много пользовался индийцами - посылая им диктофонные записи и получая транскрипты. Он был согласен на значительное удорожание ставки, только бы не поточные транскрипты (которые читались с неизменным хохотом)... Речь шла про английскую речь и англоязычные транскрипты.

Аватар пользователя AnTul
AnTul(2 года 7 месяцев)

Я давным-давно научился печатать вслепую и наслаждаюсь этим. Да, учиться очень скучно - нужно долбить и долбить все эти ОВАУВЫ, но зато когда научишься - пальцы сами по нужным клавишам долбят с дикой скоростью. Приятно, что при этом не нужно смотреть ни на клавиатуру, ни даже на экран. А решился я научиться потому что не нашёл ни одной нормальной программы, которая бы переводила речь в текст. Да, все нужно обучать, но даже когда обучишь - это ненормально. А потом я прочёл статью про компьютерное зрение и компьютерный слух. Там просто и доходчиво объяснялось, что компьютерное зрение нормальным не будет никогда - слишком большие объёмы информации нужно хранить, а потом ещё и обрабатывать. Если компьютеру показать ладонь и обучить его этому, то он в следующий раз её определит. Но! Только в том случае, если вы опять ему покажете ладонь в том же положении. Если немного повернёте и наклоните - он уже не поймёт что это (в то время не мог). Если согнёте один палец - тоже. То есть ему нужно тысячи ладоней показать в разных положениях, чтобы он мог определить. Но тогда повышается время обработки этих данных. И ладони могут быть женские, мужские, негритянские...

Со звуком вообще интересно. Оказывается, мы не говорим отдельными словами, мы издаём всё слитно, а мозг разбивает сплошной поток звуков на знакомые слова. До этой статьи я даже не знал этого и не задумывался. Компьютер так не умеет. Поэтому компьютеру нужно говорить каждое слово отдельно - то есть делать паузы. Понятно, что перед этим нужно его обучить. Но если вы охрипнете - то придётся учить заново. Так вот, даже если вы отлично обучили программу, не охрипли, у вас чуткий микрофон и мощный компьютер - всё равно речь в текст будет переводиться очень медленно. Из-за этих пауз. Любая секретарша, умеющая печатать даже 200 знаков в минуту, будет гораздо эффективнее всех этих систем (на то время, сейчас - не знаю). Так что лучше научитесь быстро печатать и купите себе эргономичную клавиатуру. Я так радовался, когда купил себе знаменитейшую Microsoft Ergonomic 4000 по большой скидке (всего за 3000 вместо 6500 - видимо распродавали остатки), и так удивился, когда через три года клавиши начали стираться, а некоторые почти перестали работать... Но сама клавиатура очень удобная - на ней сейчас печатаю. Руки лежат спокойно, не устают. Вот найдите что-нибудь эргономическое - и никаких распознаваний текста не нужно будет.

PS Может поэтому у меня комменты такие большие всегда - что мне печатать несложно?

Аватар пользователя Wig
Wig(3 года 7 месяцев)

У Вас устаревшие данные )

Что касается компьютерного зрения. Цифровое зрение это несколько другое явление, нежели биологическое.

Собственно все эти капчи от Гугла и Яндекса, которые сплошь и везде вынуждают разгадывать людей - это как раз таки идет халявное обучение онлайн нейронных сетей с компьютерным зрением. Просто людям это преподносится как защита от ботов. На самом деле капча от ботов не защитит, если кто-то заморочиться обойти вашу капчу. В интернете полно программ по обходу капчи.

Что же касается определения речи. Не имеет значения - какой у вас голос, для сети это несущественно, если ее обучали именно на распознавание речи в текст.

Она среди всего шума просто ищет слова (токены), которые у нее есть в базе данных.

А вот если обучали именно на распознавание голоса, то в таком случае тембр голоса конечно играет роль

Аватар пользователя Oleg78
Oleg78(5 лет 10 месяцев)

Тексты я печатаю. Уже 12 книг таким образом написал. Но иногда удобнее не писать, а говорить. И в то же время иметь текст для редактирования.

Аватар пользователя BQQ
BQQ(11 лет 8 месяцев)

Такое впечатление, что запрос написан несколько лет назад.

Распознавателей речи - полно, Гитхаб вполне удовлетворит.

Есть и системы с гуманными требованиями к железу.

============

искать на Гитхабе непосредственно и на paperswithcode.com.

Аватар пользователя Oleg78
Oleg78(5 лет 10 месяцев)

До этого не было необходимости.

Аватар пользователя Oleg78
Oleg78(5 лет 10 месяцев)

Всем спасибо!