Решил описать интересный опыт и сделать эксперимент по использованию Yandex SpeechKit, который в скором времени 100% заполонит весь Youtube.
В чем суть появившейся ранее идеи в умах огромного количества предприимчивых людей?
Идея простая - используем удобный инструмент от Яндекса для озвучивания текста, добавляем фото или скринкаст и заливаем всё на Youtube. Просмотры идут, деньги капают.
Ссылка на демо с возможностью скачивать звуковые файлы - Yandex Speech Kit Demo.
В общем, много мозгов не нужно, чтобы сделать такой ролик. Яндекс SpeechKit позволяет озвучивать и скачивать сразу озвученные файлы в формате .ogg. Ограничение на длину строки 5000 символов, что более чем нужно, если вы хотите сделать новостной канал с короткими роликами.
Процесс создания ролика довольно простой.
- Пишем или где-то берем текст новости
- Копируем текст в демо Яндекс Speech Kit жмем "Синтезировать речь"
- Скачиваем звуковой файл
- Конвертируем файл онлайн в .wav
- Записываем экран компьютера (скринкаст)
- В программе Windows Movie Maker делаем ролик из звукового файла и скринкаста
- Заливаем видео на Youtube
Это вкратце.
Какие были дополнительные нюансы по процессу?
Мне нужно было сделать интро перед роликом. Т.к. я не видео-аниматор и не видео-монтажер, то пошел простым путем - создал через html и css анимацию для лого и записал её через скринкастинг.
После чего обрезал в Windows Movie Maker и наложил звук для интро, который был бесплатно скачан с какого-то онлайн сервиса.
Саму анимацию я запилил сначала на codepen.io:
Также возникала сложность с интонацией во время записи текста. У Искусственного Интеллекта Яндекса три настроения:
- радостный
- раздраженный
- нейтральный
Кроме того у него доступно 8 дикторов - 5 женских голосов и 3 мужских.
Стоит оговориться, что некоторые дикторы изначально не под русский язык. Мне подошел Филипп для новостей, а вот, например, если у вас медицинский сайт, то вам лучше использовать диктора "Ермил" и настроение "нейтральный".
Также пришлось повозиться с ударениями и вопросительными предложениями. Для передачи слов-омографов, нужно использовать "+" перед ударной гласной, например, "з+амок" или "зам+ок".
Чтобы отметить паузу между словами используйте "-".
Интересно, что после того как я разместил свой экспериментальный ролик мне Google в Youtube подсунул в рекомендациях канал "News of Stars" (это не реклама, это по теме), который делает всё так как я описал выше, но вообще не заморачивается с ударениями и интонацией.
К тому же даже для грустных новостей они используют диктора "Филипп" с настроением "радостный". На многих видео использован голос Элис от Яндекс SpeechKit.
При этом они скорость озвучки оставляли 1.0x, а я подбирал более реальную либо 1.2x либо 1.3x. Здесь нужно отталкиваться от текста.
Так как я делал всё с нуля, то на всё про всё ушел где-то один вечер, а итог вы можете посмотреть в самом начале статьи. При конвейерном подходе можно делать легко 2-3 видео в день и при этом бесплатно, как это делает канал, который я привел в пример.
Можно ли на этом заработать? У канала "News of Stars" более 42000 подписчиков, и это при том, что они используют озвучку через Яндекс и наверняка используют чужие тексты и фото.
Думаю, что при дальнейшем развитии ИИ и доступности таких инструментов как SpeechKit в ближайшем будущем подобные "видео" заполонят весь интернет.