Что за программа?
Вы наверняка слышали про различные нейросети. Нейросети - это компьютерные программы, которые умеют обрабатывать большой объем данных и обучаться. Речь пойдет про нейросеть для имитации голоса и как ее можно применить в нашем сервисе.
Самая доступная программа на сегодняшний день, которую нам удалось найти, называется RVC-GUI. Архив программы доступен по ссылке: disk.yandex.ru/d/CfscmCw0C5yWHw
1) Скачиваем и распаковываем архив.
2) Открываем папку и запускаем START.bat.
3) Если все хорошо, то откроется интерфейс программы.
Для работы программы потребуются модели. Модели - это предварительно обученные настройки голоса для программы. Программа поддерживает RVC и RVC2 модели.
Где найти модели?
Модели можно найти на huggingface.co и в сообществе Discord discord.com/invite/aihub
Нам больше всего нравится портал www.weights.gg/ru для поиска моделей.
На нем тысячи готовых моделей и удобный поиск.
Модель Сергея Бурунова:
www.weights.gg/ru/ models/clt2ta1o5000g10qo3ra64jjx
Модель Кроша из Смешариков:
www.weights.gg/ru/ models/clm72ydf0167qcctchp5j5s41
Модель Анатолия Папанова:
www.weights.gg/ru/ models/clshtiakk001cpxps4ebnxpcu
Нажимаем три точки (дополнительные действия) и скачиваем модель.
В самой программе RVC-GUI, нажимаем Импортировать модель в .zip и указываем путь до скаченной модели. После успешного импорта, модели можно выбрать.
Примеры роликов
Для примера, мы обработали аудиофайл указанными выше моделями. Вот, что получилось:
Бурунов
Крош
Папанов
Выбираем аудиоролик для обработки и модель. После обработки, можно открыть сгенерированный ролик.
Вся генерация занимаем считанные секунды, если в ПК есть видеокарта (GPU).
В качестве метода, рекомендуем указывать harvest или crepe.
Тон выбираем в зависимости от модели голоса. Если голос низкий, то указываем более низкий тон. Для Папанова мы указывали -10 тон, для Бурунова -5. Для высокого, как у Кроша, соответственно выше: +7.
Применение нейросети
Нейросети все активнее используются и помогают решать многие задачи. Эту программу можно использовать для создания роликов в нашем сервисе. Можно записать свой голос на диктофон и переделать ролик так, что он будет звучать не хуже, чем записанный у профессионального диктора.
Многие могут считать, что использование нейросетей для создания аудио может заменить настоящее творчество и может иметь негативные последствия для музыкантов, актеров озвучивания и других профессионалов.
Конечно мы против злоупотреблений. В нашем сервисе нельзя использовать голоса политиков, делать аудиоролики обработанные нейросетью для розыгрышей или для того, чтобы ввести в заблуждение получателей звонков.