В интервью с RT Алексей Маркелов, директор центра компетенций ИИ в АНО «Цифровые платформы», рассказал, что современные ИИ-модели могут создавать эмоциональную речь двумя способами.
- Во-первых, как отметил специалист, возможно использование донорского образца. Даже короткий промежуток вашего голоса, на протяжении 10—15 секунд, записанный в стрессовой ситуации, например, из соцсетей, может быть использован злоумышленником для переноса эмоциональной окраски на другой текст. По словам Маркелова, такая методика может дать результат в виде записи с характерными дрожью, срывами и учащённым дыханием.
- Второй способ включает использование генеративных моделей, которые не нуждаются в донорских записях. Эти модели анализируют текстовые метки эмоций, и злоумышленник может задать, например, команду наподобие «плач, истерика, шёпот», чтобы искусственный интеллект попробовал исполнить это на основе имеющихся обучающих данных.
Тем не менее, Маркелов уточняет, что более экстремальные эмоциональные состояния увеличивают вероятность создания искусственного или искажённого голоса.
Поэтому профессиональные злоумышленники предпочитают использовать образцы голоса жертвы, чтобы добиться максимального качества.
Эксперт также дал рекомендации на случай подозрительных звонков: стоит потребовать от звонящего произнести «стоп-фразу», заранее согласованную строку, известную обеим сторонам. В дополнение, рекомендуется перезвонить на проверенный номер для безопасности.
В предыдущем заявлении IT-специалист Владимир Зыков объяснил, какие домены чаще всего используются мошенниками.