뉴우스

더 이상 인터넷으로 영상도 진실로 못 믿는 시대

라면군 2024. 2. 6. 00:27
   

 

https://m.news1.kr/articles/?5311994#_enliple

 

굉장히 인류 (사기)역사에 또 한 흭을 긋는 일이 일어났습니다.

 

 

 

 사건 내용은 위와 같은데.

내용을 요약하고 제가 어떻게 이러한 사기를 쳤는지 대충 분석을 해 보자면 다음과 같습니다.

 대기업 본사가 있으면 해외에 막 지사를 박아 둘 것 아닙니까. 그러면 또 그 지사에 자기들 입맛대로 고급 인력을 박아 두겠죠? 그러면 본사 경영부하고 지사 현지 경영진하고 항상 회의를 하고 업무지시를 하고 할 것 아닙니까.

 

 여기서 사기 집단이(이정도 스케일이면 집단으로 가정하겠습니다.) 평소에 본사에서 재무관련 지시 받는 해외 지사 직원과 그 본사에서 지시를 내리는 사람들의 프로필을 다 파악을 한 다음 그 사람들의 실시간 AI 얼굴 영상과 음성 합성을 해 가지고 그 사람과 1:다수 화상 회의를 하면서 속여 넘겨가지고 자금 이체 지시를 해서 340억원을 송금시켰다 아닙니까. 

 

이걸 한국 식으로 다시 알기 쉽게 말하자면 한국 대기업 어디 중국 지사 ㅇㅇ부장이 있는데 

ㅇㅇ부장이 평소에 본사에서 △임원 □임원 임원에게 업무 지시를 받는단 말입니다.

근데 어느날 부사장 메일주소로 발송된 메일에서 비밀 회의가 있으니 참석 준비하라고 메일이 왔단 말입니다.

그 뒤에 회의 초대되서 들어가보니 평소 업무지시를 받던  △임원  □임원   임원과 부사장 전부 4:1로 실시간 회의를 했고 송금 지시를 받아서 송금했더니 전부 짜가였다... 란 결말입니다.

 

 자 이건 제가 대충 분석해 보겠습니다.

 

 이건 우선 그 회사가 서드파티 화상을 써왔거나 자체 화상회의 프로그램을 썼다면 아예 보안이 애초에 다 뚫린겁니다. 애초에 이건 특정인을 노린 계획 범죄입니다. 즉 퍼시젼 타겟 사기란 말이죠. 우선 그 지사에서 항상 돈을 누가 송금하라는 본사의 지시를 받는지부터 알아야하고, 둘째로 그 사람이 그러한 지시를 받을때 어떤 상황에서 어떤 회의에 참가하고 또한 그 회의에서 그런 명령을 내리는 사람들의 리스트를 전부 알아야만 가능한 사기입니다.

 

즉 뭐다? 짧으면 1개월 길면 1년 이상 그러한 인간과 업무 관계도를 알기 위해 그 지사와 본사에서 오가는 모든 화상 통신을 일일히 감시하고 있었단 말이 됩니다. 자체 SSL 연결같은 보안 연결과 화상채팅을 썼다면 그냥 그 보안이 전부 뚫렸다는 말이 되고 서드파티 화상채팅을 썼다면 그건 뭐 솔직히 자업자득으로 생각되네요.

 한국도 알 만한 사람은 다 알지 않습니까? 코로나 우한폐렴때 저도 대학에서 원격강의 한다고 하면 무조건 중국의 그 화상채팅 프로그램을 썼습니다. 그 채팅앱 전세계에 화상채팅 무료로 푼다고 해서 점유율 쫙 깔리고 한국도 무료니깐 너도나도 다 썼는데 저는 쓰면서도 좀 찜찜하더군요. 제가 찍기로는 아마 이거 썼을지 않을까 싶습니다.

 

그리고 이미 유투브에서 한번씩 봐서 알 만한 사람은 다 알겠지만 사람 얼굴이 나온 사진 하나 가지고 AI학습 시켜서 얼굴을 위 아래 좌우로 돌리는 영상을 출력하는 결과물을 보여주는 동영상도 한번 히트를 쳤었고 음성 입력을 넣으면 그 합성 얼굴의 입이 음성 보이스에 맞춰서 말할때마다 자음 모음에 맞게 자연스럽게 벌어져서 말하는 입을 만들어준 것도 나온지 한참 되었습니다. 그것뿐만이 아니고 일정 음성 샘플 가지고 목소리 합성하는 AI코드도 여러개 무료로 풀린지 꽤 되었습니다. 아 여기서는 한국어 측면에서 좀 안심해도 되겠네요. 전부 영어 특화 전용이라 보컬로이드에 환장하는 일본과 중국에서 자기들 언어 발음으로 음성 합성하는 오픈코드 프로젝트는 제가 각각 한두개씩은 봤었는데 한국어는 제가 단 한번도 본 적이 없습니다. 다시 본론으로 돌아와서, 이 얼굴합성은 지금까지 나온게 한 사각형 영상에서 한명과 그 한명의 합성 얼굴이 말하는 대로 입모양을 자연스럽게 만들어주는것 밖에 못합니다. 즉 다시 말해서 한 화면에 두명 이상 나오고 그러지는 않을 것 같다는 말이죠. 그 중국 화상 채팅앱도 다수 화상채팅이 보통 한 화면에 체크보드 형식으로 여러명 얼굴이 동시에 나오는 식이니 이 사기꾼들도 그렇게 했을것 같습니다.

 

 이제 제가 지금 어떻게 했을까 생각해보면 생각나는 방식이 두 가지가 있습니다.

 

첫번째는 각 임원 얼굴을 위 방식으로 실시간 합성 얼굴 모델을 만든 다음 대화 흐름 시나리오를 다 짜놓고 어떠한 대사를 말할지 전부 정해놓은 다음 타겟 피해자를 초대하고 그 흐름대로 임원들끼리 대화를 나누며 시간을 때우다 마지막으로 송금 지시 내리고 돌발 상황이 나올 시 대기하고 있다가 타이핑으로 빠르게 합성 음성을 영상 모델을 통해 내보내기. 

 

이건 당연히 제가 위에서 말한 길면 일년동안 오간 화상영상을 전부 훔쳐보면서 무슨 말을 하는지 전부 훔쳐봤으니 충분히 가능한 시나리오입니다.

 

둘째는 각 합성 얼굴 모델만 만들어놓고 각각의 인물 연기는 사기집단의 각 사기범이 행동하고 움직이며 그 모델을 움직이는 방식. 이거 버츄얼 유투버라고 버튜버라고 부르는거 아실분은 아시겠는데 기존에 웹캠을 통해 사람 영상이 동영상으로 전송되었다면 버튜버 방식은 배경에서 사람만 AI로 인식해서 지우고 그 자리에 보통 2D 캐릭터 끼워넣고 그 그림 상판떼기 표정만 자동 또는 수동으로 바꾸는 방식입니다. 이러한 방식에서 AI로 합성한 리얼리스틱 얼굴 모델만 끼워넣는다면 충분히 그렇게 할 수 있습니다.그리고 보이스 체인져라고 내가 말하는 음성을 실시간으로 괴물 목소리나 헬륨가스 마신 목소리 또는 남자 여자 웃긴 목소리로 바꿔주는 프로그램이 이미 몇십년 전부터 있었는데 여기서 그냥 이미 AI 음성 모델 생성한걸 거기다 끼워넣어서 사기범이 말하는 목소리를 실시간으로 그 임원 목소리로 송출하는것도 충분히 가능하다고 생각합니다.

 

 아마 크게 위 둘 중 하나겠죠. 그리고 기사에서 보면 이거 한번에 한탕 털어먹고 런한게 아니고 일단 완전히 속여 넘긴 후 지속적으로 접촉하며 계속 화상채팅 걸면서 15번이나 송금지시를 할 만큼 장기간 계속 영상을 걸면서 돈을 빼갔다?이건 뭐냐면 본사에서 얼마 주기로 이런 연락이 오는지도 전부 파악을 한 뒤에 그 공백기가 가장 길 타이밍에 빠르게 들어가서 작업친거고 사전에 340억이란 돈을 받고도 미리 의심받지 않을 만한 차명계좌와 돈 세탁 방법까지 다 준비를 해 놓은겁니다. 뭐 송금지시하는데 개인 계좌로 쏠것같진 않고 아마 무슨 사장 계좌와 가라 법인 계좌까지 다 준비를 해 놨을것 같습니다. 즉 다시 말해서 애초에 사전에 준비를 전부 다 했을것으로 생각됩니다.

 

 

결국 이 사건이 말하는게 뭐냐면 이제는 인터넷, 즉 다시 말해서 디지털로 이루어진 것은 영상이라고 해도 믿을수가 없는 영역에 진입했다는것입니다.

 

 옛날 같으면(모뎀~IDSL인지 ADSL시절) 디지털 사진도 중요한 증거로 쳤었고 인터넷에서도 신빙성 높은 증거로 쳤었지만 포토샵이 발매가 된 이후로는 그때부터 보정하고 진짜 같은 합성이 딱 유행을 타며 더 이상 인터넷에 사진 이미지 하나로는 더 이상 사람들이 안 믿는 시대가 되었죠?  이제 그 부분이 영상까지 넘어오는 시대가 되었다는 말입니다.

 

사기란 것이 언제나 대부분의 모든 것이 이익-손해 관계를 따르듯 사기를 치는가 마는가는 사기를 치는데 들어가는 비용과 성공확율 그리고 이익에 따라 결정이 되는데 이제 이미지와 영상 음성 부분에서의 AI 기술의 발달로 이 부분에서 들어가는 비용이 확 낮아져서 예전 같으면 사기를 치는 시도를 하지 않았을 영역도 이제 사기를 친다는 말입니다.생각해보면 사실 AI가 없더라도 이 일은 임원 각각 배우 불러다 앉혀놓고 성형시키고 목소리 흉내만 내도 가능한 범죄입니다. 미국 같은 경우 이미 법정에서 디지털 영상이 증거물로 제출되면 그 제출측의 변호인이나 그 증거물을 검사한 검사관을 불러놓고 디지털 영상의 정의, 디지털의 정의, 그리고 제출된 증거물의 단 하나의 비트(1bit)도 바꾸었는가를 전부 읊게 만들고 시작합니다.  그러한 기조 속에서 일어난 이번 일은 어쩌면 앞으로 디지털의 모든 것을 믿지 못하게 되는 시발점이 될 수도 있다고 생각한다는 말을 드리며 이번 글은 여기서 마치겠습니다.