기본 콘텐츠로 건너 뛰기
실험실에서 테이블 표면에 두 개의 고양이 장난감의 2 장. 왼쪽 네이버 룰렛에서 두 고양이 모두 초점을 맞추고 있습니다.
단일 이미지보기 합성 프로세스를 사용하여 리 리포토그인 이미지를 생성 할 수도 있습니다 (위와 같이). |Nima Kalantari의 제공

매일 수십억 장의 네이버 룰렛과 비디오가 다양한 소셜 미디어 응용 프로그램에 게시됩니다. 스마트 폰이나 디지털 카메라에서 찍은 표준 이미지의 문제점은 특정 관점에서 장면 만 캡처한다는 것입니다.

프로세스를보다 쉽게하기 위해 Texas A & M University의 컴퓨터 과학 및 공학과 교수 인 Nima Kalantari 박사와 대학원생 Qinbo Li는 사용자가 단일 사진을 찍고 장면의 네이버 룰렛 견해를 생성하기 위해이를 사용할 수있는 기계 학습 기반 접근법을 개발했습니다.

41714_42027

그들의 작품에 대한 자세한 내용은 저널에 게시되었습니다그래픽에서 컴퓨팅 네이버 룰렛 거래 협회.

뷰 합성은 주어진 관점에서 찍은 이미지를 사용하여 물체 또는 장면의 네이버 룰렛 뷰를 생성하는 과정입니다. 네이버 룰렛보기 이미지를 만들려면 장면의 객체 사이의 거리와 관련된 정보는 장면 내 다른 지점에 배치 된 가상 카메라에서 찍은 합성 사진을 만드는 데 사용됩니다.

지난 수십 년 동안 이러한 네이버 룰렛 뷰 이미지를 합성하기 위해 몇 가지 접근 방식이 개발되었지만 많은 접근 방식이 특정 구성 및 하드웨어와 동시에 동시에 동일한 장면의 여러 사진을 수동으로 캡처해야합니다. 그러나 이러한 접근법은 단일 입력 이미지에서 네이버 룰렛 뷰 이미지를 생성하도록 설계되지 않았습니다.

43140_43613

최근의 딥 러닝이 증가함에 따라 인공 신경망이 복잡한 문제를 해결하기 위해 많은 양의 데이터에서 배우는 기계 학습의 하위 필드 인 단일 이미지보기 합성 문제는 상당한 관심을 끌었습니다. 이 네이버 룰렛법은 사용자가 더 액세스 할 수 있음에도 불구하고 장면에서 객체의 위치를 ​​추정하기에 충분한 정보가 없기 때문에 시스템이 처리하기가 어려운 응용 프로그램입니다..

단일 입력 이미지를 기반으로 네이버 룰렛 뷰를 생성하기 위해 딥 러닝 네트워크를 훈련시키기 위해 큰 이미지 세트와 해당 소설 뷰 이미지를 보여주었습니다. 힘든 과정이지만 네트워크는 시간이 지남에 따라 처리하는 방법을 배웁니다.

44566_44681

훈련 프로세스를보다 관리하기 쉽게하기 위해 연구원들은 입력 이미지를 멀티 플랜 이미지로 변환하여 레이어링 된 3D 표현 유형입니다. 먼저, 그들은 장면의 물체에 따라 이미지를 다른 깊이의 평면으로 분해했습니다.

Kalantari와 Li는 네트워크를 효과적으로 훈련시키기 위해 다양한 객체를 포함하는 2,000 개가 넘는 고유 한 장면의 데이터 세트에이를 소개했습니다. 그들은 그들의 네이버 룰렛 방식이 이전의 최첨단 방법보다 더 나은 다양한 장면의 고품질 소설 이미지를 생성 할 수 있음을 보여 주었다..

연구원들은 현재 비디오 합성을위한 접근 방식을 확장하기 위해 노력하고 있습니다. 비디오는 본질적으로 순서대로 빠르게 재생 된 많은 개별 이미지이므로, 접근 방식을 적용하여 각 이미지의 네이버 룰렛 뷰를 다른 시간에 독립적으로 생성 할 수 있습니다.

45887_46038

단일 이미지보기 합성 방법을 사용하여 리 리코드 된 이미지를 생성 할 수도 있습니다. 또한 가상 현실 및 비디오 게임 및 특정 시각적 환경을 탐색 할 수있는 다양한 소프트웨어 유형과 같은 증강 현실 애플리케이션에 잠재적으로 사용될 수 있습니다.

이 프로젝트는 Texas A & M Triads가 변형 시드 랜트 프로그램을 위해 수여 한 보조금으로 부분적으로 자금을 지원했습니다.