기본 콘텐츠로 건너 뛰기
랜덤 룰렛 및 입자의 폴더가있는 디지털 사이버 공간의 그림.
Reza Oftadeh와 그의 팀은 모델이 한 번의 패스에서 동시에 기계 학습 알고리즘을 사용하여 랜덤 룰렛 세트의 가장 두드러진 기능을 찾고 추출 할 수 있다는 완전한 이론적 증거를 가지고 있습니다. |게티 이미지
과학적 실험이 수행 될 때마다 결과는 숫자로 바뀌어 종종 거대한 데이터 세트를 생성합니다. 랜덤 룰렛 크기를 줄이기 위해 컴퓨터 프로그래머는 가장 두드러진 통계적 특성을 나타내는 주요 기능을 찾고 추출 할 수있는 알고리즘을 사용합니다.

REZA OFTADEH, Texas A & M University의 컴퓨터 과학 및 공학과의 박사 과정 학생은 부서의 교수 인 Dylan Shell 박사가 대규모 랜덤 룰렛 세트에 적용 할 수있는 알고리즘을 개발했습니다. 가장 두드러진에서 최소한으로 기능을 추출하고 직접 주문할 수 있기 때문에 유용한 기계 학습 도구입니다.

“기계 학습 알고리즘을 사용하여 이러한 기능을 추출 할 수있는 많은 임시 방법이 있지만 이제 우리는 랜덤 룰렛에서 이러한 두드러진 기능을 동시에 찾고 추출하여 알고리즘의 한 패스에서 그렇게 할 수 있다는 완전히 엄격한 이론적 증거가 있습니다.

랜덤 룰렛를 설명하는 논문은의 절차에 발표되었습니다.2020 머신 러닝에 관한 국제 회의.

기계 학습의 하위 필드는 구성 요소 분석을 다루며, 차원을 줄이는 데 도움이되는 원시 데이터 세트의 기능을 식별하고 추출하는 문제입니다. 일단 식별되면,이 기능은 추가 분석 또는 해당 기능을 기반으로 분류, 클러스터링, 시각화 및 모델링과 같은 다른 기계 학습 작업을 위해 랜덤 룰렛 주석이 달린 샘플을 만드는 데 사용됩니다..

이러한 유형의 알고리즘을 찾거나 개발하려는 작업은 지난 세기 동안 진행되어 왔지만,이 시대를 다른 시대와 차별화시키는 것은 빅 랜덤 룰렛 존재이며, 이는 수천 개의 속성을 가진 수백만 개의 샘플 포인트를 포함 할 수 있습니다. 이러한 대규모 데이터 세트를 분석하는 것은 인간 프로그래머에게는 매우 복잡하고 시간이 많이 걸리는 프로세스이므로 인공 신경망 (ANNS)은 최근 몇 년 동안 최전선에 도착했습니다.

기계 학습의 주요 도구 중 하나 인 ANNS는 인간 뇌가 정보를 분석하고 처리하는 방법을 시뮬레이션하도록 설계된 계산 모델입니다. 그것들은 일반적으로 수십에서 수백만 개의 인공 뉴런 (단위라고 불리는 수백만 개의 인공 뉴런)으로 제시된 정보를 이해하기 위해 사용하는 일련의 층으로 배열됩니다.

43130_43433

그러나 모든 기능이 똑같이 중요하지는 않으며, 가장 중요하지 않고 가장 중요하지 않습니다. 이전 접근법은 자동 인코더라고 불리는 특정 유형의 ANN을 사용하여 추출하지만 기능이 어디에 있는지 또는 다른 기능보다 더 중요한 위치를 정확히 알 수 없습니다..

“예를 들어, 수십만 개의 치수가 있고 가장 두드러진 1,000 명만을 찾고 1,000 명을 주문하려면 이론적으로 가능하지만 실제로는 실현할 수 없지만 모델을 1,000 번 반복해서 실행해야하기 때문에 실제로 실행할 수는 없습니다.”라고 Oftadeh.

보다 지능적인 알고리즘을 만들기 위해 연구원들은 네트워크에 새로운 비용 기능을 추가하여 상대적 중요성으로 직접 주문한 기능의 정확한 위치를 제공 할 것을 제안합니다. 일단 통합되면, 그들의 방법은 고전적인 랜덤 룰렛 분석을 수행하기 위해 더 큰 랜덤 룰렛 세트를 공급할 수있는보다 효율적인 처리를 초래합니다.

방법의 효과를 확인하기 위해 OCR (Optical Character Recomper) 실험을 위해 모델을 교육했습니다.이 실험은 스캐너 제작과 같이 디지털 물리적 문서 내부의 내부 물리적 문서에서 유형 또는 필기 된 텍스트의 이미지를 기계 인코딩 된 텍스트로 변환하는 것입니다. 제안 된 방법을 사용하여 OCR에 대해 교육을 받으면 모델은 가장 중요한 기능을 알 수 있습니다.

현재 알고리즘은 1 차원 랜덤 룰렛 샘플에만 적용 할 수 있지만 팀은 더욱 복잡한 구조화 된 랜덤 룰렛를 처리 할 수있는 알고리즘의 능력을 확장하는 데 관심이 있습니다..

"다차원 랜덤 룰렛를 직접 분해하는 것은 많은 도전 과제로 매우 활발하고 도전적인 수학적 연구 분야이며, 우리는이를 더 탐구하는 데 관심이 있습니다."

그들의 작업의 다음 단계는 랜덤 룰렛 세트의 하층 구조를 찾거나 소수의 사양을 설정하여 기능을 추출 할 수있는 다른 기계 학습 방법을 생성하는 통합 프레임 워크를 제공하는 방법으로 방법을 일반화하는 것입니다.

이 랜덤 룰렛의 다른 기여자들은 컴퓨터 과학 및 공학 부서의 박사 과정 학생 인 Jiayi Shen과 오스틴 텍사스 대학교의 전기 및 컴퓨터 공학 부서 조교수 인 Zhangyang "Atlas"Wang 박사 등이 있습니다. 또한 랜덤 룰렛 문제를 식별하고 Oftadeh를 안내하는 데 도움이되는 도구는 Princeton University의 수학과 조교수 인 Boris Hanin 박사였습니다.

이 랜덤 룰렛는 National Science Foundation 및 U.S. Army Research Office Young Investigator Award에 의해 자금을 지원했습니다.