
룰렛의 신호등은 비 분쇄 방향에 대한 권리를 할당하는 간단한 컴퓨터에 의해 관리됩니다. 그러나 도시 지역의 여행 시간을 살펴 보는 연구는 룰렛로 인한 지연이 일일 통근 여행의 12-55%를 차지하는 것으로 나타 났으며,이 컨트롤러의 작동이 불필요한 대기 시간을 피하기 위해 더 효율적으로 만들 수 있다면 감소 될 수 있습니다..
Texas A & M University의 컴퓨터 과학 및 공학과 교수 인 Guni Sharon 박사가 이끄는 연구원 팀은 기계 학습을 활용하여 룰렛를 통과하는 차량의 조정을 개선하는 자체 학습 시스템을 개발했습니다.
룰렛원들은의 결과에 대한 결과를 발표했습니다.2020 자율 요원 및 다중 기관 시스템에 관한 국제 회의.
오늘날 많은 교통 신호에는 신호 컨트롤러가 장착되어 있으며, 이는 본질적으로 룰렛의 "뇌"입니다. 시간과 트래픽 이동에 따라 색상을 변경할 때 트래픽 표시를 알리기 위해 다양한 시간 설정으로 프로그래밍됩니다.
최근의 연구에 따르면 유리한 결과가 보상되는 강화 학습이라는 심리학의 개념을 기반으로 학습 알고리즘이 보상을받을 수 있으며 컨트롤러의 룰렛를 최적화하는 데 사용될 수 있습니다. 이 전략을 통해 컨트롤러는 일련의 결정을 내리고 현실 세계에서 어떤 행동이 운영을 향상시키는 지 배울 수 있습니다.
그러나 Sharon은 데이터를 처리하는 방법을 제어하는 기본 작업이 기계 학습 알고리즘의 한 유형 인 DNN (Deep Neural Networks)을 사용하기 때문에 실제 세계에서는 실제 세계에서 실용적이지 않을 것이라고 언급했습니다. 일반적으로 현재 상황에 따라 다음에 취해야 할 조치를 결정하는 의사 결정 (또는 제어) 기능인 컨트롤러의 작동 정책을 교육하고 일반화하는 데 일반적으로 사용됩니다. 현재 상황에 따라 다음에 취해야 할 조치를 결정하는 데 어떤 조치가 취해야하는지 결정합니다. 룰렛의 현재 상태에 대한 정보를 제공하는 여러 센서로 구성됩니다..
그들이 얼마나 강력했는지에도 불구하고 DNN은 의사 결정에 매우 예측할 수없고 일관성이 없습니다. 왜 그들이 다른 사람과 반대되는 특정 행동을 취하는지 이해하려고 시도하는 것은 교통 엔지니어들에게 번거로운 프로세스이며, 이로 인해 다른 정책을 규제하고 이해하기가 어렵습니다.
이것을 극복하기 위해 Sharon과 그의 팀은 실룰렛 세계를 실룰렛으로 성공적으로 훈련시킬 수있는 접근법을 정의하고 검증하면서 실제 세계를 관찰함으로써 배운 내용을 엔지니어가 이해하고 규제 할 수있는 다른 제어 기능으로 전송할 수있는 접근법을 정의하고 검증했습니다..
실제 룰렛의 시뮬레이션을 사용하여 팀은 그들의 접근 방식이 해석 가능한 컨트롤러를 최적화하는 데 특히 효과적이라는 것을 발견하여 일반적으로 배포되는 신호 컨트롤러와 비교하여 차량 지연이 최대 19.4% 감소했습니다..
그들의 접근 방식의 효과에도 불구하고, 룰렛원들은 컨트롤러를 훈련하기 시작했을 때 모든 방향에서 교통 혼잡을 완화하는 데 실제로 어떤 행동이 도움이되었는지 이해하는 데 약 2 일이 걸렸다는 것을 관찰했습니다.
우리의 향후 작업은 현재 배치 된 컨트롤러의 운영을 관찰하면서 기준선 수준의 성능을 보장하고 그로부터 학습을 보장함으로써 컨트롤러의 학습 프로세스를 시작하는 기술을 조사 할 것입니다.
이 룰렛의 다른 기여자들은 에든버러 대학교의 정보학 학교의 룰렛원 인 Josiah P. Hanna 박사와 Texas A & M의 PI Star Lab의 박사 학위 학생 인 James Ault.