<div dir="ltr"><div><div style="text-align:center"><div><font color="#0b5394"><img src="cid:ii_m73qp5hx1" alt="Left-aligned blue cuee logo.png" width="191" height="87" class="gmail-CToWUd" style="margin-right: 0px;"><br></font></div><blockquote type="cite" style="text-align:start"><div dir="ltr"><div dir="ltr"><div style="text-align:center"><font color="#0b5394" size="4"><b></b></font></div><div style="text-align:center"><font color="#0b5394" size="4"><b>Please join us for the EE faculty candidate lecture on 4/3!</b></font></div></div></div></blockquote></div><font color="#0b5394"><div><b>When: </b>4/3, Thursday, 11:40am - 12:40pm</div><div><b>Where: </b>CEPSR 750, also via <a href="https://columbiauniversity.zoom.us/j/4419920270#success" target="_blank">zoom</a>. </div><div><b>Who:</b> Dr. Bingyi Kang</div><div><b>Title: </b>Visually Elicited Physical Intelligence </div></font></div><div><font color="#0b5394"><br></font></div><div><font color="#0b5394"><b>Abstract: </b> Foundation models have transformed the field of computer vision by learning general-purpose understanding and generation models that connect the visual world with semantic concepts. However, the ability to recover and model the physical world from visual observations is still in its infancy, despite being crucial for humans and animals to interact with others and their environment. We refer to these abilities as physical intelligence, which is fundamental to various applications including AR/VR, robotics and AI agents. In this talk, we explore physical intelligence and present several studies aimed at its development. First, we demonstrate the necessity of new techniques by showing that current state-of-the-art video generation methods fail to capture the physical attributes of the underlying world. Then, we discuss three crucial components in pursuing physical intelligence: 1) Physical modeling: building foundation models that can recover geometry information from arbitrary visual inputs; 2) Data intelligence: learning from real-world data with arbitrary distributions; 3) Decision making: training AI agents or robots with high-level planning and low-level control. Finally, we discuss future directions for bringing physical intelligence into reality and exciting opportunities for interdisciplinary collaborations. </font></div><div><font color="#0b5394"><br></font></div><div><font color="#0b5394"><b>Bio: </b>Bingyi Kang is currently a Research Scientist and Lead at TikTok Research in Seattle. He received his Ph.D. from the National University of Singapore in 2021 and was a visiting scholar at UC Berkeley, working with Trevor Darrell. His research areas include embodied AI, computer vision and machine learning. He aims to develop AI agents that can perceive, model, and interact with the physical world. He led the research of the Depth Anything series, which is widely recognized by both academia and industry, including adoption by Apple Core ML.</font></div><div><font color="#0b5394"><br></font></div></div>