光華講壇——社會名流與企業家論壇第6628期
主題:Automated Feature Engineering: Bridging the Gap between Feature Engineering and Self-optimization自動化特征工程:填補特征工程與自優化之間的空白
主講人:波特蘭州立大學助理教授 劉鯤鵬
主持人:西南財經大學 黃雁勇教授
時 間:11月9日 15:00-16:00
舉辦地點:柳林校區誠正樓統計學院會議室
主辦單位:數據科學與商業智能聯合實驗室 統計學院 科研處
主講人簡介:
劉鯤鵬是波特蘭州立大學計算機系助理教授,研究興趣為數據挖掘與強化學習。他最近的研究方向集中在自動化數據科學系統及其在大數據問題上的應用,包括智能城市、機器學習隱私保護、可解釋的推薦系統、用戶行為分析。他的研究成果發表在KDD、TKDE、IJCAI、AAAI、WWW等各個數據挖掘、機器學習的頂級會議、期刊上。多次擔任IJCAI高級程序委員會委員,并且在KDD、ICML、ICLR、NeurIPS、AAAI、WWW、CIKM、ICDM等國際頂級會議中常態化擔任程序委員會委員。
內容簡介:
In recent years, data mining has achieved great success in enormous scenarios. As the foundation of data mining, feature engineering plays an essential role in comprehending and perceiving data. Successful feature engineering can remove irrelevant features, generate informative features, improve model performance, enhance generalization, and provide better interpretation and explanation. However, not all researchers and practitioners are experts in feature engineering, making the automation of feature engineering an indispensable demand. In this talk, I will first introduce what feature engineering is and why it is difficult to automate the feature engineering process. Then, I will focus on (1) automated feature selection (2) automated feature generation. Finally, I will conclude the talk and present the big picture of developing intelligent, interpretable, and interactive automated data science systems.
近年來,數據挖掘已經在許多應用場景中取得了巨大的成功。作為數據挖掘的基礎技術,特征工程在理解與感知數據的過程中有著不可替代的作用。理想的特征工程可以移除無關特征、生成信息量大的特征、提高模型表現、提高泛化性、提供更好的理解力和可解釋性。但是,在諸多的應用場景中,大多數從業者并不是特征工程的專家,因此,自動化特征工程以降低特征工程的使用門檻,成為一個不可忽視的需求。在本次報告中,我將首先介紹自動化特征工程的重要性及其挑戰性,并著重闡述:1.自動化特征選擇;2.自動化特征生成。最后,我將展望未來的智能化、可理解、可交互的自動化數據科學系統并提出若干發展方向。