2018 全國“視覺與學習青年學者研討會”(VALSE 2018)4月20日于大連拉開帷幕。該研討會的主要目的是為計算機視覺、圖像處理、模式識別與機器學習研究領域內的中國青年學者提供一個深層次學術交流的舞臺,促進國內青年學者的思想交流和學術合作,提升中國學者在AI領域做出重量級的學術貢獻,及其在國際學術舞臺上的影響力。
會議期間,來自國內各大高校計算機視覺領域權威學者、國內人工智能領域的科技公司專家代表和互聯網知名企業阿里巴巴、百度、滴滴等齊聚現場,展示AI業內前沿技術、深度學習應用成果,并圍繞此展開深入探討。
魔視智能沈春華教授受邀作為大會報告人,在視覺與語言專題討論會上(VALSE Workshop on Vision and Language)作了一場關于視覺問答(Visual Question Answering,以下簡稱為VQA)的報告。視覺問答/對話是一個融合計算機視覺和自然語言處理的終極任務,相比較圖片文本描述任務(ImageCaptioning),VQA更能反映出對于圖像的深層理解能力。報告主要包含以下內容。
魔視智能沈春華教授發表主題演講
融合知識庫的VQA模型框架以及基于常識的VQA數據集(FVQA)
VQA任務通常的做法是使用卷積神經網絡(CNN)得到的特征或預測出的屬性聯合針對圖片的問題一起作為遞歸網絡(RNN,LSTM,GRU等)的輸入,然后生成答案。但是當前存在的VQA任務的模型框架由于只考慮了圖片的視覺信息,并不能很好地回答更深層的問題,要回答這些深層問題就需要一些額外的知識作為支持。
沈教授團隊提出一個融合了知識庫的模型框架,能夠結合圖片所包含的信息和額外的知識庫[1,2,3]。另外,當前的VQA的任務沒有給出問題答案的原因,使得答案不能追溯圖片的相關特征以及相關知識。沈教授團隊提出了一個VQA-Machine的框架[4],融合了多種計算機視覺任務的結果并且能額外輸出給出答案的理由。考慮到當前的VQA數據集的圖片樣本所提供問題和答案都過于淺顯,沈教授團隊提出的一個基于常識事實的新的VQA數據集(FVQA)[5],對于每張圖還會額外提供與圖片問題相關的事實基礎。
類人對話生成
考慮到目前的VQA任務的輸出比較機器化,簡短,報告里還介紹了其團隊提出的一種使用對抗學習(GAN)以及強化學習輔助生成更加自然的類人的語言的方法[6]。該方法使用了一種融合圖片、問題和歷史問答數據的聯合注意力的編碼器(Co-attention encoder)作為一個生成器(generator)和一個使用歷史生成器記憶的判別器(discriminator)來區分機器生成的對話和類人的對話。
參考文獻:
[1] Image Captioning and Visual QuestionAnswering Based on Attributes and External Knowledge. Wu & Wang et al.TPAMI 2017
[2] Ask Me Anything: Free-Form VisualQuestion Answering Based on Knowledge from External Sources. Wu & Wang etal. CVPR2016
[3] What Value Do Explicit High-LevelConcepts Have in Vision to Language Problems. Wu et al. CVPR 2016
[4] The VQA-machine Learning How to UseExisting Vision Algorithms to Answer New Questions. Wang & Wu et al. CVPR2017
[5] FVQA: Fact-Based Visual QuestionAnswering. Wang & Wu et al. TPAMI 2018
[6] Are You Talking to Me? Reasoned VisualDialog Generation Through Adversarial Learning. Wu & Wang et al. CVPR 2018
魔視智能始終密切關注著業內前沿動態,同時十分重視對青年學者這一新生力量的培養,作為本次大會的鉑金贊助商之一,由CEO虞正華博士帶隊,向參會的各位青年學者及業內公司代表介紹了魔視智能的團隊情況、核心優勢及最新研究成果。在展示區,我們著重展示了魔視智能的核心技術優勢與最新產品基于嵌入式深度學習的前視ADAS一體機產品,為期三天的展示中,駐足瀏覽的參會人員絡繹不絕。
我們非常歡迎優秀學子的加入, 在濃厚的學術氛圍團隊中加快實踐技能的提升,一起實現汽車產業人工智能化,開啟汽車的人工智能大腦。