精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

2023年電信AI公司頂會論文及競賽分享

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

近年來,中國電信人工智能技術方向持續發力。2023年11月28日,中國電信數字智能 科技 分公司正式更名為中電信人工智能科技有限公司(以下簡稱“電信AI公司”)。2023年,電信AI公司連續在21項國內外頂級AI競賽中獲獎,申請專利100余項,同時在CVPR、ACM MM、ICCV等頂級會議和期刊上發表論文30余篇,彰顯了國資央企在人工智能技術領域布局的初步成效。

電信AI公司作為中國電信開展人工智能業務的科技型、能力型、平臺型專業公司,專注于人工智能核心技術攻堅、前沿技術研究和和產業空間拓展,以成為百億級人工智能服務商為發展目標。在過去兩年時間,電信AI公司成功自主研發了星河AI算法倉賦能平臺、星云AI四級算力平臺、星辰通用基礎大模型等一系列創新應用成果。公司現有人員800+,平均年齡31歲,其中80%為研發人員,70%來自于國內外 互聯網 大廠和AI頭部企業。為全面加速大模型時代的研發進度,公司現有A100等效算力的訓練卡2500+,專職數據標注人員300+,聯合上海人工智能實驗室、西安交通大學、北京郵電大學、智源研究院等科研院所,面向中國電信6000萬視聯網和數億用戶場景,共同打造國際一流的人工智能技術和落地應用。

接下來,我們將對電信AI公司在2023年的一些重要科研成果進行系列回顧和分享。本期介紹AI研發中心CV算法團隊在ICCV 2023 獲得Temporal Action Localisation賽道冠軍的技術成果。ICCV是國際計算機視覺領域的三大頂會之一,每兩年召開一次,在業內具有極高的評價。本文將分享該團隊在本次挑戰中采用的算法思路和方案。

ICCV 2023 The Perception Test Challenge-Temporal Action Localisation 冠軍技術分享

2023年電信AI公司頂會論文及競賽分享

【賽事概覽與團隊背景】

DeepMind發起的ICCV 2023 The First Perception Test Challenge旨在通過探索模型在視頻、音頻和文本模態中的能力。競賽涵蓋了四個技能領域、四種推理類型和六個計算任務,以更全面地評估多模態感知模型的能力。其中,Temporal Action Localisation賽道的核心任務是對未剪輯的視頻內容進行深入理解和準確的動作定位,該技術對自動駕駛系統、視頻監控分析等多種應用場景具有重要意義。

由電信AI公司交通算法方向的成員組成的CTCV團隊,參加了本次比賽。電信AI公司在計算機視覺技術這個研究方向深耕,積累了豐富的經驗,技術成果已在城市治理、交通治安等多個業務領域中廣泛應用,持續服務海量的用戶。

1引言

在視頻中定位和分類動作的任務,即時序動作定位(Temporal Action Localisation, TAL),仍然是視頻理解中的一個挑戰性問題。


近期TAL技術取得了顯著的進展。例如,TadTR和ReAct使用類似DETR的基于Transformer的解碼器進行動作檢測,將動作實例建模為一組可學習的集合。TallFormer使用基于Transformer的編碼器提取視頻表征。

雖然以上方法在時序動作定位方面已經實現了較好的效果,但在視頻感知能力方面還存在局限性。想要更好地定位動作實例,可靠的視頻特征表達是關鍵所在。團隊首先采用VideoMAE-v2框架,加入adapter+linear層,訓練具有兩種不同主干網絡的動作類別預測模型,并用模型分類層的前一層,進行TAL任務的特征提取。接下來,利用改進的ActionFormer框架訓練TAL任務,并修改WBF方法適配TAL任務。最終,CTCV團隊的方法在評測集上實現了0.50的mAP,排名第一,領先第二名的團隊3個百分點,比Google DeepMind提供的baseline高出34個百分點。

2 競賽解決方案

2023年電信AI公司頂會論文及競賽分享

圖1 算法概覽

2.1 數據增強

2023年電信AI公司頂會論文及競賽分享

在 Temporal Action Localisation賽道中,CTCV團隊使用的數據集是未經修剪的用于動作定位的視頻,具有高分辨率,并包含多個動作實例的特點。通過分析數據集,發現訓練集相較于驗證集缺少了三個類別的標簽,為保證模型驗證的充分性以及競賽的要求,團隊采集了少量的視頻數據,并加入訓練數據集中,以豐富訓練樣本。同時為簡化標注,每個視頻預設只包含一個動作。

圖2 自主采集的視頻樣例

2.2 動作識別與特征提取

近年來,大規模數據進行訓練的基礎模型噴涌而出,通過zero-shot recognition、linear probe、prompt finetune、fine-tuning等手段,將基礎模型較強的泛化能力應用到多種下游任務中,有效地推動了AI領域多個方面的進步。

TAL賽道中的動作定位和識別十分具有挑戰性,例如‘假裝將某物撕成碎片’與‘將某物撕成碎片’動作極為相似,這無疑給特征層面帶來了更大的挑戰。因此直接借助現有預訓練模型提取特征,效果不理想。

因此,該團隊通過解析JSON標注文件,將TAL數據集轉換為動作識別數據集。然后以Vit-B和Vit-L為主干網絡,在VideoMAE-v2網絡后增加adapter層及用于分類的linear層,訓練同數據域下的動作分類器,并將動作分類模型去掉linear層,用于視頻特征的提取。VitB模型的特征維度為768,而ViTL模型的特征維度為1024。同時concat這兩種特征時,新生成一個維度為1792的特征,該特征作為訓練時序動作定位模型的備選。訓練初期,團隊也使用了音頻特征,但實驗結果發現mAP指標有所下降。因此,在隨后的實驗中沒有考慮音頻特征。

2.3 時序動作定位

Actionformer是一個為時序動作定位設計的anchor-free模型,它集成了多尺度特征和時間維度的局部自注意力。本次競賽,CTCV團隊使用Actionformer作為動作定位的baseline模型,以預測動作發生的邊界(起止時間)及類別。

CTCV團隊將動作邊界回歸和動作分類任務進行統一。相比基線訓練架構,首先編碼視頻特征到多尺度的Transformer中。然后在模型的回歸和分類的head分支引入feature pyramid layer,增強網絡特征表達,head分支在每個time step會產生一個action candidate。同時通過將head的數量增加到32,引入fpn1D結構,進一步提升了模型的定位與識別能力。

2.4 WBF for 1-D

Weighted Boxes Fusion(WBF)是一種新型的加權檢測框融合方法,該方法利用所有檢測框的置信度來構造最終的預測框,并在圖像目標檢測中取得了較好的效果,與NMS和soft-NMS方法不同,它們會丟棄某些預測,WBF利用所有提出的邊界框的置信度分數來構造平均盒子。這種方法極大地提高了結合預測矩形的準確性。

受WBF在物體檢測應用的啟發,CTCV團隊將動作的一維邊界框類比為一維線段,并對WBF方法進行了修改,以適用于TAL任務,如圖3所示。實驗結果表明了該方法的有效性。

圖3 改進的1維WBF 示意圖

3 實驗結果

3.1 評估指標

本次挑戰賽使用的評估指標是mAP。它是通過計算不同動作類別和IoU閾值的平均精確度來確定的。CTCV團隊以0.1的增量評估IoU閾值,范圍從0.1到0.5。

3.2 實驗細節

為獲得多樣化的模型,CTCV團隊先對訓練數據集進行80%的重復采樣5次,并分別采用Vit-B、Vit-L以及concat的特征,完成模型訓練,得到了15個多樣化的模型。最后將這些模型的評估結果分別輸入WBF模塊,并為每個模型結果分配了相同的融合權重。

3.3 實驗結果

表1展示了不同特征的性能對比。第1行和第2行分別展示了使用ViT-B和ViT-L特征特征的結果。第3行是ViT-B和ViT-L特征級聯的結果。

在實驗過程中,CTCV團隊發現級聯特征的mAP略低于ViT-L,但仍優于ViT-B。盡管如此,基于各種方法在驗證集上的表現,將不同特征在評測集的預測結果借助WBF進行融合,最終提交到系統的mAP為0.50。

4 結論

本次競賽中,CTCV團隊通過數據收集增強相對驗證集中缺失類別的訓練數據。借助VideoMAE-v2框架加入adapter層訓練視頻特征提取器,并利用改進的ActionFormer框架訓練TAL任務,同時修改了WBF方法以便有效地融合測試結果。最終,CTCV團隊在評測集上實現了0.50的mAP,排名第一。電信AI公司一直秉持著“技術從業務中來,到業務中去”的路線,將競賽視為檢驗和提升技術能力的重要平臺,通過參與競賽,不斷優化和完善技術方案,為客戶提供更高質量的服務,同時也為團隊提供了寶貴的學習和成長機會。

本文被轉載1次

首發媒體 砍柴網 | 轉發媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 医养体检包_公卫随访箱_慢病随访包_家签随访包_随访一体机-济南易享医疗科技有限公司 | 郑州水质检测中心_井水检测_河南废气检测_河南中环嘉创检测 | 广东燎了网络科技有限公司官网-网站建设-珠海网络推广-高端营销型外贸网站建设-珠海专业h5建站公司「了了网」 | 磁棒电感生产厂家-电感器厂家-电感定制-贴片功率电感供应商-棒形电感生产厂家-苏州谷景电子有限公司 | 微信聊天记录恢复_手机短信删除怎么恢复_通讯录恢复软件下载-快易数据恢复 | 溶氧传感器-pH传感器|哈美顿(hamilton) | 捷码低代码平台 - 3D数字孪生_大数据可视化开发平台「免费体验」 | 智能垃圾箱|垃圾房|垃圾分类亭|垃圾分类箱专业生产厂家定做-宿迁市传宇环保设备有限公司 | 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 | 流程管理|流程管理软件|企业流程管理|微宏科技-AlphaFlow_流程管理系统软件服务商 | 压力变送器-上海武锐自动化设备有限公司 | 河南卓美创业科技有限公司-河南卓美防雷公司-防雷接地-防雷工程-重庆避雷针-避雷器-防雷检测-避雷带-避雷针-避雷塔、机房防雷、古建筑防雷等-山西防雷公司 | 洁净实验室工程-成都手术室净化-无尘车间装修-四川华锐净化公司-洁净室专业厂家 | 分子精馏/精馏设备生产厂家-分子蒸馏工艺实验-新诺舜尧(天津)化工设备有限公司 | 手持式线材张力计-套帽式风量罩-深圳市欧亚精密仪器有限公司 | 心得体会网_心得体会格式范文模板 | 动力配电箱-不锈钢配电箱-高压开关柜-重庆宇轩机电设备有限公司 聚天冬氨酸,亚氨基二琥珀酸四钠,PASP,IDS - 远联化工 | 湖北省煤炭供应链综合服务平台| 波纹补偿器_不锈钢波纹补偿器_巩义市润达管道设备制造有限公司 | 山西3A认证|太原AAA信用认证|投标AAA信用证书-山西AAA企业信用评级网 | 聚氨酯催化剂K15,延迟催化剂SA-1,叔胺延迟催化剂,DBU,二甲基哌嗪,催化剂TMR-2,-聚氨酯催化剂生产厂家 | HDPE土工膜,复合土工膜,防渗膜价格,土工膜厂家-山东新路通工程材料有限公司 | 路面机械厂家| 科威信洗净科技,碳氢清洗机,超声波清洗机,真空碳氢清洗机 | 网站建设-高端品牌网站设计制作一站式定制_杭州APP/微信小程序开发运营-鼎易科技 | 汽车水泵_汽车水泵厂家-瑞安市骏迪汽车配件有限公司 | 深圳货架厂家_金丽声精品货架_广东金丽声展示设备有限公司官网 | 水厂自动化-水厂控制系统-泵站自动化|控制系统-闸门自动化控制-济南华通中控科技有限公司 | 油冷式_微型_TDY电动滚筒_外装_外置式电动滚筒厂家-淄博秉泓机械有限公司 | 厂房出租_厂房出售_产业园区招商_工业地产 - 中工招商网 | 布袋除尘器|除尘器设备|除尘布袋|除尘设备_诺和环保设备 | 河北中仪伟创试验仪器有限公司是专业生产沥青,土工,水泥,混凝土等试验仪器的厂家,咨询电话:13373070969 | 塑料异型材_PVC异型材_封边条生产厂家_PC灯罩_防撞扶手_医院扶手价格_东莞市怡美塑胶制品有限公司 | 旗帜网络笔记-免费领取《旗帜网络笔记》电子书 | 天然鹅卵石滤料厂家-锰砂滤料-石英砂滤料-巩义东枫净水 | 水环真空泵厂家,2bv真空泵,2be真空泵-淄博真空设备厂 | 100_150_200_250_300_350_400公斤压力空气压缩机-舰艇航天配套厂家 | 今日扫码_溯源二维码_产品防伪一物一码_红包墙营销方案 | 中国玩具展_玩具展|幼教用品展|幼教展|幼教装备展 | 河南不锈钢水箱_地埋水箱_镀锌板水箱_消防水箱厂家-河南联固供水设备有限公司 | 集装箱箱号识别_自重载重图像识别_铁路车号自动识别_OCR图像识别 |