女人夜夜春高潮爽A∨片传媒_国产精品VIDEOS麻豆_在线精品亚洲一区二区三区_亚洲熟妇无码av

其他
新聞詳情

工業機器人抓取時如何定位

發布時間:2023-08-14 09:57:01 瀏覽次(ci)數(shu):1194

從機器視(shi)覺的角度,由簡入繁從相機標(biao)定,平面(mian)物體檢測、有(you)紋(wen)理物體、無紋(wen)理物體、深度學習、與任務/運動規劃結合等(deng)6個方(fang)面(mian)深度解析文章(zhang)的標(biao)題。

首先(xian),我們要了(le)解(jie),機(ji)(ji)器(qi)人(ren)領域的(de)視(shi)(shi)覺(Machine Vision)跟計算機(ji)(ji)領域(Computer Vision)的(de)視(shi)(shi)覺有一些不同:機(ji)(ji)器(qi)視(shi)(shi)覺的(de)目的(de)是(shi)給(gei)機(ji)(ji)器(qi)人(ren)提供操作(zuo)物體(ti)的(de)信息。所以,機(ji)(ji)器(qi)視(shi)(shi)覺的(de)研究大概有這幾塊:

1. 物體識別(Object Recognition):在圖像中檢測到物體類型等,這(zhe)跟 CV 的(de)研究有很大一部分交叉(cha);

2. 位姿(zi)估計(Pose Estimation):計算出物(wu)體在攝像機坐(zuo)標系(xi)下的位置(zhi)和姿(zi)態,對(dui)于機器人而言,需(xu)要抓取東(dong)西,不(bu)僅要知道這是什么,也需(xu)要知道它具(ju)體在哪里;

3. 相機標(biao)(biao)定(ding)(Camera Calibration):因為上(shang)面(mian)做的(de)只是計算了物體在相機坐標(biao)(biao)系下的(de)坐標(biao)(biao),我們還需要(yao)確(que)定(ding)相機跟機器人(ren)的(de)相對(dui)位置和姿(zi)態,這樣才可以將物體位姿(zi)轉換到機器人(ren)位姿(zi)。

當然,我這里主(zhu)要是在物體抓(zhua)取領域(yu)的(de)機(ji)器(qi)視覺;SLAM 等其他領域(yu)的(de)就先(xian)不講了。

由(you)(you)于(yu)視(shi)覺是(shi)機器人感知的一塊很(hen)重(zhong)要內(nei)容(rong),所(suo)以研究也(ye)非常多了,我(wo)就我(wo)了解的一些,按照由(you)(you)簡入繁(fan)的順序介紹吧。

一. 相機標定

這其實屬于比較成熟的領域。由于我們所(suo)(suo)有物體(ti)識(shi)別都只是計算物體(ti)在相機(ji)(ji)坐標(biao)系(xi)(xi)下的位(wei)姿,但(dan)是,機(ji)(ji)器人(ren)操作物體(ti)需(xu)要知(zhi)道物體(ti)在機(ji)(ji)器人(ren)坐標(biao)系(xi)(xi)下的位(wei)姿。所(suo)(suo)以,我們先(xian)需(xu)要對相機(ji)(ji)的位(wei)姿進行標(biao)定(ding)。

內參標定就不說(shuo)了,參照張正友的(de)論文,或者(zhe)各種(zhong)標定工(gong)具箱;

外參標(biao)定的(de)話,根據相機(ji)安(an)裝位置,有兩(liang)種方式(shi):


Eye to Hand:相機(ji)與機(ji)器人極坐標系固連,不隨機(ji)械臂運動(dong)而運動(dong)

Eye in Hand:相(xiang)機固連在機械(xie)臂上,隨機械(xie)臂運動(dong)而(er)運動(dong)

兩(liang)種方(fang)式的求解思路都(dou)類(lei)似,首先(xian)是眼在手(shou)外(Eye to Hand)

只需在機(ji)械臂末端(duan)固定(ding)一個(ge)棋(qi)盤格(ge),在相機(ji)視野內運動(dong)幾個(ge)姿態。由于(yu)相機(ji)可以計算(suan)出(chu)棋(qi)盤格(ge)相對(dui)(dui)于(yu)相機(ji)坐標系的(de)位姿A_i 、機(ji)器(qi)人運動(dong)學正(zheng)解(jie)可以計算(suan)出(chu)機(ji)器(qi)人底座到末端(duan)抓手之間的(de)位姿變(bian)(bian)化E_i 、而(er)末端(duan)爪手與棋(qi)盤格(ge)的(de)位姿相對(dui)(dui)固定(ding)不(bu)變(bian)(bian)。

這(zhe)樣,我們就可以得到一個坐標系環 CX=XD

這種結構的求解(jie)有很(hen)多方法,這邊給出一個參考文獻:

Shiu, Yiu Cheung, and Shaheen Ahmad. "Calibration of wrist-mounted robotic sensors by solving homogeneous transform equations of the form AX= XB."ieee Transactions on Robotics and Automation 5.1 (1989): 16-29.

而對于眼在手上(Eye in Hand)的(de)情況,也類似,在地上隨便放一個(ge)棋盤(pan)格(與機(ji)器(qi)人基(ji)座固連),然后讓(rang)機(ji)械臂(bei)帶著相(xiang)機(ji)走幾個(ge)位姿,然后也可以形成一個(ge)AX=XB 的(de)坐標環(huan)。

二. 平面物體檢測

這(zhe)是目(mu)前工業流水線上最常見的(de)場景(jing)。目(mu)前來看,這(zhe)一領域對視覺的(de)要求是:快(kuai)速、精確、穩(wen)定。所以,一般(ban)是采用最簡(jian)單(dan)的(de)邊(bian)緣提取(qu)+邊(bian)緣匹配/形狀(zhuang)匹配的(de)方(fang)法;而(er)且,為了提高穩(wen)定性、一般(ban)會通過主要打(da)光(guang)源、采用反差(cha)大(da)的(de)背(bei)景(jing)等(deng)手段,減少系(xi)統變量。


目(mu)前,很多智能(neng)相機都(dou)直接內嵌了這(zhe)些(xie)功能(neng);而且,物體(ti)一般都(dou)是(shi)放置在一個平(ping)面(mian)上,相機只需計(ji)算物體(ti)的(x,y,θ)T 三自由(you)度位姿即可。

另(ling)外,這種應用(yong)場景一般都(dou)是用(yong)于處理一種特定工件(jian),相當于只有(you)位姿估(gu)計,而沒有(you)物(wu)體識別。

當然(ran),工業上追求穩定性(xing)無可厚(hou)非,但(dan)是隨著生產自動(dong)化(hua)的(de)(de)要求越(yue)來越(yue)高,以及服(fu)務類機器人的(de)(de)興起。對更(geng)復雜物體的(de)(de)完整位姿(x,y,z,rx,ry,rz)T 估計(ji)也就(jiu)成了機器視(shi)覺(jue)的(de)(de)研究(jiu)熱點(dian)。

三.有紋理的物體

機器人視覺領域是(shi)最早開始(shi)研究有紋理(li)的(de)物(wu)體的(de),如飲(yin)料瓶、零食盒等表面帶有豐富(fu)紋理(li)的(de)都屬于(yu)這一(yi)類。

當然,這些物(wu)體(ti)(ti)(ti)也(ye)還(huan)是可以用(yong)類似邊緣提取+模(mo)板匹配的(de)方法。但(dan)是,實際機(ji)器人操作(zuo)過程中(zhong),環境會更加復雜:光照(zhao)條件(jian)不(bu)(bu)確定(光照(zhao))、物(wu)體(ti)(ti)(ti)距離相機(ji)距離不(bu)(bu)確定(尺度(du))、相機(ji)看物(wu)體(ti)(ti)(ti)的(de)角(jiao)度(du)不(bu)(bu)確定(旋(xuan)轉、仿射(she))、甚至是被其他物(wu)體(ti)(ti)(ti)遮擋(dang)(dang)(遮擋(dang)(dang))。

幸好有一位叫做 Lowe 的大神,提(ti)出了一個叫做 SIFT (Scale-invariant feature transform)的超強局部特(te)征點:

Lowe, David G. "Distinctive image features from scale-invariant keypoints."International journal of computer vision 60.2 (2004): 91-110.

具體原(yuan)理可以看上面(mian)這(zhe)篇被(bei)引(yin)用 4萬(wan)+ 的(de)論文(wen)或(huo)各種博客,簡單地說,這(zhe)個方法(fa)提(ti)取的(de)特征點只跟物(wu)體表(biao)面(mian)的(de)某部分(fen)紋(wen)理有關,與(yu)光照變化(hua)、尺度變化(hua)、仿射(she)變換、整個物(wu)體無關。

因此,利用(yong) SIFT 特(te)征點(dian),可以直接在(zai)相(xiang)機圖像中(zhong)尋找到與數(shu)據庫中(zhong)相(xiang)同的(de)特(te)征點(dian),這樣,就可以確定相(xiang)機中(zhong)的(de)物(wu)體(ti)是什么東西(物(wu)體(ti)識別)。

對于不會變形(xing)的(de)(de)物(wu)體(ti)(ti),特征(zheng)點在(zai)物(wu)體(ti)(ti)坐標(biao)系下的(de)(de)位置是固定(ding)的(de)(de)。所以(yi),我(wo)們在(zai)獲取若干點對之(zhi)后,就可以(yi)直接(jie)求(qiu)解出(chu)相(xiang)機中物(wu)體(ti)(ti)與數據庫中物(wu)體(ti)(ti)之(zhi)間的(de)(de)單(dan)應性矩陣。

如果(guo)我們用深度相(xiang)機(如Kinect)或者雙目視覺方(fang)法(fa),確(que)定(ding)出(chu)每個特(te)征點的(de) 3D 位置(zhi)。那么,直接求解(jie)這個 PnP 問題,就(jiu)可以計算出(chu)物體在當前(qian)相(xiang)機坐標系下的(de)位姿(zi)。

當然,實際操作過程中(zhong)還(huan)是有很多細節工(gong)作才(cai)可(ke)以讓它真正可(ke)用的(de),如:先利用點(dian)云(yun)分(fen)割(ge)和歐氏距離去除背景的(de)影響、選用特征比(bi)較穩定(ding)的(de)物體(ti)(有時候 SIFT 也會(hui)變(bian)化)、利用貝葉斯方法加速(su)匹配(pei)等(deng)。

而且,除了(le) SIFT 之外,后來(lai)又(you)出了(le)一大堆類似的特征(zheng)點,如 SURF、ORB 等(deng)。

四. 無紋理的物體

好(hao)了,有問題的(de)物體容易解決,那么生(sheng)活中或者工(gong)業里(li)還有很多物體是沒有紋理的(de):

我們最容易(yi)想到(dao)的就是(shi):是(shi)否有(you)一種(zhong)特征(zheng)點,可以描述物體形(xing)狀,同時具有(you)跟 SIFT 相(xiang)似的不(bu)變性?

不幸(xing)的是(shi),據(ju)我(wo)了(le)解,目(mu)前沒(mei)有這種特征點。

所以,之前一大類方法還是(shi)采用基于模(mo)板匹(pi)配(pei)的辦法,但(dan)是(shi),對匹(pi)配(pei)的特(te)征(zheng)(zheng)進行了專門選擇(不只(zhi)是(shi)邊緣等(deng)簡單特(te)征(zheng)(zheng))。

這(zhe)里,我介紹一個我們實(shi)驗室之前使用(yong)和(he)重現過的算法 LineMod:

Hinterstoisser, Stefan, et al. "Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes." Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011.

簡單而言(yan),這篇論文同時利用了彩(cai)色圖(tu)像(xiang)的(de)圖(tu)像(xiang)梯度和深(shen)度圖(tu)像(xiang)的(de)表(biao)面法(fa)向作為特征,與(yu)數據庫中的(de)模(mo)板進行(xing)匹配。

由于數據庫中的(de)模板是從一個物體(ti)的(de)多個視角拍(pai)攝后(hou)生成的(de),所以(yi)這樣匹配得到的(de)物體(ti)位姿(zi)只能算是初步估計,并不精(jing)確。

但是,只要有(you)了這個初(chu)步估計的(de)物體(ti)(ti)位姿,我們就(jiu)可以(yi)直接采用 ICP 算(suan)法(Iterative closest point)匹配(pei)物體(ti)(ti)模型與 3D 點(dian)云,從而得到物體(ti)(ti)在相機坐標系(xi)下的(de)精確(que)位姿。

當然,這(zhe)個算(suan)法在具體(ti)實(shi)施(shi)過程(cheng)中(zhong)還是有很多細(xi)節(jie)的(de):如何建立模板、顏色梯度的(de)表示(shi)等。另(ling)外,這(zhe)種方法無法應對物體(ti)被遮擋的(de)情況(kuang)。(當然,通過降低匹配閾(yu)值,可以應對部分遮擋,但(dan)是會造成誤識別)。

五.深度學習

由(you)于深度學習在計算機視覺領(ling)域(yu)得(de)到了非常好的(de)效果,我們做機器(qi)人的(de)自然也會(hui)嘗(chang)試把 DL 用到機器(qi)人的(de)物體(ti)識別中。

首先(xian),對于物體識別(bie),這個(ge)就(jiu)可以(yi)照(zhao)搬 DL 的研究成果了,各種(zhong) CNN 拿過來用(yong)就(jiu)好了。在 2016 年(nian)的『亞馬(ma)遜抓取(qu)大賽』中,很多隊(dui)伍都(dou)采用(yong)了 DL 作為物體識別(bie)算法。

然而, 在(zai)這個(ge)比賽中,雖然很多人采用(yong) DL 進行物(wu)體(ti)(ti)識別,但在(zai)物(wu)體(ti)(ti)位(wei)姿估計方面(mian)都還是使用(yong)比較簡單、或者傳統的(de)算法(fa)。似乎并未廣泛(fan)采用(yong) DL。如 周博磊 所說,一(yi)般是采用(yong) semantic segmentation network 在(zai)彩色圖(tu)像(xiang)上進行物(wu)體(ti)(ti)分(fen)割,之后,將(jiang)分(fen)割出的(de)部分(fen)點云與物(wu)體(ti)(ti) 3D 模型(xing)進行 ICP 匹配。

當然,直接用神經網絡做(zuo)位姿(zi)估計的(de)工(gong)作也是有的(de),如這篇:

Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

它的方法大概(gai)是這樣:對于一個物體,取很多(duo)小(xiao)塊 RGB-D 數據(ju)(ju)(只關心(xin)一個patch,用(yong)局部特征可以應對遮擋);每小(xiao)塊有一個坐標(相對于物體坐標系);然后,首先用(yong)一個自編碼器對數據(ju)(ju)進(jin)行降(jiang)維;之(zhi)后,用(yong)將降(jiang)維后的特征用(yong)于訓練Hough Forest。

六. 與任務/運動規劃結合

這部(bu)分也是比較(jiao)有意思的研(yan)究內容,由(you)于機(ji)器(qi)視覺的目(mu)的是給機(ji)器(qi)人操作物(wu)體提供信息,所(suo)以,并不(bu)限(xian)于相(xiang)機(ji)中(zhong)的物(wu)體識別(bie)與定位,往往需要跟機(ji)器(qi)人的其他模(mo)塊相(xiang)結合。

我們讓機(ji)器人從冰(bing)箱(xiang)中拿一瓶『雪碧(bi)』,但是這個 『雪碧(bi)』 被(bei)『美(mei)年達(da)』擋住了(le)。

我們人類(lei)的做(zuo)法是(shi)這(zhe)樣的:先(xian)把 『美年達』 移(yi)開,再去取 『雪碧(bi)』 。

所(suo)以,對于機器(qi)人來說,它需要(yao)先通過視(shi)覺確定雪碧在『美年達』后(hou)面(mian),同時,還(huan)需要(yao)確定『美年達』這個(ge)東西是(shi)可以移開的,而(er)不是(shi)冰箱門(men)之類固定不可拿開的物體。

在線客服
客服電話
  • 0755-23712116
  • 13310869691