熱線(xian)電(dian)話:0755-23712116
郵箱(xiang):contact@legoupos.cn
地(di)址:深圳市寶安(an)區沙井街(jie)道后(hou)亭茅洲(zhou)山(shan)工業園(yuan)工業大(da)廈全至科技創(chuang)新園(yuan)科創(chuang)大(da)廈2層(ceng)2A
首(shou)先談(tan)(tan)(tan)談(tan)(tan)(tan)什么(me)(me)是(shi)數(shu)據(ju)(ju)標(biao)注(zhu)(zhu)(zhu)。數(shu)據(ju)(ju)標(biao)注(zhu)(zhu)(zhu)有(you)許(xu)多類(lei)型(xing)(xing),如(ru)分(fen)(fen)類(lei)、畫框、注(zhu)(zhu)(zhu)釋、標(biao)記等等,我(wo)們(men)會在下面(mian)詳談(tan)(tan)(tan)。要(yao)理(li)(li)解數(shu)據(ju)(ju)標(biao)注(zhu)(zhu)(zhu),得(de)(de)先理(li)(li)解AI其實是(shi)部分(fen)(fen)替代人的(de)(de)(de)(de)(de)(de)認(ren)(ren)(ren)知功能(neng)(neng)。回想(xiang)一(yi)(yi)下我(wo)們(men)是(shi)如(ru)何學習的(de)(de)(de)(de)(de)(de),例(li)如(ru)我(wo)們(men)學習認(ren)(ren)(ren)識(shi)蘋(pin)(pin)(pin)(pin)果(guo)(guo),那么(me)(me)就(jiu)需要(yao)有(you)人拿(na)(na)著(zhu)一(yi)(yi)個(ge)(ge)(ge)蘋(pin)(pin)(pin)(pin)果(guo)(guo)到(dao)(dao)你(ni)(ni)面(mian)前(qian)告(gao)訴你(ni)(ni),這(zhe)(zhe)是(shi)一(yi)(yi)個(ge)(ge)(ge)蘋(pin)(pin)(pin)(pin)果(guo)(guo)。然(ran)(ran)后(hou)以(yi)后(hou)你(ni)(ni)遇到(dao)(dao)了(le)(le)蘋(pin)(pin)(pin)(pin)果(guo)(guo),你(ni)(ni)才知道這(zhe)(zhe)玩(wan)意(yi)兒叫做“蘋(pin)(pin)(pin)(pin)果(guo)(guo)”。類(lei)比機(ji)器(qi)學習,我(wo)們(men)要(yao)教他認(ren)(ren)(ren)識(shi)一(yi)(yi)個(ge)(ge)(ge)蘋(pin)(pin)(pin)(pin)果(guo)(guo),你(ni)(ni)直接給它一(yi)(yi)張蘋(pin)(pin)(pin)(pin)果(guo)(guo)的(de)(de)(de)(de)(de)(de)圖片,它是(shi)完全不知道這(zhe)(zhe)是(shi)個(ge)(ge)(ge)啥玩(wan)意(yi)的(de)(de)(de)(de)(de)(de)。我(wo)們(men)得(de)(de)先有(you)蘋(pin)(pin)(pin)(pin)果(guo)(guo)的(de)(de)(de)(de)(de)(de)圖片,上面(mian)標(biao)注(zhu)(zhu)(zhu)著(zhu)“蘋(pin)(pin)(pin)(pin)果(guo)(guo)”兩(liang)個(ge)(ge)(ge)字,然(ran)(ran)后(hou)機(ji)器(qi)通過學習了(le)(le)大量(liang)的(de)(de)(de)(de)(de)(de)圖片中(zhong)的(de)(de)(de)(de)(de)(de)特征,這(zhe)(zhe)時候再給機(ji)器(qi)任意(yi)一(yi)(yi)張蘋(pin)(pin)(pin)(pin)果(guo)(guo)的(de)(de)(de)(de)(de)(de)圖片,它就(jiu)能(neng)(neng)認(ren)(ren)(ren)出來了(le)(le)。這(zhe)(zhe)邊可以(yi)順帶提一(yi)(yi)下訓(xun)練(lian)集(ji)(ji)和測試(shi)集(ji)(ji)的(de)(de)(de)(de)(de)(de)概念。訓(xun)練(lian)集(ji)(ji)和測試(shi)集(ji)(ji)都(dou)是(shi)標(biao)注(zhu)(zhu)(zhu)過的(de)(de)(de)(de)(de)(de)數(shu)據(ju)(ju),還(huan)是(shi)以(yi)蘋(pin)(pin)(pin)(pin)果(guo)(guo)為例(li)子,假設我(wo)們(men)有(you)1000張標(biao)注(zhu)(zhu)(zhu)著(zhu)“蘋(pin)(pin)(pin)(pin)果(guo)(guo)”的(de)(de)(de)(de)(de)(de)圖片,那么(me)(me)我(wo)們(men)可以(yi)拿(na)(na)900漲(zhang)作為訓(xun)練(lian)集(ji)(ji),100張作為測試(shi)集(ji)(ji)。機(ji)器(qi)從900張蘋(pin)(pin)(pin)(pin)果(guo)(guo)的(de)(de)(de)(de)(de)(de)圖片中(zhong)學習得(de)(de)到(dao)(dao)一(yi)(yi)個(ge)(ge)(ge)模型(xing)(xing),然(ran)(ran)后(hou)我(wo)們(men)將剩下的(de)(de)(de)(de)(de)(de)100張機(ji)器(qi)沒有(you)見過的(de)(de)(de)(de)(de)(de)圖片去給它識(shi)別,然(ran)(ran)后(hou)我(wo)們(men)就(jiu)能(neng)(neng)夠得(de)(de)到(dao)(dao)這(zhe)(zhe)個(ge)(ge)(ge)模型(xing)(xing)的(de)(de)(de)(de)(de)(de)準確率了(le)(le)。想(xiang)想(xiang)我(wo)們(men)上學的(de)(de)(de)(de)(de)(de)時候,考試(shi)的(de)(de)(de)(de)(de)(de)內容總(zong)是(shi)不會和我(wo)們(men)平時的(de)(de)(de)(de)(de)(de)作業一(yi)(yi)樣,也(ye)只有(you)這(zhe)(zhe)樣才能(neng)(neng)測試(shi)出學習的(de)(de)(de)(de)(de)(de)真(zhen)正(zheng)效(xiao)果(guo)(guo),這(zhe)(zhe)樣就(jiu)不難(nan)理(li)(li)解為什么(me)(me)要(yao)劃(hua)分(fen)(fen)一(yi)(yi)個(ge)(ge)(ge)測試(shi)集(ji)(ji)了(le)(le)。
我(wo)們知道(dao)機器學習(xi)(xi)(xi)分為(wei)有(you)監(jian)(jian)督學習(xi)(xi)(xi)和無(wu)監(jian)(jian)督學習(xi)(xi)(xi)。無(wu)監(jian)(jian)督學習(xi)(xi)(xi)的(de)(de)(de)效果是(shi)(shi)不可控的(de)(de)(de),常常是(shi)(shi)被用(yong)(yong)來(lai)做探索性(xing)的(de)(de)(de)實驗(yan)。而在實際產品應用(yong)(yong)中,通常使(shi)用(yong)(yong)的(de)(de)(de)是(shi)(shi)有(you)監(jian)(jian)督學習(xi)(xi)(xi)。有(you)監(jian)(jian)督的(de)(de)(de)機器學習(xi)(xi)(xi)就需要有(you)標(biao)注的(de)(de)(de)數據(ju)來(lai)作(zuo)為(wei)先(xian)驗(yan)經驗(yan)。
在進(jin)行(xing)數(shu)(shu)(shu)據(ju)標(biao)注之(zhi)前,我們首先(xian)要對數(shu)(shu)(shu)據(ju)進(jin)行(xing)清洗(xi)(xi),得到符(fu)合我們要求的數(shu)(shu)(shu)據(ju)。數(shu)(shu)(shu)據(ju)的清洗(xi)(xi)包括去除無效(xiao)的數(shu)(shu)(shu)據(ju)、整(zheng)理(li)成(cheng)規(gui)整(zheng)的格(ge)式等等。具體的數(shu)(shu)(shu)據(ju)要求可以(yi)和算法人員確(que)認。
1.分類標(biao)注:分類標(biao)注,就是我們常見的打標(biao)簽(qian)。一般是從既定(ding)的標(biao)簽(qian)中選擇數據對應的標(biao)簽(qian),是封閉集合。如下圖(tu),一張圖(tu)就可以(yi)有很(hen)多分類/標(biao)簽(qian):成人、女、黃(huang)種人、長發等(deng)。對于文(wen)字,可以(yi)標(biao)注主(zhu)語、謂語、賓語,名詞動詞等(deng)。
適用:文(wen)本、圖像、語(yu)音、視頻
應用:臉齡識別,情緒識別,性別識別
2.標框標注:機器視覺中的(de)標(biao)框標(biao)注,很容易理解,就是框選要檢測的(de)對象。如人(ren)(ren)臉識別,首先(xian)要先(xian)把人(ren)(ren)臉的(de)位置確定下(xia)來(lai)。行人(ren)(ren)識別,如下(xia)圖。
適用:圖像
應用:人臉識(shi)別(bie),物品識(shi)別(bie)
3.區(qu)域(yu)標注(zhu):相比(bi)于標框標注(zhu),區(qu)域(yu)標注(zhu)要(yao)求更加精確。邊緣(yuan)可以是柔(rou)性的(de)。如(ru)自動(dong)駕駛中的(de)道路識別(bie)。
適用:圖像
應用:自動駕駛
4.描點標(biao)注:一些(xie)對于特征要求細致的應用中常(chang)(chang)常(chang)(chang)需要描點標(biao)注。人臉識(shi)別(bie)、骨骼識(shi)別(bie)等。
適用:圖像
應用:人臉識(shi)別、骨(gu)骼(ge)識(shi)別
5.其他(ta)標(biao)(biao)注:標(biao)(biao)注的(de)(de)類型除了上(shang)面幾種常見(jian),還有很多個性化的(de)(de)。根據不同(tong)的(de)(de)需求則需要不同(tong)的(de)(de)標(biao)(biao)注。如(ru)自動摘要,就需要標(biao)(biao)注文(wen)章的(de)(de)主要觀(guan)點,這時候的(de)(de)標(biao)(biao)注嚴格上(shang)就不屬于上(shang)面的(de)(de)任何一種了。(或(huo)則你把它歸為分類也是(shi)可(ke)以(yi)的(de)(de),只(zhi)是(shi)標(biao)(biao)注主要觀(guan)點就沒有這么客觀(guan)的(de)(de)標(biao)(biao)準,如(ru)果(guo)是(shi)標(biao)(biao)注蘋果(guo)估計(ji)大(da)多數人標(biao)(biao)注的(de)(de)結果(guo)都差不多。)
1.標注標準的確定
確定好標(biao)準是保證數據(ju)質量的(de)關(guan)鍵(jian)一步,要(yao)保證有(you)個可以參照的(de)標(biao)準。一般可以:
設(she)置標注樣例、模(mo)版。例如(ru)顏色(se)(se)的標準比(bi)色(se)(se)卡。
對于模(mo)棱兩(liang)可(ke)的數據,設置統一(yi)處理方(fang)式,如可(ke)以(yi)棄用(yong),或則統一(yi)標注。
參照的標準有時候還要考慮行(xing)業。以文本情感分析(xi)為例,“疤痕”一詞,在(zai)(zai)心理學行(xing)業中(zhong),可(ke)能是個負面(mian)詞,而在(zai)(zai)醫療行(xing)業則是一個中(zhong)性詞。
2.標注形式的確定
標(biao)注形式一(yi)般(ban)由算(suan)法人員制定,例如某些(xie)文本標(biao)注,問句(ju)(ju)(ju)識別,只(zhi)需(xu)要對句(ju)(ju)(ju)子進行0或1的標(biao)注。是問句(ju)(ju)(ju)就標(biao)1,不是問句(ju)(ju)(ju)就標(biao)0。
3.標注工具的選擇
標(biao)(biao)注(zhu)的形(xing)式(shi)確定后,就是對(dui)標(biao)(biao)注(zhu)工(gong)具(ju)的選擇了。一(yi)般也是由算法人員(yuan)提供。大公司可能會內部開(kai)發一(yi)個專門用于數據標(biao)(biao)注(zhu)的可視化(hua)工(gong)具(ju)。如
也(ye)有使用開源(yuan)的(de)數(shu)據(ju)標注工具(ju)的(de),如(ru)推薦 Github 上(shang)的(de)小(xiao)工具(ju)labelImg
結合自己做過一款數據標記工(gong)具談談設計數據標注工(gong)具的幾個小技巧。
一個數據(ju)標注工具一般包含
1.進(jin)(jin)度條(tiao):用來指示(shi)數(shu)據標(biao)注(zhu)的(de)進(jin)(jin)度。標(biao)注(zhu)人員(yuan)一般都是(shi)有任務量要求的(de),一方(fang)面方(fang)便(bian)標(biao)注(zhu)人員(yuan)查看進(jin)(jin)度,一方(fang)面方(fang)便(bian)統計。
2.標(biao)注(zhu)主體:這個(ge)可以根據(ju)標(biao)注(zhu)形式進行設計,原則(ze)上是越簡潔易用越好。根據(ju)標(biao)注(zhu)所需要的注(zhu)意(yi)力(li)可以分(fen)為(wei)單個(ge)標(biao)注(zhu)和多個(ge)標(biao)注(zhu)的形式,可根據(ju)需求選擇。
3.數據導(dao)入導(dao)出功能(neng):如果你(ni)的標注工具(ju)是直(zhi)接(jie)數據對接(jie)到(dao)模型上的,可(ke)以不需要。
4.收(shou)藏功能(neng):這個(ge)可(ke)能(neng)是沒有(you)接觸過(guo)數據標注的不會(hui)想到(dao)。標注人(ren)員常(chang)(chang)常(chang)(chang)會(hui)出現的一種情況就是疲勞(lao),或者是遇到(dao)了那種模(mo)棱兩可(ke)的數據,則可(ke)以先收(shou)藏,等后面再標。
5.質(zhi)檢機制:在分(fen)發(fa)數據(ju)的時(shi)候,可以隨機分(fen)發(fa)一些已經標注過的數據(ju),來檢測標注人員可靠性(xing)。