送餐機器人、分揀快遞機器人、自動駕駛汽車……人工智能在我們的生活中無處不在。不過,人工智能的最終效果,并非天生,也需要“老師”來教。
“老師”是誰?怎么教的?8月7日上午,在位于蜀山區的安徽數據堂科技有限公司(以下簡稱安徽數據堂),寬敞明亮的辦公室里坐滿了工作人員,他們目光緊盯電腦屏幕一絲不茍地對數據進行標注。他們,就是人工智能的“老師”——數據標注員。
數據、算法和算力是構建AI系統的三大核心要素,三者的協同使現代AI技術實現了從理論到應用的飛躍。數據標注員,被稱為“人工智能(AI)背后的人”,是隨著人工智能的發展而出現的一個新興職業。2020年2月,“人工智能訓練師”正式成為新職業并納入國家職業分類目錄,包含數據標注員、人工智能算法測試員兩個工種。
數據標注員,讓AI更“懂”世界
每個人工智能機器人的誕生,都像一個嬰兒一樣,需要有人教它各種知識,去認識這個世界。它學到的知識越精確,就越能知道世界是什么,萬物是什么。比如,無人駕駛機器人,需要有人提前將一些大樹等障礙物的圖片信息標注好,輸入給它。清晰準確的告訴它“什么是大樹”,下次它才會自動躲避。
“數據標注是機器感知現實世界的起點,是大部分人工智能有效運行的關鍵環節。”安徽數據堂項目中心負責人王章帥說,簡單來說,數據標注是對語音、圖片、文本、視頻等數據進行特征標簽,將非結構化的數據轉變為機器可識別的結構化數據。
這些圖片信息或者語言信息,都是數據標注員提前標注好的,就像老師寫“教案”一樣。機器人學習后,才能變得聰明、智能。
“蜀山區依托科技創新,推動人工智能技術的迅猛發展,帶來了大量AI算法的訓練需求,這推動了數據標注產業的快速增長,人工智能訓練師的規模也由此快速增長。”王章帥說。
多元化需求,挖掘新的潛力
隨著人工智能行業發展,越來越多的公司和企業需要大量的高質量數據作為支撐,數據標注行業是個朝陽行業,前景廣闊。
據了解,在求職就業市場,數據標注員從業人員行業入職門檻其實并不高,但涉及專業領域,則對從業者的學歷提出高要求。“00”后李凱旋便是數據標注行業中的一員,已在安徽數據堂工作了三年。
在不斷學習中,李凱旋逐漸加深了對這份工作的理解:“要‘教會’人工智能,首先要把知識轉化成它能消化和吸收的‘語言’。你可以把數據想象成AI的‘燃料’,對采集回來的原始數據進行加工、標注的過程就可以提取出一些數據信息。比如,在采集大量的語音數據后,AI數據標注師會對語音進行標注,提取特征,將特征‘喂’給人工智能模型,那么模型算法相當于總結了之前人工標注出的信息,并找出通用規律,那這個人工智能模型就具備了人腦才有的認知和判斷能力。”
數據標注員需要了解不同應用行業的背景知識,根據不同項目特點作出不同標注。人們生活中常見的智能音箱、語音助手、網絡客服、人臉識別等產品的背后,都有人工智能訓練師的身影。“面對多元化的人工智能需求,要不斷學習新規則提供定制服務。雖然有挑戰,但看到人工智能產品越來越聰明,人們的生活變得更加便捷和舒適,我找到了工作的價值所在”李凱旋說。
產業蓬勃發展,前景可期
數據標注行業流行著一句話,“有多少智能,就有多少人工。”目前,蜀山區已吸引了數十家人工智能領域企業,擁有近萬名人工智能數據標注員,服務于醫療、教育、自動駕駛、新零售等場景。
安徽數據堂總部在北京,成立于2010年,是一家面向支撐人工智能產業發展,專業從事人工智能基礎數據服務的企業。經過十余年積累,已形成了數據多模態采集、自動處理、質量評測、安全計算的全鏈條核心技術體系及服務平臺。
2018年,王章帥加入到安徽數據堂,負責數據標注業務。他從標注、質檢、審核、培訓師,成長為項目中心負責人,經歷了數據標注全部管理流程。王章帥說:“目前為止,人工智能的發展還遠遠未到高峰,所以數據標注行業依然處于一個蓬勃發展的時期。未來,隨著人工智能的不斷發展,數據標注可能將從勞動密集型產業轉向技術型產業。”
近年來,蜀山區搶抓人工智能產業發展機遇,全力培育開放、創新、活躍的人工智能發展生態,充分發揮比較優勢,持續擦亮“數字新園區”金字招牌,打造以安徽智能軟件園為核心區,輻射涵蓋網達產業園、聯東U谷等周邊園區的“一核多園”產業布局;依托中貝通信等龍頭企業進行產業鏈招商,帶動上下游協同發展,一批行業領先項目落地蜀山區。目前,蜀山區集聚軟件相關企業超300家,2023年全年營收超200億元。(劉影影 劉亞萍)
關注精彩內容