刷量、買粉、偽創作… 數據造假最終受傷的是誰?
日期:2018-11-06  來源:中國青年報

 

原標題:刷量、買粉、偽創作… 數據造假最終受傷的是誰?

  一篇自媒體文章不僅引起了公眾對旅游社區平臺馬蜂窩點評內容抄襲的質疑,也捅開了互聯網行業數據造假的“馬蜂窩”。

  在對“是否存在內容抄襲或數據造假”的質疑諱莫如深數天后,馬蜂窩聯合創始人兼CEO陳罡承認,其“在餐飲等點評數據方面存在部分問題,但遠沒有外界所表述的那么夸大”。然而,業內人士指出,互聯網領域的數據造假遠比想象的更嚴重,而且造假套路也呈現“道高一尺魔高一丈”的趨勢。

  從最早的電商刷單、刷好評,到之后的微信公眾號買粉、刷閱讀量,再到網絡直播平臺買流量、App機器人用戶充數據,各類數據造假的手段不斷翻新,而真實數據成為難以獲知的“高度機密”。

  難道沒有機制可以識別、約束這些“套路”嗎?事實上,一些平臺企業和投資機構早已嘗試通過反爬蟲 、第三方數據調查等技術手段預防和應對數據造假,但是效果并不好。另外,部分投資機構出于種種考慮,默認一些互聯網企業的數據造假行為,甚至與之合謀。技術難題也隨之成為更加復雜的人性謎題。

  進步最快的是造假的方式

  在“馬蜂窩事件”中,備受質疑的一個數據造假“套路”是,不少用戶在其他平臺的旅行攻略、點評內容,被搬運到馬蜂窩上。實際上,此類做法并不新鮮。

  今年7月,生活社區小紅書通過官方微博指責大眾點評大量抄襲其用戶的內容。具體做法是批量建立虛假賬號,抄襲及搬運用戶在小紅書發布的原創內容。據小紅書估計,抄襲的數量在百萬條量級。

  一些用戶專門為小紅書平臺創作的內容被“copy”后,依然留著原本內容的影子。小紅書用戶“詹小豬Coco”曾于6月6日發視頻慶祝小紅書創立紀念日,“copy”后,文案竟變成了“祝點評生日快樂”,但視頻中用戶說的仍然是“小紅書”,而且6月6日也不是大眾點評的“生日”。

  當時,大眾點評方面對此回應稱,這是因為新上線試運營的推薦欄目在未經授權的情況下對相關內容進行了違規轉載,已第一時間完成所有內容排查與全部清理下線,并通過技術手段確保該類問題不再出現。

  段民(化名)從2002年開始從事數據挖掘工作,是國內最早一批大數據行業應用的開拓者。他告訴中國青年報·中青在線記者,這類搬運其他平臺內容為己所用的行為,屬于常見的“偽創作”造假套路,即通過網絡爬蟲軟件,將其他平臺的數據和內容復制過來,稍加修改后變成自己的內容。與其他造假手法相比,這類做法更隱蔽,需要專業人士持續跟蹤 、分析 、比對才能發現。

  段民表示,除“偽創作”以外,互聯網內容平臺常見的數據造假“套路”還包括虛報數據、“僵尸用戶”、虛假行為等。前兩種“套路”因用戶了解有限,平臺與用戶之間存在一定門檻,往往難以得知;而通過機器人冒充真實用戶,訪問網站或App從而增加流量或點擊量的虛假行為,是離普通用戶最近的一種造假“套路”。

  微博、微信等平臺的“刷量”“買粉”,是其中的典型代表。2016年9月末,因微信官方的后臺調整行為,屏蔽了公眾號刷量工具的操作,許多自媒體大V的真實用戶和閱讀數量顯現出來。此前一周平均閱讀量上萬的公眾號,在當天最少的閱讀量只有200;此前閱讀量在10萬以上的公眾號,當天的閱讀量只有2萬左右。

  此外,一些音視頻節目的播放量也出現造假。此前,在國內首起因視頻網站“刷量”而引發的不正當競爭案件中,被告杭州飛益信息科技有限公司針對愛奇藝 、優酷土豆、騰訊視頻等主流視頻網站上的視頻內容“刷量”,對某個視頻節目“刷量”1萬次,僅收費15元。

  上海市徐匯區人民法院公布的信息顯示,飛益公司多名員工通過多個域名、不斷更換訪問IP地址等方式,連續訪問愛奇藝網站視頻,在短時間內迅速提高視頻訪問量,僅2017年2月1日至6月1日,飛益公司在愛奇藝網站制造了不少于9.5億余次的虛假訪問,按照該公司每萬次15元的刷量收費標準,共非法獲利上百萬元。

  技術的發展讓造假成本更低

  與“刷量”“買粉”“偽創作”等內容平臺的造假手法相比,夸大用戶和產品交易數據,則是互聯網平臺上更直接,也更難被發現的數據造假方式。

  2015年,有業內技術人員在知名社區“知乎”上爆料,通過反向編譯蜻蜓FM安卓版本軟件,他發現蜻蜓FM軟件中隱藏有名為“普羅米修斯”和“宙斯”的強行自啟代碼。前者可以在用戶不知情的情況下,在手機后臺啟動無窗口透明界面;后者則可以自主觸發廣告商的廣告,并回傳給第三方數據公司,從而完成“用戶自主點擊廣告”的操作。

  因為普通用戶很難發現這種技術方法,而且可以提高日活躍用戶數(DAU)等數據指標,所以該爆料甫一出現,便立即引發關注。對此,蜻蜓FM曾回應稱,相關代碼是用于新功能上線時進行AB對照測試、統計相關用戶指標。

  不過,這類說法未能解釋該平臺的日活用戶數量和廣告點擊量為何突然增加。此前,蜻蜓FM在宣布用戶數量達到1.5億的兩個月之后,就宣布用戶數突破2億,許多業內人士懷疑該數據的真實性。

  除這類由專業人士爆料的案例之外,也有一些平臺可能因一些“長相奇怪”的數據而引起質疑。同樣在2015年,互聯網農業公司一畝田因出現“9小時前李老板采購了1073741.8235噸洋蔥”“6小時前劉老板采購了999.999噸毛桃”等數額怪異的交易信息而陷入數據造假疑云中。

  彼時,一畝田展示了其過去一年的交易后臺數據,并稱一畝田網站確實還有一些產品和數據不夠完善,仍處于數據測試階段。

  中國首席數據官聯盟專家成員鮑忠鐵表示,許多面向用戶端的互聯網企業都希望講述一個快速增長的“獨角獸”的故事,而市場份額、客戶數量、日活用戶等數據就成了體現企業估值快速提高的重要指標。

  鮑忠鐵在移動互聯網界工作多年,他對一些App宣稱的用戶數量嗤之以鼻。據他的觀察,很多App的下載量和用戶量都可以通過技術手段造假:

  因為安卓系統的開放性,破解系統權限后,一臺平板電腦設備上甚至可以裝十多個同樣的App,配合不需實名制的虛擬運營商電話卡,可以形成十多個看似真實 、獨立,實則批量化虛假的用戶。而且,由于虛擬運營商的手機號可以包月使用,這樣的造假手法成本得以進一步降低。

  當數據造假變成一場合謀

  數據造假的“套路”如此大行其道,甚至已經形成特定的產業鏈條,為何會出現如此局面?

  前海梧桐合伙人王蔚分析,互聯網企業比較常見的是在運營數據上造假,包括用戶數據 、產品數據 、財務數據等,因為這類數據可以幫助企業獲得激烈競爭中的優勢地位,提升業務合作報價。

  此外,早期互聯網企業的投融資估值一般采用流量法或市銷率法,夸大的運營數據一般會對應更高的估值。王蔚表示,在運營數據造假以外,還有不少互聯網企業在融資經歷 、融資金額等方面也會造假。“我們都習慣了,官宣融資額除以510有可能更接近真實數據。”

  王蔚認為,除互聯網企業自身競爭需求和融資需求驅動外,投資人作為另一重要的參與方,在數據造假問題上也不是沒有責任的。由于財務投資者需要在投資互聯網公司時“低買高賣”,有時候為了推高企業估值以便實現股權退出,也會成為數據造假的協同者。

  值得注意的是,投資機構在企業數據造假中扮演的角色非常微妙。在成為某些企業的投資者之前,也會通過一些技術手段發現或破解刷量、刷粉等數據造假的手法。

  遠瞻資本合伙人秦崗表示,由于許多公司數據“注水”,大多數投資機構不再將企業自己公布的數據作為評判一個創業公司或產品的主要指標,可能會聘請第三方數據機構來開展盡職調查,以驗證各項數據指標的真實性。

  不過,秦崗也指出,這類做法一般出現在投資項目比較成熟的中晚期,或投資金額較大的情況下。對于早期創業項目,或投資金額不夠大的項目,很多投資機構往往沒有相應的預算。

  鮑忠鐵表示,對于網站、App的真實運營數據,網絡運營商一清二楚。“App什么時間打開,什么時間關閉,裝在哪些設備上,通過運營商的DPI數據是可以解析出來的。”但令人遺憾的是,這類真實數據往往得不到重視,一些VC投資機構、第三方數據公司也不會充分利用這些數據。“沒人做這個事情,因為對別人只有害、沒有利。”

  鮑忠鐵也注意到,有些第三方監測軟件或第三方數據咨詢公司有時也會充當數據造假的“幫兇”。一些在業內頗有名氣的第三方數據咨詢公司所公布的特定App的下載量、月活用戶等數據,也經常被質疑。

  例如,國內知名數據研究機構艾瑞咨詢曾發布的數據產品,就被今日頭條、“大姨媽”等平臺質疑可能弄虛作假。2017年年底,艾瑞咨詢聯合美柚App發布的《2017年中國女性生活形態研究報告》顯示,美柚的月度總有效使用時長占據所有經期管理類App的95%,這也意味著,“大姨媽”等其他經期管理App的閱讀有效使用時長加起來還不到5%,這被“大姨媽”指責為“收錢說瞎話”。

  “造假是‘多贏’的”,這已經成為數據產業鏈病態發展的一個奇怪結論。重慶大學網絡與大數據法治戰略研究院院長齊愛民分析,企業運營數據和融資數據“好看”了,既方便部分投資機構退出,也能讓“刷量”的水軍商家從中牟利;內容方可以通過大量刷取點擊量,炮制市場火爆的假象,進而吸引真實用戶的目光;平臺方也需要通過這種假象來營造優質平臺的形象,從而進一步吸引廣告投放。

  鮑忠鐵認為,刷單等數據造假行為的根本原因,還是“to VC”的創業模式泛濫,無論創業團隊還是投資機構,都希望快速將企業估值做大,針對這類作假行為,相應的監督還缺乏執行力。

  王蔚表示,數據造假屬于不正當獲益的商業手段,最終仍需要社會埋單,但很難用道德約束或行業自律的方法去治理,或許還是“底線管理”原則更加適用:從立法上界定清楚“數據造假”和“商業欺詐”違法犯罪行為之間的聯系,抬升“數據造假”的獲益成本。

         王林 張均斌

 

腾讯分分彩开奖采集