熱門關鍵詞:
熱門關鍵詞:
江蘇鳳谷節能科技有限公司 坦白講如果沒有擁有數據思維,那即使擁有了很多數據,而且不管這些數據有多大,都不能說你在做大數據,所以大數據的核心其實是要擁有數據思維。”
什么是數據思維?數據思維的最核心是利用數據解決問題,利用數據解決問題的最核心是要深度了解需求,了解真正要解決什么樣的問題,解決問題背后的真實目的是什么。在解決問題的過程中我們使用數據的方法,通??梢越辛炕姆椒?。
所謂量化的方法,就是解決問題的過程要可衡量、可評估,有非常明確的定義,這點在車老師書里有一篇就介紹了他的幾個定義,即“PIMA”,這四個字母分別代表了解決問題時要考慮的幾個緯度。
需要有明確的目的(P);在達到目的的過程中需要有清晰的定義(I);在解決問題的過程中所使用的手段是可量化的(M);對問題、解決問題的全過程可評估(A)。
所以不管是財務、人事、還是生產或銷售的每一個環節都是可量化的,可以通過數據解決問題的。
通過量化的數據解決問題,就是我們所謂的數據思維。舉明略在金融行業的實際案例來看:我們先思考一下,金融行業里銀行、保險或證券公司經營的目的是什么?這是核心。車老師在書里也介紹了,考慮大數據也好,考慮數據思維也好,首先是要分析出所做事情的真正目的是什么?然后再進行量化分析。
實際上,金融行業企業最核心的是風險控制問題。銀行獲取存款的過程做一個最基本的存款操作就行了,是沒有任何風險的。但當銀行想盈利的時候,存款業務因為要支付儲戶利息成為非賺錢手段,想賺錢要通過貸款實現。銀行把收過來的存款貸出去,兩者之間的利差是銀行的利潤。
所以對于銀行來講,真正的核心訴求是如何在貸款過程中降低風險,盡量減少貸款個體或企業不還款的風險。這個風險越低,銀行的利潤空間就越大。因為整個貸款利差并不高,可能只有幾個點,最多也不會超過十個點,即便是現在的小貸,也不會超過十個點。但一般一個貸款人還不了款的話,銀行利潤就會被大打折扣?,F在整個市場上的風險率或壞賬率有時會高達百分之三、百分之五,即便比較低的時候可能在很多銀行有百分之一點幾、百分之二點幾。所以如何有效的控制這個風險對銀行很重要。
所以對于銀行來講,他需要了解貸款人的還款能力。而且還款能力從他貸款到還款過程中也在時時發生變化,有消費者在貸款瞬間是有還款能力的,但在還款之前的整個周期里他經歷的狀況其實在不斷發生變化。企業更是這樣子,每個企業在經營過程中的狀態是瞬息萬變的。所以對于銀行來講了解消費者或企業的整個經營狀況、資產狀況、風險狀況是非常關鍵的,中間的每個環節都可能造成貸款人最后無法還款,銀行需要評估這里面的每一個因素與最后能否發簽證的關系。
在傳統金融行業里,很多銀行只會考慮發貸款或者發信用卡之前的風控分析。很多銀行到人民銀行拿到一些個人消費者征信報告,這些數據包含了消費者以前其他的貸款、每個月工資情況等等這樣一些最基本的信息。銀行根據信息打分,然后這個分數之上的消費者可以獲批貸款,在分數之下的就不會獲批。這整個過程是成本較高的,因為任何一個報告都是要花錢去買。第二點是很多情況下需要面訪,現場進行風險考察,然而這個考察過程中數據的真實性和有效性也是值得商榷的。
比如我們的一個客戶——郵政儲蓄銀行。向他們貸款的很多客戶是農民,他們在種植或者養殖生產中需要資金支持,比如用來投資買種子或者購買種植養殖的基本設施。但是當面談的時候他或許假裝家里有一頭牛,我將來可以賣掉這個牛還款,但這個牛有可能是從他的鄰居家拉過來的。所以真正證明貸款申請人信用的數據真實性和有效性是解決這個問題過程中非常核心的問題。數據是否是真實有效的、數據是否跟最后結果有關系,這就是我們在數據思維決策過程中需要考慮的兩個非常核心的問題。
“ 其實我是有一點近視眼的,我看很遠處的一個廣告牌,上面的文字有時我看得不是很清楚,但我的大腦是能夠猜出來文字大概是講什么的。本質上是因為在我的大腦是擁有識別低分辨率的數據,同時再把它還原推測到高分辨率的那個能力。這種能力其實也是大數據公司里面非常核心的能力。"2數據治理還原推測到“高分辨率”我接下來就給大家講講處理數據里面最核心的兩個工作。第一個工作我們稱之為數據清洗或是叫數據治理。
很多公司擁有大量的數據,但如果這些數據沒有辦法整合到一起,沒辦法清洗、在線化,沒辦法讓使用者方便取用,那即便數據量再大也不能說這個公司有大數據。所以清洗和整合數據是非常重要的。通常在技術領域有一個概念叫“ETL”,ETL其實只把數據抽取到一起,進行數據格式統一化,最后再加載到一個可應用的平臺上,這是整個數據治理行業里面最核心的幾個環節。但在大數據概念出來之后,跟傳統ETL有一個挺大的區別在于數據格式跟以前相比更加復雜。通常我們所謂的大數據、我們處理的數據除了包括以前的結構化數據,還包括新的非結構化數據。
非結構化數據是指數據里每一條記錄之間的格式并不統一,甚至很多數據都是臟數據。大家可以想象銀行的很多數據,比如消費者注冊信息:姓名、年齡、手機號、身份證號,包括月收入可能都要求填,但很多情況下大家填信息的時候格式都不一定統一,比如說手機號可能有一些人填沒有加“86”,再比如說身份證號有人填的是18位的,有人填的是15位的,這些信息是否是統一格式對于未來的數據應用非常關鍵。
今天很多互聯網公司都是擁有大量數據的,中國最大的三巨頭BAT都擁有海量消費者網名數據。百度云每天一個人搜索數據,阿里擁有每個人每天購物的瀏覽數據和下單采購數據,騰訊就不用說了,他有我們每個人的聊天記錄、通信記錄。他們擁有的數據都是非??膳碌?。這些數據有一個很主要的工作在清洗過程中,就是需要把數據的唯一用戶標識進行統一,因為很多的數據是散落在不同的子平臺上的,在不同的平臺上的可能會有不同的唯一標識,在有的情況下一個網名是處于登陸狀態,而有些情況下是處于沒有登錄的情況。如何把不同的數據都打到同一個標簽上是很多公司正在做的事情。
像我最近在跟幾個阿里包括車老師,還有騰訊的人聊,他們自己內部都有一個類似于叫自然人計劃的項目,這是公司的核心項目。這個項目工作就是把整個集團下屬的所有公司的數據收集到一起,把這些數據連到一塊兒,把消費者行為最后標到一個真正的可以看出來的一個自然人身上。比如說像我在阿里體系里不僅是有購物行為,還有在高德地圖上的瀏覽的行為,而且我在高德地圖上是沒有登錄的,那在阿里體系里面他就需要通過一些算法的猜測,而這個人使用地圖的具體行為可能正好也就是這個人使用的支付寶賬號的信息,他們通過一個算法是可以關聯起來的。實際上這個關聯并不難,因為我這兩個行為都是落在同一個手機上的,他可以通過手機的ID就可以把我的行為連起來了,最后得出結論就是吳明輝的。
所以前面我也反復提到過好多次,數據實際上是每一個人、每一個個體、每個機器、每天日常的各種人的行為的一些記錄。因為程序的能力,可以把數據及行為記錄下來,這就產生數據。但是任何一個商業公司也好,甚至是國家也好,都沒有能力去記錄一個個體、一個人一天二十四小時所有的行為,這是不可能的。每個人只能記錄一個片段,所以數據清洗的過程還有一個很重要的工作就是想辦法把一個人的所有行為進行補全,甚至對你的未來行為進行預測。
這就好比平時用數碼相機照相,平時看到一張照片是一百萬像素、五百萬像素還是一千萬像素的,事實上大家可以理解整個世界的像素是無窮的。但是我們最后把拍照存下來的時候肯定是有限制的,如幾百萬或者一千萬,最高可能有幾千萬像素的相機。但實際上拍下來,真正數碼化存下來的時候,他已經是一個采樣的過程,就是把真正分辨率極高的這個真實世界里面的一部分信息抽樣存下來,然后分辨率越高,就是抽樣的比例越高。分辨率越低,抽樣的比例越低。
而我們真正記錄下來數據,記錄得越全面,對還原真實世界就還原得越好。但是很多情況下,如果真正的技術、好的算法或者數據清晰的整合能力很強的話,可以把一個低分辨率的信息,還原成原來很高分別率,很真實的情況。就像我們的人眼其實就很厲害,因為其實我是有一點近視眼的,但是我看很遠處的一個廣告牌,上面的文字有的時候我看得不是很清楚,但是我的大腦是能夠猜出來到底這個文字是講什么的,本質上是因為在我的大腦里面是擁有識別低分辨率的數據,同時再把它還原推測到高分辨率的那個能力。這種能力其實也是大數據公司里面非常核心的能力。
“并不是所有的數據在系統里面都存在,比如說我跟我同事之間的關系,我跟我愛人之間的家庭關系,可能在公安系統里面并沒有完整的存儲數據。但是很多數據可以非??焖俚谋话l現出來。”3數據關聯同一趟火車到互為同事的推斷前面我給大家介紹的是數據的清洗整合。實際上大數據技術除了信息整合之外,另外一個很核心的技術是數據的關聯。
前面我也提到了很多大數據客戶不管是政府還是企業都有很多不同的數據,因為數據本身是需要關聯起來,在數據真正聯系到一起之后,在數據內部我們可以發現很多數據和數據之間的關系,而這些關系真正的挖掘好了之后,它的實戰價值是非常大的,可以起到1+1遠遠大于2的作用。
在美國有一家非常有名的大數據企業叫“Palantir”,這家公司現在雖然還沒上市,但市值已達兩百億美金,是全球沒有上市的企業里市值排名前五的企業。這家企業之所以厲害是因為其在利用數據關聯這種能力去給美國情報機構,包括CIA、美國國土安全局提供數據挖掘服務,幫助他們進行反恐和非常重大的刑事案件追查,數據的關聯在很多情況下能夠幫助政府很好的發現犯罪份子。
明略數據現在也在利用類似的技術給中國的公安局等部門提供類似的服務。在整個公安破案過程中,這種關系的挖掘是非常重要的。就像前面我說的,并不是所有數據在系統里面都存在,比如說我跟我同事之間的關系,我跟我愛人之間的家庭關系,可能在公安系統里面并沒有完整的存儲數據。但是很多數據可以非常快速的被發現出來。舉個例子,當時我們在河北做了一個試點,我也是很強烈地被震撼到了。當時把我的名字輸到這套系統之后,其實是通過我們自己做開發的系統,我們可以用非常快速的方法查出哪一些人是我在明略的同事。
雖然在公安系統里并沒有記錄我是明略的,我的同事也是明略的,我們之間這種同事關系,但在公安系統里記錄了我曾經從北京坐了一趟動車去到了河北,我的另外一個同事也坐這趟車過去,同天晚上我們又入住了同一家酒店,就這樣簡簡單單的信息,就把我們兩個人關聯上了。我們其他同事用類似的方法都可以非常簡單地被關聯在一起。當我們利用這樣方法把幾組數據,比如乘坐火車的數據和住酒店的數據關聯到一起之后,很多關聯關系就自動的被發現出來了。這個價值對于整個安全體系來講是非常非常重要的。今天其實很多公安都在試用類似的方法偵破重大案件。
總結
大數據的核心有兩個:第一,要知道數據是如何獲取的。第二,要擁有“數據思維”,擁有數據思維最核心是我們要考慮到一個事物從起因到結果的發展過程,所有的數據其實是記錄這個過程中的證據。
當一個機構在給一個消費者、一個個人提供服務的過程中,這些數據很多情況下就被存儲下來了。存儲下來的數據可以通過大數據技術來還原最開始的真相,通過統計學的模型可以把缺失的信息補全,用來預測未來的信息,這就是大數據的本質。
鳳谷工業爐集設計研發,生產銷售,培訓指導,售后服務一體化,專利節能技術應用,每年為企業節省40%-70%的能源成本,主要產品加熱爐,工業爐,節能爐,蓄熱式爐,垃圾氣化處理設備,歡迎致電咨詢:0510-88818999