『壹』 大數據時代:五大商業分析技術趨勢
大數據時代:五大商業分析技術趨勢
目前,趨勢中心對如何應對分析挑戰的關注力度並不亞於他們考慮在新商業視角中如何充分利用機遇的力度。例如,隨著越來越多的公司開始不得不面對海量數據以及 考慮如何利用這些數據,管理與分析大型不同數據集的技術開始出現。提前分析成本與性能趨勢意味著公司能夠提出比以前更為復雜的問題,提供更為有用的信息以 幫助他們運營業務。
在采訪中,首席信息官們總結出了5大影響他們進行分析的IT趨勢。它們分別為:大數據的增長、快速處理技術、IT商品的成本下降、移動設備的普及和社交媒體的增長。
1.大數據大數據指非常龐大的數據集,尤其是那些沒有被整齊的組織起來無法適應傳統數據倉庫的數據集。網路蜘蛛數據、社交媒體反饋和伺服器日誌,以及來自供應鏈、行業、周邊環境與監視感測器的數據都使得公司的數據變得比以往越來越復雜。
盡管並不是每個公司都需要處理大型、非結構型數據集的技術。VeriskAnalytics公司首席信息官PerryRotella認為所有的首席信息 官都應當關注大數據分析工具。Verisk幫助金融公司評估風險,與保險公司共同防範保險詐騙,其在2010年的營收超過了10億美元。
Rotella認為,技術領導者對此應當採取的態度是,數據越多越好,歡迎數據的大幅增長。Rotella的工作是預先尋找事物間的聯系與模型。
HMS公司首席信息官CynthiaNustad認為,大數據呈現為一種「爆炸性」增長趨勢。HMS公司的業務包括幫助控制聯邦醫療保險 (Medicare)和醫療補助(Medicaid)項目成本和私有雲服務。其客戶包括40多個州的健康與人類服務項目和130多個醫療補助管理計劃。 HMS通過阻止錯誤支付在2010年幫助其客戶挽回了18億美元的損失,節約了數十億美元。Nustad稱:「我們正在收集並追蹤大量素材,包括結構性與 非結構性數據,因為你並不是總是知道你將在其中尋找什麼東西。」
大數據技術中談論最多的一項技術是Hadoop。該技術為開源分布式數據處理平台,最初是為編輯網路搜索索引等任務開發的。Hadoop為多個「非關系型(NoSQL)」技術(其包括CouchDB和MongoDB)中的一種,其通過特殊的方式組織網路級數據。
Hadoop可將數據的子集合分配給成百上千台伺服器的處理,每台伺服器匯報的結果都將被一個主作業調度程序整理,因此其具有處理拍位元組級數據的能力。 Hadoop既能夠用於分析前的數據准備,也能夠作為一種分析工具。沒有數千台空閑伺服器的公司可以從亞馬遜等雲廠商那裡購買Hadoop實例的按需訪 問。
Nustad稱,盡管並不是為了其大型的聯邦醫療保險和醫療補助索賠資料庫,但是HMS正在探索NoSQL技術的使用。其包括了結構性數據,並且能夠被 傳統的數據倉庫技術所處理。她稱,在回答什麼樣的關系型技術是經實踐證明最好用的解決方案時,從傳統關系型資料庫管理出發是並不明智。不過,Nustad 認為Hadoop正在防止欺詐與浪費分析上發揮著重要作用,並且具備分析以各種格式上報的病人看病記錄的潛力。
在采訪中,那些體驗過Hadoop的受訪首席信息官們,包括Rotella和Shopzilla公司首席信息官JodyMulkey在內都在將數據服務作為公司一項業務的公司中任職。
Mulkey稱:「我們正在使用Hadoop做那些以往使用數據倉庫做的事情。更重要的是,我們獲得了以前從未用過的切實有用的分析技術。」例如,作為 一家比較購買網站,Shopzilla每天會積累數太位元組的數據。他稱:「以前,我們必須要對數據進行采樣並對數據進行歸類。在處理海量數據時,這一工作 量非常繁重。」自從採用了Hadoop,Shopzilla能夠分析原始數據,跳過許多中間環節。
GoodSamaritan醫院是一家位於印第安納州西南的社區醫院,其處於另一種類型。該醫院的首席信息官ChuckChristian稱:「我們並 沒有我認為是大數據的東西。」盡管如此,管理規定要求促使其存儲整如龐大的電子醫療記錄等全新的數據類型。他稱,這無疑要求他們要能夠從數據中收集醫療保 健品質信息。不過,這可能將在地區或國家醫療保健協會中實現,而不是在他們這種單個醫院中實現。因此,Christian未必會對這種新技術進行投資。
IslandOneResorts公司首席信息官JohnTernent稱,其所面臨的分析挑戰取決於大數據中的「大」還是「數據」。不過,目前他正在 謹慎地考慮在雲上使用Hadoop實例,以作為一種經濟的方式分析復雜的抵押貸款組合。目前公司正在管理著佛羅里達州內的8處分時度假村。他稱:「這種解 決方案有可能解決我們目前正遇到的實際問題。」
2.商業分析速度加快肯塔基大學首席信息官VinceKellen認為,大數據技術只是快速分析這一大趨勢中的一個元素。他稱:「我們期待的是一種更為先進的海量數據分析方法。」與更為快速地分析數據相比,數據的大小並不重要,「因為你想讓這一過程快速完成」。
由於目前的計算能夠在內存中處理更多的數據,因此與在硬碟中搜索數據相比,其計算出結果的速度要更快。即使你僅處理數G數據,但情況依然與此。
盡管經過數十年的發展,通過緩存頻繁訪問的數據,資料庫性能提升了許多。在載入整個大型數據集至伺服器或伺服器集群的內存時,這一技術變得更加實用,此時硬碟只是作為備份。由於從旋轉的磁碟中檢索數據是一個機械過程,因此與在內存中處理數據相比,其速度要慢許多。
Rotella稱,他現在幾秒中進行的分析在五年前需要花上一個晚上。Rotella的公司主要是對大型數據集進行前瞻性分析,這經常涉及查詢、尋找模 型、下次查詢前的調整。在分析速度方面,查詢完成時間非常重要。他稱:「以前,運行時間比建模時間要長,但是現在建模時間要比運行時間長。」
列式資料庫伺服器改變了關系型資料庫的傳統行與列結構,解決了另一些性能需求。查詢僅訪問有用的列,而不是讀取整個記錄和選取可選列,這極大地提高了組織或測量關鍵列的應用的性能。
Ternent警告稱,列式資料庫的性能優勢需要配合正確的應用和查詢設計。他稱:「為了進行區別,你必須以適當的方式問它適當的問題。」此此同時,他 還指出,列式資料庫實際上僅對處理超過500G位元組數據的應用有意義。他稱:「在讓列式資料庫發揮作用之前,你必須收集一規模的數據,因為它依賴一定水平 的重復提升效率。」
保險與金融服務巨頭JohnHancock公司的首席信息官AllanHackney稱,為了提高分析性能,硬體也需要進行提升,如增加GPU晶元,其 與游戲系統中用到的圖形處理器相同。他稱:「可視化需用到的計算方法與統計分析中用到的計算方法非常相似。與普通的PC和伺服器處理器相比,圖形處理器的 計算速度要快數百倍。我們的分析人員非常喜歡這一設備。」
3.技術成本下降
隨著計算能力的增長,分析技術開始從內存與存儲價格的下降中獲益。同時,隨著開源軟體逐漸成為商業產品的備選產品,競爭壓力也導致商業產品價格進一步下降。
Ternent為開源軟體的支持者。在加入IslandOne公司之前,Ternent為開源商業智能公司Pentaho的工程副總裁。他稱:「對於我來說,開源決定著涉足領域。因為像IslandOne這樣的中等規模公司能夠用開源應用R替代SAS進行統計分析。」
以前開源工具僅擁有基本的報告功能,但是現在它們能夠提供最為先進的預測分析。他稱:「目前開源參與者能夠橫跨整個連續統一體,這意味著任何人都能夠使用它們。」
HMS公司的Nustad認為,計算成本的變化正在改變著一些基礎性架構的選擇。例如,創建數據倉庫的一個傳統因素是讓數據一起進入擁有強大計算能力的 伺服器中以處理它們。當計算能力不足時,從操作系統中分離分析工作負載可以避免日常工作負載的性能出現下降。Nustad稱,目前這已經不再是一個合適的 選擇了。
她稱:「隨著硬體與存儲越來越便宜,你能夠讓這些操作系統處理一個商業智能層。」通過重定數據格式和將數據裝載至倉庫中,直接建立在操作應用上的分析能夠更為迅速地提供答案。
Hackney觀察認為,盡管性價比趨勢有利於管理成本,但是這些潛在的節約優勢將被日益增長的能力需求所抵消。盡管JohnHancock每台設備的存儲成本在今年下降了2至3%,但是消耗卻增長了20%。
4.移動設備的普及與所有的應用一樣,商業智能正日益移動化。對於Nustad來說,移動商業智能具有優先權,因為每個人都希望Nustad能夠隨時隨地親自訪問關於她的 公司是否達到了服務級協議的報告。她還希望為公司的客戶提供數據的移動訪問,幫助客戶監控和管理醫療保健開銷。她稱:「這是一個客戶非常喜歡的功能。在五 年前,客戶不需要這一功能,但是現在他們需要這一功能了。」
對於首席信息官來說,要迎合這一趨勢更多的是為智能手機、平板電腦和觸摸屏設備創建適用的用戶界面,而不是更為復雜的分析能力。或許是出於這方面的原因,Kellen認為這相對容易。他稱:「對於我來說,這只是小事情。」
Rotella並不認為這很簡單。他稱:「移動計算影響著每一個人。許多人開始使用iPad工作,同時其它的移動設備正在呈現爆炸式增長。這一趨勢正在 加速並改變我們與公司內部計算資源交互的方式。」例如,Verisk已經開發了能夠讓理賠人在現場快速進行分析的產品,因此他們能夠進行重置成本評估。他 稱:「這種方式對我們的分析產生了影響,同時也讓每一個需要它的人隨手就能使用。」
Rotella稱:「引發這種挑戰的因素在於技術的更新速度。兩年前,我們沒有iPad,而現在許多人都在使用iPad。隨著多種操作系統的出現,我們正力爭搞清楚其是如何影響我們的研發的,這樣一來我們就不必一而再、再而三的編寫這些應用。」
IslandOne的Ternent指出,另一方面,為每一種移動平台創建原生應用的需求可能正在消退,因為目前手機和平板電腦上的瀏覽器擁有了更為強 大的功能。Ternent稱:「如果我能夠使用一款專門針對移動設備的基於web的應用,那麼我並不能肯定我將會對定製的移動設備應用進行投資。」
5.社交媒體的加入隨著臉譜、推特等社交媒體的興起,越來越多的公司希望分析這些由網站產生的數據。新推出的分析應用支持人類語言處理、情感分析和網路分析等統計技術,這些並不是典型商業智能工具套件的組成部分。
由於它們都是新的,許多社交媒體分析工具可以作用服務獲得。其中一個典型範例是Radian6。Radian6為軟體即服務(SaaS)產品,近期已經 被Salesforce.com所收購。Radian6是一種社交媒體儀表盤,為TwITter的留言、臉譜上的帖子、博客與討論版上的帖子與評論中提及 的特定術語以正負數顯示,尤其是為商標名提供生動的直觀推斷。當營銷與客戶服務部門購買後,這類工具不再對IT部門有很嚴重的依賴性。目前,肯塔基大學的 Kellen仍然相信他需要對它們高度關注。他稱:「我的工作是識別這些技術,根據競爭力評估哪些演算法適合公司,然後開始培訓合適的人員。」
與其他公司一樣,大學也對監督他們大學的聲譽十分感興趣。與此同時,Kellen表示,他可能還將尋找機會以開發專門用於解決學校所關注問題的應用,如 監督學生入學率等問題。例如,監控學生在社交媒體上的帖子能夠有幫於學校與管理人員盡早了解學生在大學里遇到的麻煩。Kellen稱,目前戴爾已經做了這 些工作,其產品支持公司探測人們關於故障筆記本電腦的推文。他稱,IT開發人員還應當尋找一些辦法將社交媒體分析得出的報警信息推送至應用中,以便於公司 對相關事件快速做出反應。
Hackney稱:「我們沒有訣竅,也沒有工具處理和挖掘海量社交媒體帖子的價值。不過,一旦你收集了數據,你需要有能力獲取公司事件的充足信息,以將 它們關聯起來。」雖然Hackney稱JohnHancock在這一領域內的努力還處於「起步階段」,但是他認為IT部門將在公司數據的社交分析服務所提 供的數據關聯中發揮重要作用。例如,如果社交媒體數據顯示公司在中西部地區的社會評論越來越負面,那麼他將希望看一下如果公司在該地區就價格或策略進行調 整是否會扭轉這一負面發展趨勢。
Hackney稱,發現這類關聯的意義在於讓公司領導相信對社交媒體的投資具有高回報。他稱:「在我所從事的行業中,每個人都是精算師,每個人都在計算,他們不會將任何東西建立在想當然之上。」
以上是小編為大家分享的關於大數據時代:五大商業分析技術趨勢的相關內容,更多信息可以關注環球青藤分享更多干貨
『貳』 五大商業分析技術趨勢及使用方式(1)
五大商業分析技術趨勢及使用方式(1)
目前,趨勢中心對如何應對分析挑戰的關注力度並不亞於他們考慮在新商業視角中如何充分利用機遇的力度。例如,隨著越來越多的公司開始不得不面對海量數據以及考慮如何利用這些數據,管理與分析大型不同數據集的技術開始出現。提前分析成本與性能趨勢意味著公司能夠提出比以前更為復雜的問題,提供更為有用的信息以幫助他們運營業務。
在采訪中,首席信息官們總結出了5大影響他們進行分析的IT趨勢。它們分別為:大數據的增長、快速處理技術、IT商品的成本下降、移動設備的普及和社交媒體的增長。
1.大數據
大數據指非常龐大的數據集,尤其是那些沒有被整齊的組織起來無法適應傳統數據倉庫的數據集。網路蜘蛛數據、社交媒體反饋和伺服器日誌,以及來自供應鏈、行業、周邊環境與監視感測器的數據都使得公司的數據變得比以往越來越復雜。
盡管並不是每個公司都需要處理大型、非結構型數據集的技術。Verisk Analytics公司首席信息官Perry Rotella認為所有的首席信息官都應當關注大數據分析工具。Verisk幫助金融公司評估風險,與保險公司共同防範保險詐騙,其在2010年的營收超過了10億美元。
Rotella認為,技術領導者對此應當採取的態度是,數據越多越好,歡迎數據的大幅增長。Rotella的工作是預先尋找事物間的聯系與模型。
HMS公司首席信息官Cynthia Nustad認為,大數據呈現為一種「爆炸性」增長趨勢。HMS公司的業務包括幫助控制聯邦醫療保險(Medicare)和醫療補助(Medicaid)項目成本和私有雲服務。其客戶包括40多個州的健康與人類服務項目和130多個醫療補助管理計劃。HMS通過阻止錯誤支付在2010年幫助其客戶挽回了18億美元的損失,節約了數十億美元。Nustad稱:「我們正在收集並追蹤大量素材,包括結構性與非結構性數據,因為你並不是總是知道你將在其中尋找什麼東西。」
大數據技術中談論最多的一項技術是Hadoop。該技術為開源分布式數據處理平台,最初是為編輯網路搜索索引等任務開發的。Hadoop為多個「非關系型(NoSQL)」技術(其包括CouchDB 和 MongoDB)中的一種,其通過特殊的方式組織網路級數據。
Hadoop可將數據的子集合分配給成百上千台伺服器的處理,每台伺服器匯報的結果都將被一個主作業調度程序整理,因此其具有處理拍位元組級數據的能力。Hadoop既能夠用於分析前的數據准備,也能夠作為一種分析工具。沒有數千台空閑伺服器的公司可以從亞馬遜等雲廠商那裡購買Hadoop實例的按需訪問。
Nustad稱,盡管並不是為了其大型的聯邦醫療保險和醫療補助索賠資料庫,但是HMS正在探索NoSQL技術的使用。其包括了結構性數據,並且能夠被傳統的數據倉庫技術所處理。她稱,在回答什麼樣的關系型技術是經實踐證明最好用的解決方案時,從傳統關系型資料庫管理出發是並不明智。不過,Nustad認為Hadoop正在防止欺詐與浪費分析上發揮著重要作用,並且具備分析以各種格式上報的病人看病記錄的潛力。
在采訪中,那些體驗過Hadoop的受訪首席信息官們,包括Rotella和Shopzilla 公司首席信息官Jody Mulkey在內都在將數據服務作為公司一項業務的公司中任職。
Mulkey稱:「我們正在使用Hadoop做那些以往使用數據倉庫做的事情。更重要的是,我們獲得了以前從未用過的切實有用的分析技術。」例如,作為一家比較購買網站,Shopzilla每天會積累數太位元組的數據。他稱:「以前,我們必須要對數據進行采樣並對數據進行歸類。在處理海量數據時,這一工作量非常繁重。」自從採用了Hadoop,Shopzilla能夠分析原始數據,跳過許多中間環節。
Good Samaritan醫院是一家位於印第安納州西南的社區醫院,其處於另一種類型。該醫院的首席信息官Chuck Christian稱:「我們並沒有我認為是大數據的東西。」盡管如此,管理規定要求促使其存儲整如龐大的電子醫療記錄等全新的數據類型。他稱,這無疑要求他們要能夠從數據中收集醫療保健品質信息。不過,這可能將在地區或國家醫療保健協會中實現,而不是在他們這種單個醫院中實現。因此,Christian未必會對這種新技術進行投資。
Island One Resorts公司首席信息官John Ternent稱,其所面臨的分析挑戰取決於大數據中的「大」還是「數據」。不過,目前他正在謹慎地考慮在雲上使用Hadoop實例,以作為一種經濟的方式分析復雜的抵押貸款組合。目前公司正在管理著佛羅里達州內的8處分時度假村。他稱:「這種解決方案有可能解決我們目前正遇到的實際問題。」
2.商業分析速度加快
肯塔基大學首席信息官Vince Kellen認為,大數據技術只是快速分析這一大趨勢中的一個元素。他稱:「我們期待的是一種更為先進的海量數據分析方法。」與更為快速地分析數據相比,數據的大小並不重要,「因為你想讓這一過程快速完成」。
由於目前的計算能夠在內存中處理更多的數據,因此與在硬碟中搜索數據相比,其計算出結果的速度要更快。即使你僅處理數G數據,但情況依然與此。
盡管經過數十年的發展,通過緩存頻繁訪問的數據,資料庫性能提升了許多。在載入整個大型數據集至伺服器或伺服器集群的內存時,這一技術變得更加實用,此時硬碟只是作為備份。由於從旋轉的磁碟中檢索數據是一個機械過程,因此與在內存中處理數據相比,其速度要慢許多。
Rotella稱,他現在幾秒中進行的分析在五年前需要花上一個晚上。Rotella的公司主要是對大型數據集進行前瞻性分析,這經常涉及查詢、尋找模型、下次查詢前的調整。在分析速度方面,查詢完成時間非常重要。他稱:「以前,運行時間比建模時間要長,但是現在建模時間要比運行時間長。」
列式資料庫伺服器改變了關系型資料庫的傳統行與列結構,解決了另一些性能需求。查詢僅訪問有用的列,而不是讀取整個記錄和選取可選列,這極大地提高了組織或測量關鍵列的應用的性能。
Ternent警告稱,列式資料庫的性能優勢需要配合正確的應用和查詢設計。他稱:「為了進行區別,你必須以適當的方式問它適當的問題。」此此同時,他還指出,列式資料庫實際上僅對處理超過500G位元組數據的應用有意義。他稱:「在讓列式資料庫發揮作用之前,你必須收集一規模的數據,因為它依賴一定水平的重復提升效率。」
保險與金融服務巨頭John Hancock公司的首席信息官Allan Hackney稱,為了提高分析性能,硬體也需要進行提升,如增加GPU晶元,其與游戲系統中用到的圖形處理器相同。他稱:「可視化需用到的計算方法與統計分析中用到的計算方法非常相似。與普通的PC和伺服器處理器相比,圖形處理器的計算速度要快數百倍。我們的分析人員非常喜歡這一設備。」
以上是小編為大家分享的關於五大商業分析技術趨勢及使用方式(1)的相關內容,更多信息可以關注環球青藤分享更多干貨