原標(biāo)題:北京消協(xié)殺熟榜 是什么技術(shù)正在偷窺我們
近日,北京市消費(fèi)者協(xié)會(huì)發(fā)布了“大數(shù)據(jù)殺熟”問題調(diào)查結(jié)果。在主觀問卷調(diào)查方面顯示,88.32%的被調(diào)查者認(rèn)為“大數(shù)據(jù)殺熟”現(xiàn)象普遍或很普遍,有56.92%的被調(diào)查者表示有過被“大數(shù)據(jù)殺熟”的經(jīng)歷。同時(shí),被調(diào)查者認(rèn)為網(wǎng)購(gòu)平臺(tái)、在線旅游和網(wǎng)約車等消費(fèi)“大數(shù)據(jù)殺熟”問題最多,在線旅游高居榜首。
價(jià)格歧視的概念是指零售商、批發(fā)商或制造商對(duì)同一商品向不同的顧客收取不同的價(jià)格。這是一種普遍的做法,并不一定意味著消極歧視。
一、二、三級(jí)歧視分別適用于企業(yè)采用的不同定價(jià)方法。這在很大程度上取決于對(duì)細(xì)分市場(chǎng)的了解,以及消費(fèi)者支付更高或更低價(jià)格的能力,即需求彈性。
有人可能會(huì)為一件商品支付更多的錢,這被認(rèn)為是需求彈性較低的。另一個(gè)不愿意付那么多錢的人相對(duì)而言具有較高的彈性。
一級(jí)價(jià)格歧視包括根據(jù)每位顧客的個(gè)人意愿向他們收取一定的價(jià)格。
二級(jí)價(jià)格歧視不是根據(jù)顧客的特點(diǎn)收費(fèi),而是根據(jù)所購(gòu)商品的數(shù)量收費(fèi),例如數(shù)量折扣。
第三級(jí)價(jià)格歧視依賴于把顧客分成不同的群體,并根據(jù)這些群體內(nèi)的支付意愿收取不同的價(jià)格,例如電影的高級(jí)折扣。
顯然,賣家并不總是能夠識(shí)別出誰(shuí)愿意為某些商品支付更高的價(jià)格,但當(dāng)他或她能夠這樣做時(shí),他的利潤(rùn)就會(huì)增加。
消費(fèi)者可以在新車和二手車的銷售中看到一級(jí)價(jià)格歧視。
人們會(huì)為具有相同功能的汽車支付不同的價(jià)格,銷售人員必須嘗試衡量汽車的 售價(jià)。
這通常包括一個(gè)討價(jià)還價(jià)的方面,即消費(fèi)者試圖以更低的價(jià)格進(jìn)行談判。
二級(jí)歧視是指公司對(duì)更高數(shù)量的產(chǎn)品收取更低的價(jià)格。
如果客戶大量訂購(gòu),并且能夠同時(shí)購(gòu)買大量相同的商品,客戶可能會(huì)得到折扣。這個(gè)“批發(fā)價(jià)”不適用于一次只訂購(gòu)幾件商品的客戶。
這種價(jià)格歧視在零售店很常見,如果顧客買兩件T恤而不是一件,就可以打折。
這種形式有助于售出庫(kù)存,為公司創(chuàng)造更多的收入。
三級(jí)價(jià)格歧視是建立在對(duì)市場(chǎng)的了解基礎(chǔ)上的,基于人口群體,并且發(fā)生的頻率很高。
這種類型有許多不同的形式,但在所有情況下,都試圖從每個(gè)細(xì)分的“消費(fèi)者組”獲得最多的銷售額。
例如,老年人被認(rèn)為是一個(gè)群體,他們經(jīng)常在電影院、交通、餐館,甚至在零售商店享受折扣,老年人每周可能有一個(gè)“老年人日”,可以在商品上打折。
“學(xué)生”是另一個(gè)細(xì)分的群體,也可能被提供更低的價(jià)格。
老年人和學(xué)生都有更高的需求彈性,通?梢越邮鼙纫话闵习嘧甯偷膬r(jià)格。
在考慮需求彈性時(shí),市場(chǎng)細(xì)分也可能會(huì)評(píng)價(jià)一個(gè)地區(qū)的社會(huì)經(jīng)濟(jì)方面。
在一個(gè)零售商知道自己可以為一件商品賺到更多錢的地區(qū),零售雜貨店提供不同的價(jià)格并不罕見。
如果一個(gè)地方只有一家連鎖店,零售雜貨店可能會(huì)提供更高的價(jià)格,因?yàn)槿藗儧]有其他地方可以購(gòu)物。
三級(jí)歧視的另一種形式是機(jī)票的臨時(shí)折扣,目的是增加業(yè)務(wù)。這些折扣可能是季節(jié)性的,旨在促銷并增加業(yè)務(wù)。
與農(nóng)村地區(qū)相比,城市地區(qū)的人可能要支付更多的機(jī)票或酒店費(fèi)用。
是什么技術(shù)在“偷窺”我們?
價(jià)格歧視并不是一件新鮮事,但有了互聯(lián)網(wǎng)時(shí)代的大數(shù)據(jù)等新興技術(shù),這種“不同人不同價(jià)”的規(guī)模和速度都達(dá)到了新的階段。許多消費(fèi)者突然意識(shí)到自己的思想、消費(fèi)觀念甚至生活的方方面面都已被置于他人的“監(jiān)視”之下,這種隱私泄露的問題讓大數(shù)據(jù)等技術(shù)成為了一把“雙刃劍”。
那么大數(shù)據(jù)背后的技術(shù)原理是什么?新時(shí)代究竟是什么技術(shù)正在收集我們的個(gè)人數(shù)據(jù)?
從產(chǎn)生數(shù)據(jù)、收集數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)到數(shù)據(jù)處理分析,這一過程中所涉及的各種技術(shù)可能比我們想象的還要多得多。
數(shù)據(jù)采集
獲取大數(shù)據(jù)需要兩個(gè)主要的子組件,第一個(gè)組件是感知數(shù)據(jù)本身的存在,第二個(gè)組件是收集和存儲(chǔ)數(shù)據(jù)的階段。
這兩個(gè)子組件都是非常多樣化的領(lǐng)域,用于執(zhí)行這些任務(wù)的技術(shù)發(fā)生了許多快速變化。
數(shù)據(jù)感知
數(shù)據(jù)并不存在于真空中,而是作為一個(gè)更大的過程的一部分而創(chuàng)建的,尤其是在現(xiàn)代技術(shù)方面。
因此,數(shù)據(jù)來(lái)源本身在決定如何在更大的范圍內(nèi)捕獲和分析數(shù)據(jù)方面起著至關(guān)重要的作用。
實(shí)體不斷向環(huán)境中釋放信息,這些信息可以被用于大數(shù)據(jù)的目的,從而產(chǎn)生兩種主要類型的數(shù)據(jù):“天生數(shù)字化”的或“天生模擬”的數(shù)據(jù)。
“天生數(shù)字化”數(shù)據(jù)
“天生數(shù)字化”的信息是由用戶或數(shù)字系統(tǒng)創(chuàng)建的,專門供計(jì)算機(jī)或數(shù)據(jù)處理系統(tǒng)使用。這是一個(gè)范圍廣泛的信息,每天都有更新的字段被添加到這個(gè)類別中。
簡(jiǎn)短地列出清單:電子郵件和短信、任何形式的數(shù)字內(nèi)容輸入,包括鍵盤、鼠標(biāo)交互和觸摸屏、GPS定位數(shù)據(jù)、日常家用電器(物聯(lián)網(wǎng))數(shù)據(jù)等。
所有這些數(shù)據(jù)都可以被跟蹤和標(biāo)記到用戶身上,并被聚合起來(lái)形成一個(gè)更大的圖景,從而極大地?cái)U(kuò)大了構(gòu)成大數(shù)據(jù)中的“數(shù)據(jù)”的范圍。
這些“天生數(shù)字化”的資料,在送去收集/儲(chǔ)存前,如何由用戶方面的科技途徑編錄?其中一些方法如下:
Cookies——網(wǎng)站會(huì)在用戶設(shè)備上留下一些小的、通常只是文本的文件,以便在隨后的事件中(例如,重新訪問網(wǎng)站)進(jìn)行訪問、任務(wù)或操作(例如,登錄電子郵件帳戶)。
網(wǎng)站分析——各種各樣的服務(wù),如谷歌Analytics、Piwik等,都可以使用JavaScript和其他web開發(fā)語(yǔ)言來(lái)記錄用戶在網(wǎng)站上的行為,進(jìn)行非常詳細(xì)、密切的跟蹤,包括用戶鼠標(biāo)在鏈接上方停留的時(shí)間,花在網(wǎng)站/應(yīng)用程序上的時(shí)間,在某些情況下,甚至花在頁(yè)面特定部分的時(shí)間。
GPS——隨著具有基本定位功能的智能手機(jī)的廣泛使用,這些設(shè)備上的GPS傳感器用于向應(yīng)用程序、操作系統(tǒng),甚至是第三方提供有關(guān)用戶位置的定期、分鐘級(jí)的驅(qū)動(dòng)更新,F(xiàn)代技術(shù)的更新,如A-GPS可以在沒有衛(wèi)星覆蓋的情況下提供基本的定位信息,極大地?cái)U(kuò)展了室內(nèi)定位數(shù)據(jù)收集的能力。
所有這些感知“天生數(shù)字化”數(shù)據(jù)的例子都是常見的,全世界數(shù)十億人每天都在使用這些技術(shù),這象征著它們已經(jīng)深深地滲透到我們的日常生活中。
除了隱私和安全方面的擔(dān)憂,這反過來(lái)也會(huì)導(dǎo)致為任何相關(guān)方收集的可用數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)。
傳感器數(shù)據(jù)
當(dāng)信息包含了物理世界的特征時(shí),如圖像、視頻、心跳等,我們稱之為“模擬”。
當(dāng)這些信息被“傳感器”處理時(shí),這些信息就變成了電子信息。“傳感器”是一種能夠記錄物理現(xiàn)象并將其轉(zhuǎn)化為數(shù)字信息的設(shè)備。
以下是一些例子,可較好地說明以模擬方式產(chǎn)生但以數(shù)字方式收集的資料:
設(shè)備上的語(yǔ)音和/或視頻內(nèi)容——除了電話和其他形式的通信,商家還開始定期捕獲基于視頻和語(yǔ)音的交互,以提供增強(qiáng)的服務(wù)。
其中包括Google Now、Cortana等數(shù)字助手以及車載語(yǔ)音導(dǎo)航系統(tǒng)等。
個(gè)人健康數(shù)據(jù)——如心跳、血壓、呼吸等等, 這些個(gè)人的、潛在的非常有用的信息是由設(shè)備上的專用傳感器收集的,使用如Fitbit、Mi Band這樣的設(shè)備,以及越來(lái)越復(fù)雜的智能手機(jī)應(yīng)用程序,如Google Fit,無(wú)需任何特殊設(shè)備就能做到這一點(diǎn)。
家用電器上的攝像頭——視頻游戲機(jī)等設(shè)備上的攝像頭和傳感器(Kinect就是一個(gè)相關(guān)例子)可以記錄詳細(xì)的人類互動(dòng),除了與設(shè)備本身進(jìn)行基本互動(dòng)外,還可以挖掘大量信息。
雖然不像“天生數(shù)字化”數(shù)據(jù)那樣是一個(gè)龐大的類別,但技術(shù)成本日益降低,以及數(shù)字、網(wǎng)絡(luò)化設(shè)備的普遍使用,正導(dǎo)致傳統(tǒng)上本質(zhì)上類似的信息被捕捉并以快速增長(zhǎng)的速度使用。
數(shù)據(jù)收集與存儲(chǔ)
傳統(tǒng)數(shù)據(jù)的處理通常采用提取、轉(zhuǎn)換、加載(ETL)方法,該方法用于從外部數(shù)據(jù)源收集數(shù)據(jù),修改數(shù)據(jù)以適應(yīng)需要,然后將數(shù)據(jù)上傳到數(shù)據(jù)存儲(chǔ)系統(tǒng)中,供將來(lái)使用。
如電子表格、RDBMS數(shù)據(jù)庫(kù)、結(jié)構(gòu)化查詢語(yǔ)言(SQL)等技術(shù),最初都是用來(lái)執(zhí)行這些任務(wù)的,通常都是手工完成的。然而,對(duì)于大數(shù)據(jù)來(lái)說,傳統(tǒng)的方法既低效又不能滿足現(xiàn)代使用的需求。
大數(shù)據(jù)中使用的大多數(shù)解決方案都依賴于兩個(gè)主要組件來(lái)存儲(chǔ)數(shù)據(jù):分布式系統(tǒng)和運(yùn)行在非關(guān)系(內(nèi)存)數(shù)據(jù)庫(kù)系統(tǒng)上的大規(guī)模并行處理(MPP)。
傳統(tǒng)上,數(shù)據(jù)庫(kù)性能和可靠性是使用純性能指標(biāo)(每秒浮點(diǎn)運(yùn)算次數(shù)等)以及原子性、一致性、隔離性、持久性(ACID)標(biāo)準(zhǔn)來(lái)度量的。
大數(shù)據(jù)應(yīng)用中最常用的數(shù)據(jù)庫(kù)系統(tǒng)如下:
非關(guān)系型數(shù)據(jù)庫(kù)
傳統(tǒng)上,數(shù)據(jù)庫(kù)是結(jié)構(gòu)化的實(shí)體,僅依賴于使用顯式定義的關(guān)系將存儲(chǔ)在其中的信息關(guān)聯(lián)起來(lái)的能力。
甚至在大數(shù)據(jù)出現(xiàn)之前,這一前景就已經(jīng)成為利用大量存儲(chǔ)信息的限制因素,這導(dǎo)致了非關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展。
非關(guān)系數(shù)據(jù)庫(kù)也稱為NoSQL數(shù)據(jù)庫(kù),包括MongoDB、Couchbase等。它們是為管理和存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)而開發(fā)的。
它們的目標(biāo)是可伸縮性、靈活性和簡(jiǎn)化開發(fā)。
這樣的數(shù)據(jù)庫(kù)更側(cè)重于高性能的可伸縮數(shù)據(jù)存儲(chǔ),允許在應(yīng)用層而不是數(shù)據(jù)庫(kù)特定語(yǔ)言中編寫任務(wù),從而實(shí)現(xiàn)更好的互操作性。
內(nèi)存數(shù)據(jù)庫(kù)(IMDB)
為了克服傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的性能限制,一些現(xiàn)代數(shù)據(jù)庫(kù)現(xiàn)在使用內(nèi)存數(shù)據(jù)庫(kù)。這些系統(tǒng)管理服務(wù)器RAM內(nèi)存中的數(shù)據(jù),從而消除存儲(chǔ)磁盤輸入/輸出。
與傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)所需的分鐘或小時(shí)相比,這幾乎允許來(lái)自數(shù)據(jù)庫(kù)的實(shí)時(shí)響應(yīng)。
這種性能上的改進(jìn)是如此之大,以至于人們正在為使用IMDB系統(tǒng)開發(fā)全新的應(yīng)用程序。
這些IMDB系統(tǒng)也被用于對(duì)大數(shù)據(jù)的高級(jí)分析,特別是為了提高數(shù)據(jù)的訪問速度和分析模型的評(píng)分率。
IMDB的例子包括VoltDB、NuoDB、SolidDB和Apache Spark。
混合系統(tǒng)(Hybrid Systems)
這是在大數(shù)據(jù)應(yīng)用處理或分析數(shù)據(jù)之前用來(lái)存儲(chǔ)數(shù)據(jù)的兩大系統(tǒng)。
然而,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理之間的差別很小,大多數(shù)數(shù)據(jù)庫(kù)系統(tǒng)還包含各種獨(dú)特的屬性,以滿足特定類型的分析。
Apache Hadoop33是一種非常常用的混合系統(tǒng),它處理存儲(chǔ)和數(shù)據(jù)感知。
Apache Hadoop由兩個(gè)主要組件組成:用于大數(shù)據(jù)存儲(chǔ)的HDFS和用于大數(shù)據(jù)分析的MapReduce。
Hadoop中的HDFS存儲(chǔ)功能提供了一個(gè)可靠的分布式文件系統(tǒng),可以跨多個(gè)系統(tǒng)存儲(chǔ),用于處理和冗余。
文件系統(tǒng)針對(duì)大型文件進(jìn)行了優(yōu)化,因?yàn)閱蝹(gè)文件被分割成塊并分布在稱為集群節(jié)點(diǎn)的系統(tǒng)中。
此外,節(jié)點(diǎn)之間的數(shù)據(jù)由復(fù)制機(jī)制保護(hù),即使任何節(jié)點(diǎn)失敗,復(fù)制機(jī)制也確?捎眯。
Hadoop的冗余性、速度、在商品硬件上運(yùn)行的能力、行業(yè)支持以及快速的發(fā)展速度,使得它幾乎與大數(shù)據(jù)同步。
數(shù)據(jù)意識(shí)
在大數(shù)據(jù)背景下,數(shù)據(jù)感知的任務(wù)是在一組數(shù)據(jù)中創(chuàng)建一個(gè)關(guān)系方案,允許數(shù)據(jù)的不同用戶確定流動(dòng)但有效的數(shù)據(jù)上下文,并將其用于他們想要的任務(wù)。
它是一個(gè)相對(duì)較新的領(lǐng)域,目前大部分工作都是在語(yǔ)義結(jié)構(gòu)上進(jìn)行的,以允許數(shù)據(jù)以互操作格式獲得上下文,這與當(dāng)前系統(tǒng)不同,在當(dāng)前系統(tǒng)中,數(shù)據(jù)使用惟一的、特定于模型的構(gòu)造來(lái)獲得上下文(如XML模式等)。
這個(gè)領(lǐng)域的一些原始工作是以使用資源描述框架(RDF)的形式進(jìn)行的,RDF的構(gòu)建主要是為了以一種可移植的方式描述數(shù)據(jù)。
SPARQL是用于實(shí)現(xiàn)基于RDF的設(shè)計(jì)的語(yǔ)言,但在公共領(lǐng)域和大數(shù)據(jù)領(lǐng)域,這兩種語(yǔ)言都沒有得到充分利用。
Kurt Cagle和Bob DuCharme等作者預(yù)測(cè),它將在未來(lái)幾年爆發(fā)。
企業(yè)也開始意識(shí)到互操作上下文的價(jià)值,Oracle Spatial和IBM的DB2在過去3年中已經(jīng)包含了RDF和SPARQL支持。
盡管沒有得到充分利用,但該領(lǐng)域的快速發(fā)展將使數(shù)據(jù)意識(shí)對(duì)Hadoop甚至SQL這樣的大數(shù)據(jù)產(chǎn)生影響。
其中一些方面已經(jīng)開始應(yīng)用于人工智能、自然語(yǔ)言處理等領(lǐng)域,具有巨大的發(fā)展空間。
數(shù)據(jù)處理與分析
數(shù)據(jù)處理主要有三個(gè)目標(biāo):確定所收集的數(shù)據(jù)是否具有內(nèi)部一致性;使用他們能夠理解的隱喻或類比,使數(shù)據(jù)對(duì)其他系統(tǒng)或用戶有意義;并且(許多人認(rèn)為是最重要的)基于過去的數(shù)據(jù)和趨勢(shì)提供對(duì)未來(lái)事件和行為的預(yù)測(cè)。
這是一個(gè)非常廣闊的領(lǐng)域,技術(shù)日新月異,本節(jié)主要關(guān)注數(shù)據(jù)分析中最常用的技術(shù)。
為了進(jìn)行有效的處理,數(shù)據(jù)分析需要滿足四個(gè)主要條件:快速、數(shù)據(jù)加載、快速查詢處理、有效利用存儲(chǔ)和適應(yīng)動(dòng)態(tài)工作負(fù)載模式。
通常與滿足這一標(biāo)準(zhǔn)以及大數(shù)據(jù)相關(guān)的分析模型是MapReduce。
MapReduce是一種通用的并行編程概念,源于函數(shù)式編程語(yǔ)言的“Map”和“Reduce”,特別適合大數(shù)據(jù)操作。
它是Hadoop的核心,并在其他大數(shù)據(jù)系統(tǒng)中執(zhí)行數(shù)據(jù)處理和分析功能。
MapReduce通過將任務(wù)分解為多個(gè)步驟并在多個(gè)系統(tǒng)中并行執(zhí)行這些步驟來(lái)操作。
這樣做有兩個(gè)好處,一是縮短了完成任務(wù)所需的時(shí)間,二是減少了執(zhí)行任務(wù)所花費(fèi)的精力和精力。
該模型非常適合大數(shù)據(jù)操作所需的大數(shù)據(jù)集和快速響應(yīng)時(shí)間。
還有其他一些更小眾的模型和算法(如LinkedIn使用的Voldemort項(xiàng)目),它們也被用于大數(shù)據(jù)。
數(shù)據(jù)治理
數(shù)據(jù)治理是對(duì)原始大數(shù)據(jù)以及大數(shù)據(jù)產(chǎn)生的經(jīng)過處理的信息進(jìn)行管理,以滿足法律、法規(guī)和企業(yè)強(qiáng)加的要求。
雖然數(shù)據(jù)治理沒有標(biāo)準(zhǔn)化的格式,但各部門(尤其是醫(yī)療保健部門)越來(lái)越多地呼吁創(chuàng)建這種格式,以確保全面可靠、安全和一致地使用大數(shù)據(jù)。
以下策略和技術(shù)已被應(yīng)用或建議用于數(shù)據(jù)治理,并取得了不同程度的成功:
零知識(shí)系統(tǒng)(Zero-knowledge systems):該技術(shù)建議對(duì)底層數(shù)據(jù)保持保密性,同時(shí)允許對(duì)加密數(shù)據(jù)進(jìn)行某些高層抽象的檢查。
為了使系統(tǒng)為零知識(shí),客戶機(jī)的系統(tǒng)必須加密數(shù)據(jù)并將其發(fā)送給存儲(chǔ)提供程序。
因此,提供程序以加密格式存儲(chǔ)數(shù)據(jù),除非擁有將數(shù)據(jù)解密為明文的密鑰,否則無(wú)法對(duì)其進(jìn)行相同的解密。
這允許個(gè)人向存儲(chǔ)提供程序存儲(chǔ)數(shù)據(jù),同時(shí)保持包含在此類信息中的詳細(xì)信息的匿名性。然而,這些目前只是開始在簡(jiǎn)單的情況下使用。
到目前為止,它們還不能擴(kuò)展到非結(jié)構(gòu)化和復(fù)雜的情況下,在用于研究和數(shù)據(jù)挖掘目的之前,必須對(duì)它們進(jìn)行少量的開發(fā)。
同態(tài)加密:同態(tài)加密是一種隱私保護(hù)技術(shù),它對(duì)加密的數(shù)據(jù)執(zhí)行搜索和其他計(jì)算,同時(shí)保護(hù)個(gè)人隱私。
然而,在大數(shù)據(jù)時(shí)代保護(hù)隱私的背景下,這一技術(shù)一直被認(rèn)為是不切實(shí)際的,并且被認(rèn)為是近期不太可能的政策選擇。
多方計(jì)算:在這種技術(shù)中,計(jì)算是在加密的分布式數(shù)據(jù)存儲(chǔ)上進(jìn)行的。
這種機(jī)制與同態(tài)加密密切相關(guān),在同態(tài)加密中,使用稱為“collusion-robust”的加密算法將單個(gè)數(shù)據(jù)保持私有,而用同樣的算法計(jì)算統(tǒng)計(jì)數(shù)據(jù)。
涉及到的各方都知道一些私有數(shù)據(jù),并且他們每個(gè)人都使用一個(gè)協(xié)議,該協(xié)議根據(jù)他們知道的和不知道的信息產(chǎn)生結(jié)果,而不揭示他們不知道的數(shù)據(jù)。
因此,多方計(jì)算有助于在不損害個(gè)人隱私的情況下生成用于統(tǒng)計(jì)和研究目的的有用數(shù)據(jù)。
差別隱私:盡管這項(xiàng)技術(shù)的發(fā)展與加密有關(guān),但它遵循的是一種不同的技術(shù)。
差別隱私的目的是最大限度地提高計(jì)算和數(shù)據(jù)庫(kù)查詢的精度,同時(shí)降低數(shù)據(jù)庫(kù)中有記錄的數(shù)據(jù)所有者的可識(shí)別性,通常通過混淆查詢結(jié)果來(lái)實(shí)現(xiàn)。
這在今天大數(shù)據(jù)的存在中得到了廣泛的應(yīng)用,以保證隱私的保護(hù),同時(shí)試圖獲得大規(guī)模數(shù)據(jù)收集的好處。
可搜索加密:通過這種機(jī)制,數(shù)據(jù)主體可以在最小化暴露和最大化隱私的同時(shí)確保某些數(shù)據(jù)可搜索。
數(shù)據(jù)所有者可以通過搜索引擎以加密格式提供數(shù)據(jù),但通過添加由某些關(guān)鍵字組成的標(biāo)簽(這些關(guān)鍵字可以被搜索引擎破譯),從而使其信息可用。
當(dāng)使用這些特定的關(guān)鍵字進(jìn)行搜索時(shí),這些加密數(shù)據(jù)會(huì)顯示在搜索結(jié)果中,但是只有當(dāng)用戶擁有解密信息所需的密鑰時(shí)才能讀取這些數(shù)據(jù)。
這種加密技術(shù)為個(gè)人數(shù)據(jù)提供了最大的安全性,并盡可能地保護(hù)隱私。
K-匿名性:為了保護(hù)隱私,避免重新識(shí)別,目前正在應(yīng)用k-匿名性的特性。
如果個(gè)體特定的數(shù)據(jù)可以被發(fā)布并用于各種目的而不會(huì)被重新識(shí)別,某一數(shù)據(jù)集被認(rèn)為具有K-匿名性。
對(duì)數(shù)據(jù)的分析應(yīng)在不將數(shù)據(jù)歸于數(shù)據(jù)所屬的個(gè)人的情況下進(jìn)行,并應(yīng)對(duì)此提供科學(xué)保證。
身份管理系統(tǒng):這些系統(tǒng)使個(gè)人能夠建立和保護(hù)自己的身份,利用屬性來(lái)解釋這些身份,跟蹤他們的身份活動(dòng),如果他們?cè)敢猓可以刪除他們的身份。
在分析數(shù)據(jù)之前,它使用加密方案和協(xié)議對(duì)個(gè)人的身份和證書進(jìn)行匿名或假名化處理。
隱私保護(hù)數(shù)據(jù)發(fā)布(PPDP):這是一種向分析人員提供個(gè)人信息的方法,這種方法能夠從數(shù)據(jù)庫(kù)中解碼特定的信息,同時(shí)防止推斷可能導(dǎo)致侵犯隱私的某些其他信息。
分析所必需的數(shù)據(jù)將提供給處理者,而敏感數(shù)據(jù)將不予以披露。這個(gè)工具主要關(guān)注微數(shù)據(jù)。
隱私保護(hù)數(shù)據(jù)挖掘(PPDM):該機(jī)制使用擾動(dòng)方法和隨機(jī)化以及加密技術(shù),以便允許對(duì)不包含任何形式敏感信息的過濾版本的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。
與PPDP不同,PPDM側(cè)重于數(shù)據(jù)挖掘結(jié)果。
結(jié)論
目前,盡管88.32%的被調(diào)查者認(rèn)為大數(shù)據(jù)“殺熟”現(xiàn)象普遍或很普遍,但消費(fèi)者發(fā)現(xiàn)被大數(shù)據(jù)“殺熟”后,由于其存在復(fù)雜性和隱蔽性,維權(quán)舉證確實(shí)存在困難。
理解大數(shù)據(jù)背后的復(fù)雜技術(shù)和原理,有助于讓大數(shù)據(jù)應(yīng)用的過程更加透明,并對(duì)大數(shù)據(jù)技術(shù)可能造成的危害進(jìn)行預(yù)防和監(jiān)管。
投稿郵箱:chuanbeiol@163.com 詳情請(qǐng)?jiān)L問川北在線:http://sanmuled.cn/