站長(zhǎng)資訊網(wǎng)
        最全最豐富的資訊網(wǎng)站

        什么是布隆過濾器?Redis中如何使用?

        布隆過濾器是一個(gè)神奇的數(shù)據(jù)結(jié)構(gòu),本篇文章帶大家深入了解一下布隆過濾器,介紹一下Redis中使用布隆過濾器的方法。

        什么是布隆過濾器?Redis中如何使用?

        什么是『布隆過濾器』

        布隆過濾器是一個(gè)神奇的數(shù)據(jù)結(jié)構(gòu),可以用來判斷一個(gè)元素是否在一個(gè)集合中。很常用的一個(gè)功能是用來去重。在爬蟲中常見的一個(gè)需求:目標(biāo)網(wǎng)站 URL 千千萬,怎么判斷某個(gè) URL 爬蟲是否寵幸過?簡(jiǎn)單點(diǎn)可以爬蟲每采集過一個(gè) URL,就把這個(gè) URL 存入數(shù)據(jù)庫(kù)中,每次一個(gè)新的 URL 過來就到數(shù)據(jù)庫(kù)查詢下是否訪問過。

        select id from table where url = 'https://jaychen.cc'

        但是隨著爬蟲爬過的 URL 越來越多,每次請(qǐng)求前都要訪問數(shù)據(jù)庫(kù)一次,并且對(duì)于這種字符串的 SQL 查詢效率并不高。除了數(shù)據(jù)庫(kù)之外,使用 Redis 的 set 結(jié)構(gòu)也可以滿足這個(gè)需求,并且性能優(yōu)于數(shù)據(jù)庫(kù)。但是 Redis 也存在一個(gè)問題:耗費(fèi)過多的內(nèi)存。這個(gè)時(shí)候布隆過濾器就很橫的出場(chǎng)了:這個(gè)問題讓我來。

        相比于數(shù)據(jù)庫(kù)和 Redis,使用布隆過濾器可以很好的避免性能和內(nèi)存占用的問題。

        布隆過濾器本質(zhì)是一個(gè)位數(shù)組,位數(shù)組就是數(shù)組的每個(gè)元素都只占用 1 bit 。每個(gè)元素只能是 0 或者 1。這樣申請(qǐng)一個(gè) 10000 個(gè)元素的位數(shù)組只占用 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個(gè)位數(shù)組,還有 K 個(gè)哈希函數(shù)。當(dāng)一個(gè)元素加入布隆過濾器中的時(shí)候,會(huì)進(jìn)行如下操作:

        • 使用 K 個(gè)哈希函數(shù)對(duì)元素值進(jìn)行 K 次計(jì)算,得到 K 個(gè)哈希值。
        • 根據(jù)得到的哈希值,在位數(shù)組中把對(duì)應(yīng)下標(biāo)的值置為 1。

        舉個(gè),假設(shè)布隆過濾器有 3 個(gè)哈希函數(shù):f1, f2, f3 和一個(gè)位數(shù)組 arr。現(xiàn)在要把 https://jaychen.cc 插入布隆過濾器中:

        • 對(duì)值進(jìn)行三次哈希計(jì)算,得到三個(gè)值 n1, n2, n3。
        • 把位數(shù)組中三個(gè)元素 arr[n1], arr[n2], arr[3] 置為 1。

        當(dāng)要判斷一個(gè)值是否在布隆過濾器中,對(duì)元素再次進(jìn)行哈希計(jì)算,得到值之后判斷位數(shù)組中的每個(gè)元素是否都為 1,如果值都為 1,那么說明這個(gè)值在布隆過濾器中,如果存在一個(gè)值不為 1,說明該元素不在布隆過濾器中。

        看不懂文字看下面的靈魂畫手的圖解釋

        什么是布隆過濾器?Redis中如何使用?

        看了上面的說明,必然會(huì)提出一個(gè)問題:當(dāng)插入的元素原來越多,位數(shù)組中被置為 1 的位置就越多,當(dāng)一個(gè)不在布隆過濾器中的元素,經(jīng)過哈希計(jì)算之后,得到的值在位數(shù)組中查詢,有可能這些位置也都被置為 1。這樣一個(gè)不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。但是如果布隆過濾器判斷說一個(gè)元素不在布隆過濾器中,那么這個(gè)值就一定不在布隆過濾器中。簡(jiǎn)單來說:

        • 布隆過濾器說某個(gè)元素在,可能會(huì)被誤判。
        • 布隆過濾器說某個(gè)元素不在,那么一定不在。

        這個(gè)布隆過濾器的缺陷放到上面爬蟲的需求中,可能存在某些沒有訪問過的 URL 可能會(huì)被誤判為訪問過,但是如果是訪問過的 URL 一定不會(huì)被誤判為沒訪問過。

        Redis 中的布隆過濾器

        redis 在 4.0 的版本中加入了 module 功能,布隆過濾器可以通過 module 的形式添加到 redis 中,所以使用 redis 4.0 以上的版本可以通過加載 module 來使用 redis 中的布隆過濾器。但是這不是最簡(jiǎn)單的方式,使用 docker 可以直接在 redis 中體驗(yàn)布隆過濾器。

        > docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom > docker exec -it bloomfilter redis-cli

        redis 布隆過濾器主要就兩個(gè)命令:

        • bf.add 添加元素到布隆過濾器中:bf.add urls https://jaychen.cc
        • bf.exists 判斷某個(gè)元素是否在過濾器中:bf.exists urls https://jaychen.cc

        上面說過布隆過濾器存在誤判的情況,在 redis 中有兩個(gè)值決定布隆過濾器的準(zhǔn)確率:

        • error_rate:允許布隆過濾器的錯(cuò)誤率,這個(gè)值越低過濾器的位數(shù)組的大小越大,占用空間也就越大。
        • initial_size:布隆過濾器可以儲(chǔ)存的元素個(gè)數(shù),當(dāng)實(shí)際存儲(chǔ)的元素個(gè)數(shù)超過這個(gè)值之后,過濾器的準(zhǔn)確率會(huì)下降。

        redis 中有一個(gè)命令可以來設(shè)置這兩個(gè)值:

        bf.reserve urls 0.01 100

        三個(gè)參數(shù)的含義:

        • 第一個(gè)值是過濾器的名字。
        • 第二個(gè)值為 error_rate 的值。
        • 第三個(gè)值為 initial_size 的值。

        使用這個(gè)命令要注意一點(diǎn):執(zhí)行這個(gè)命令之前過濾器的名字應(yīng)該不存在,如果執(zhí)行之前就存在會(huì)報(bào)錯(cuò):(error) ERR item exists

        推薦學(xué)習(xí):《PHP視頻教程》

        贊(0)
        分享到: 更多 (0)
        網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)
        主站蜘蛛池模板: 国产免费久久精品99久久| 无码国模国产在线无码精品国产自在久国产 | 国产精品丝袜一区二区三区| 久久乐国产精品亚洲综合| 精品999久久久久久中文字幕| 亚洲国产一二三精品无码| 久久无码人妻精品一区二区三区| 999久久久国产精品| 国产精品v欧美精品v日韩精品 | 精品国产91久久久久久久a | 精品国产污污免费网站入口在线| 国产精品亚洲专区在线观看| 亚洲精品国产精品乱码不卡√| 国产乱码精品一区二区三| 91精品成人免费国产片| 国产精品一区二区久久精品| 国产精品自在线拍国产| 日韩人妻无码精品久久免费一 | 久久精品嫩草影院| heyzo高无码国产精品| 嫖妓丰满肥熟妇在线精品| 综合人妻久久一区二区精品| 国产综合精品久久亚洲| 国产精品v欧美精品v日本精| 午夜精品福利视频| 欧美巨大黑人精品videos| 久久精品国产亚洲沈樵| 久久成人国产精品二三区| 国产精品一二三区| 免费精品99久久国产综合精品| 国产成人精品日本亚洲网址| 成人午夜精品视频在线观看| 2022国产精品自产拍在线观看| 国产精品毛片无遮挡| 囯产精品一品二区三区| 成人午夜视频精品一区| 99精品视频在线观看免费| 999精品在线| 亚洲国产精品久久66| 99精品伊人久久久大香线蕉| 国产成人精品cao在线|