在之前的文章《PHP怎么將某長(zhǎng)度的子串換成*號(hào)》中,我們介紹了字符串替換,將某長(zhǎng)度的子串換成*號(hào)的方法,這次我們繼續(xù)了解字符串,介紹一下計(jì)算中文字符串長(zhǎng)度,或者中英文混合字符串長(zhǎng)度的方法。
如何計(jì)算中文字符串長(zhǎng)度?對(duì)于這個(gè)問題,我們可能第一反應(yīng)就是使用strlen()函數(shù),但strlen()函數(shù)處理全英文字符串還是不錯(cuò)的,但當(dāng)了中英文混合或純中文的字符串中,就不行了。我們看看下面的例子:
<?php header("Content-type:text/html;charset=utf-8"); //設(shè)置字符編碼為utf-8 $str = "歡迎來到PHP中文網(wǎng)!"; echo '字符串 “'.$str.'” 的長(zhǎng)度為:'.strlen($str).'<br>'; ?>
輸出結(jié)果為:
可以看出,strlen()函數(shù)因?yàn)樘幚碜址囊?guī)則不同,無法準(zhǔn)確的返回中英文混合或純中文字符串的長(zhǎng)度。那么為什么會(huì)返回27呢?
那是因?yàn)槲覀儾捎玫淖址幋a為utf-8,在UTF-8 編碼下一個(gè)中文字符占三個(gè)字節(jié)。
strlen()函數(shù)在ASCII碼下,一個(gè)中文漢字占兩個(gè)字節(jié)的空間;在UTF-8編碼下,一個(gè)中文(含繁體)等于三個(gè)字節(jié);在Unicode編碼下,一個(gè)中文(含繁體)等于兩個(gè)字節(jié)。
而上例中的字符串“歡迎來到PHP中文網(wǎng)!
”中一個(gè)包含了8個(gè)中文字符,3個(gè)英文字符,則8*3+3=27
個(gè)字節(jié),則字符串長(zhǎng)度為27。
但這樣的字符串長(zhǎng)度不是我們想要的,那樣如何處理中文字符,可以準(zhǔn)確的計(jì)算出我們想要的中英文混合或純中文字符串的長(zhǎng)度呢?
PHP提供了一個(gè)函數(shù)來解決這個(gè)問題,那就是mb_strlen() 函數(shù)。
還是上個(gè)示例,這次使用mb_strlen() 函數(shù)來計(jì)算字符串長(zhǎng)度:
<?php header("Content-type:text/html;charset=utf-8"); $str = "歡迎來到PHP中文網(wǎng)!"; echo '字符串 “'.$str.'” 的長(zhǎng)度為:'.mb_strlen($str,'utf-8').'<br>'; ?>
輸出結(jié)果為:
可以看出:字符串$str
中,中文+英文+感嘆號(hào),一個(gè)有11個(gè)字符,輸出結(jié)果也為11。對(duì)了,找到對(duì)的人了~
mb_strlen() 函數(shù)中無論是漢字,還是英文、數(shù)字、小數(shù)點(diǎn)、下劃線和空格,都只占一個(gè)字節(jié)。
下面我們來簡(jiǎn)單了解一下mb_strlen() 函數(shù)。
mb_strlen($string,$encoding)
函數(shù)可以通過設(shè)置字符編碼從而返回對(duì)應(yīng)的字符數(shù);該函數(shù)接受一個(gè)必需參數(shù)$string(需要檢測(cè)的字符串)和一個(gè)可省略的參數(shù)$encoding
(字符編碼),如果省略則使用內(nèi)部字符編碼。
我們可以通過設(shè)置對(duì)應(yīng)的$encoding
參數(shù),就能很好的處理中文字符串的長(zhǎng)度問題。
好了就說到這里了,有其他想知道的,可以點(diǎn)擊這個(gè)哦。→ →php視頻教程
最后給大家推薦閱讀一個(gè)經(jīng)典課程《PHP字符串處理(玉女心經(jīng)版)》,免費(fèi)的~快來學(xué)習(xí)啊!