滾動(dòng)信息:記得有個(gè)笑話,講老師要小明用“如果”造句,結(jié)果小明說(shuō)“蘋(píng)果不如果凍好吃!” 這為什么是一個(gè)笑話呢?我們從邏輯上分析一下。
首先,造句的邏輯要求是:“編造一句話,這句話中包含指定的詞”,從這個(gè)要求來(lái)看“蘋(píng)果不如果凍好吃”,當(dāng)中包含了“如果”,那么這個(gè)造句就是合格的,但是為什么大家覺(jué)得可笑呢?那是因?yàn)閺恼Z(yǔ)義的角度理解,“蘋(píng)果不如果凍好吃”,當(dāng)中是“不如”和“果凍”兩個(gè)詞拼湊出了“如果”,而全文的含義中并沒(méi)有包含“如果”。
這里就不得不引入一個(gè)叫做”分詞“的概念了,分詞,就是根據(jù)語(yǔ)義,把句子中的詞匯提取出來(lái)。一個(gè)句子,按照語(yǔ)意的邏輯分段,從大到小應(yīng)該是句讀、詞、字,句讀是用標(biāo)點(diǎn)符號(hào)劃分的,詞是字組成的語(yǔ)義單元,字就是單個(gè)漢字。古文中,甚至連標(biāo)點(diǎn)都沒(méi)有,唐代韓愈的《師說(shuō)》中就有“句讀之不知,惑之不解,或師焉,或不焉,小學(xué)而大遺,吾未見(jiàn)其明也。”,“以字成詞”是中文特有的,因此這也給中文分詞帶來(lái)了難度。而拼音文字就沒(méi)有這個(gè)問(wèn)題,比如“helloworld”我們根據(jù)單詞就能提取出“hello”和“world”兩個(gè)詞。
中文分詞比較困難,目前還不能完美實(shí)現(xiàn)機(jī)器自動(dòng)分詞,但是并不表示無(wú)法實(shí)現(xiàn),只要基于中文詞庫(kù),詞頻,還有一些專業(yè)數(shù)據(jù),比如某個(gè)詞的專業(yè)度,常用度等,有很多專業(yè)的術(shù)語(yǔ),我不記得了,這里也不展開(kāi)。
    下面做一個(gè)有趣的實(shí)驗(yàn),打開(kāi)微軟的word,輸入文本“蘋(píng)果不如果凍好吃”,然后你用鼠標(biāo)嘗試在各個(gè)漢字上雙擊,唉?是不是會(huì)自動(dòng)選中詞語(yǔ)?你會(huì)發(fā)現(xiàn),你在“如”上雙擊,會(huì)選中“不如”,在“果”上雙擊,會(huì)選中“果凍”,不論你在哪里雙擊,都不會(huì)選中“如果”!這樣看來(lái),看似簡(jiǎn)簡(jiǎn)單單的一個(gè)word,居然已經(jīng)引入了中文分詞的概念,是不是讓你對(duì)word有了重新的認(rèn)識(shí)?

在“如”上雙擊
在“果”上雙擊
然而就是這樣一個(gè)word中已經(jīng)有了十多年的功能,在百度里卻沒(méi)有。2015年,7月18日的太倉(cāng)畢業(yè)生招聘會(huì)將在太倉(cāng)明德高級(jí)中學(xué)舉辦,我一位太倉(cāng)人才網(wǎng)的朋友讓我?guī)退麨榇司庉嬕粋€(gè)百度推廣,從而更好的宣傳這次活動(dòng),于是我在百度推廣后臺(tái)編輯并提交。結(jié)果提交時(shí)提示我的內(nèi)容觸犯什么保護(hù)條例,資訊客服后,得知“德高”二字被品牌注冊(cè)保護(hù)了。這真是讓人哭笑不得,“太倉(cāng)明德高級(jí)中學(xué)”,根據(jù)漢字分詞,應(yīng)該是:“太倉(cāng),明德,高級(jí)中學(xué)”,語(yǔ)義上是沒(méi)有包含“德高”二字的。使用簡(jiǎn)單的字符串比對(duì)來(lái)過(guò)濾是最簡(jiǎn)單粗暴的做法!
    我還是很懷念谷歌的。而一個(gè)公司,一個(gè)產(chǎn)品,靠各種關(guān)系,依托“官方”來(lái)打壓競(jìng)爭(zhēng)者坐上頭把交椅的,沒(méi)有居安思危的意識(shí),怎么可能希望他可以進(jìn)步呢?
 
陽(yáng)光浪子
2015年6月9日


