O2O
APP開發(fā)搜索系統(tǒng)流程結(jié)構(gòu)什么是“切詞”,開發(fā)APP搜索系統(tǒng)流程切詞,又叫“分詞”,用于將用戶輸入的非結(jié)構(gòu)化字符變成機(jī)器可識別的詞組。市面上有很多成熟的切詞組件。切詞邏輯有很多種,如根據(jù)字符、概率等切詞,電商和O2O一般使用字符串切詞的方式進(jìn)行處理。關(guān)于切詞的方法,最基礎(chǔ)的有最大正相匹配、最大逆向匹配和雙向匹配等,具體的內(nèi)容可以百度查詢。切詞工具是根據(jù)詞庫中的詞典將字符進(jìn)行切分,一般開源的切詞工具都有默認(rèn)的詞庫和自定義詞庫兩種,用戶可通過添加自定義詞庫來完善補(bǔ)充。
APP開發(fā)公司這面需要強(qiáng)調(diào)的是切詞時候的過濾,尤其生鮮類、非標(biāo)品情況下特別需要注意。

●單字詞、助詞之類的是否要過濾掉,如米、面和油等。
●別名情況的處理,尤其是生鮮類。比如北京的油菜,在上海叫上海青,在重慶叫漂兒白。檢索接下來就需要匹配檢索結(jié)果集了。根據(jù)切出的詞語進(jìn)行匹配,匹配到的商品信息集合為檢索結(jié)果集。結(jié)果集需要做檢索、過濾和標(biāo)記3個步驟。檢索項包括但不限于:
●商品名稱;
●商品標(biāo)題、副標(biāo)題;
●商品描述;
●商品參數(shù)、規(guī)格;
●商品品牌(生鮮、副食品類尤為重要,比如五得利面粉、鵬程五花肉);
●商品品類(一級類、二級類);
●別名關(guān)聯(lián)商品;
●促銷類型。成熟的電商系統(tǒng)不僅僅能實現(xiàn)用戶的基本商品檢索,還會根據(jù)關(guān)鍵詞進(jìn)行意圖分析并進(jìn)行查詢轉(zhuǎn)換。以生鮮電商舉例,當(dāng)用戶搜索“豬肉”時,用戶希望獲得的不是含有“豬肉”詞語的商品,而是豬肉的各個部位、豬肉級別等信息,這時應(yīng)該將其轉(zhuǎn)化為“后臀尖”“前臀尖”“里脊”“一級白條”等詞語進(jìn)行檢索,而不是匹配“豬肉”。意圖分析主要有以下兩個方面:
●行為模式分析;
●用戶畫像分類。去重和過濾獲取的結(jié)果集需要經(jīng)過去重、過濾的處理。此部分可以在加權(quán)打分后進(jìn)行處理,也可以安排在初選結(jié)果后處理。
●同一個商品被多個詞語命中,則需要去重。
●現(xiàn)實中的電商搜索可能會根據(jù)不同的場景構(gòu)建所謂的“小搜索”,如按照類目、品類和定制化場景等搜索。因此,針對不同的搜索場景,可能會有不同的過濾、去重條件,也可以在構(gòu)建數(shù)據(jù)的時候使用不同的庫進(jìn)行處理。
●O2O場景需要按照一定區(qū)域概念(城市、商圈等)進(jìn)行過濾。
●售罄商品需要過濾。
●下線商品需要過濾。標(biāo)記和加權(quán)在檢索完成后需要對數(shù)據(jù)進(jìn)行標(biāo)記,以便后續(xù)做加權(quán)時使用。此步也可以在做加權(quán)處理的時候同步進(jìn)行。加權(quán)是整個流程中最重要的步驟。加權(quán)的目的是根據(jù)模型確定結(jié)果集中各個商品的排序優(yōu)先級。加權(quán)的維度有很多,根據(jù)不同的場景考慮會有所區(qū)別。加權(quán)因子主要分為以下幾個維度:
●相關(guān)度;
●商業(yè)化因素;
●個性化因素;
●人為因素;
●數(shù)據(jù)模型統(tǒng)計。計算相關(guān)度最后是計算相關(guān)度,這里指的是分詞的相關(guān)度,包括文本匹配、詞間距、是否是中心詞和品牌詞等。中心詞的概念是是否命中了核心的詞語,中心詞和品牌詞也需要有對應(yīng)的詞庫進(jìn)行維護(hù)更新。詞間距是計算相關(guān)性的一個維度,比如一段文本中包含清華、大學(xué),“清華大學(xué)×××××××”與“清華×××××××大學(xué)”相比,肯定是前者相關(guān)性更高一些。這里面有幾點需要注意。
●關(guān)鍵詞被完整匹配和部分匹配的權(quán)重是不同的;
●單詞命中和多詞命中同一商品也需要考慮權(quán)重情況。
深圳APP開發(fā)公司本文關(guān)于“搜索系統(tǒng)流程結(jié)構(gòu)什么是“切詞””的建站知識就分享到這里,謝謝關(guān)注,博納網(wǎng)絡(luò)編輯整理。