大型電商直播
APP開發(fā)關于上網(wǎng)日志數(shù)據(jù)處理方法,大型直播APP軟件開發(fā)SDK通過手機攝像頭和麥克風直接采集音視頻數(shù)據(jù)。其中,視頻采樣數(shù)據(jù)一般采用RGB或YUV格式、音頻采樣數(shù)據(jù)一般采用PCM格式。采集到的原始音視頻的體積是非常大的,需要經(jīng)過壓縮技術處理來提高傳輸效率。為了便于手機視頻的推流、拉流以及存儲,通常采用視頻編碼壓縮技術來減少視頻的體積,現(xiàn)在比較常用的視頻編碼是H.264。在音頻方面,比較常用的是AAC編碼格式,其它如MP3、WMA也是可選方案。視頻經(jīng)過編碼壓縮大大提高了視頻的存儲和傳輸效率,當然,經(jīng)過壓縮后的視頻在播放時必須進行解碼。所以對于數(shù)據(jù)日志的處理就顯得尤為重要,APP開發(fā)公司總結它們通常在各種元素的特定要求上有很大的相似性的流程上網(wǎng)日志數(shù)據(jù)處理方法的流程如下:

1.對上網(wǎng)日志數(shù)據(jù)的URL地址進行提取。
2.對已知的URL數(shù)據(jù),按照基準URL分類準則進行分類。
3.對未知的URL地址,首先爬取網(wǎng)頁數(shù)據(jù),然后對爬取的網(wǎng)頁數(shù)據(jù)按照網(wǎng)頁分類模型,進行網(wǎng)頁分類,不斷優(yōu)化模型,提高網(wǎng)頁分類的準確性。4.根據(jù)每個人訪問網(wǎng)址和對應網(wǎng)址的網(wǎng)頁分類,利用模型統(tǒng)計出每個手機號碼的個人喜好,為精準營銷提供依據(jù)。具體流程如下圖所示。

大型電商APP開發(fā)關于上網(wǎng)日志系統(tǒng)的技術架構方案
基于上述處理流程,上網(wǎng)日志處理系統(tǒng)的邏輯架構方案如下圖所示。

針對每一部分的具體功能介紹如下。數(shù)據(jù)源從電信運營商系統(tǒng)服務器定時獲取用戶基本信息和上網(wǎng)日志信息,輸入到集群HDFS文件系統(tǒng)和HBase數(shù)據(jù)庫中。
接口層負責與外部系統(tǒng)的數(shù)據(jù)進行交換,包括用戶數(shù)據(jù)、上網(wǎng)日志數(shù)據(jù)的采集,互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容的爬取和對外圍系統(tǒng)提供訪問接口。數(shù)據(jù)接口可實現(xiàn)對關系型數(shù)據(jù)庫,如Oracle、DB2等的數(shù)據(jù)交換,包括采集和加載過程,同時也支持文件類型的數(shù)據(jù),可以通過FTP等方式進行采集。系統(tǒng)對外提供統(tǒng)一訪問接口,具有開放性、高性能、可監(jiān)控管理和安全性等特征。
數(shù)據(jù)層是分布式大數(shù)據(jù)處理平臺,從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到分布式存儲中去。通過分布式計算框架可以實現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換、校驗和裝載等過程。資源層由于分布式架構帶來的硬件部署的復雜度,需要對物理資源層和系統(tǒng)平臺層提供進一步的抽象,以提供自動化部署和彈性的運維能力,因此資源層實現(xiàn)了對物理資源的自動部署和動態(tài)擴展,對分布式集群中不同角色進行靈活部署。
功能層實現(xiàn)了數(shù)據(jù)處理流程模塊的模塊化處理,提供集群的訪問控制,并負責Hadoop集群的運行管理和系統(tǒng)報警日志管理。數(shù)據(jù)處理能夠進行任意串并聯(lián)的流程調(diào)度,并且能夠控制節(jié)點的優(yōu)先級、超時時間、重試次數(shù),同時具備路由判斷能力,能夠在多分支的情況下通過條件進行不同的流程流轉(zhuǎn)。采用異步調(diào)度策略,能夠支持大并發(fā)量的調(diào)度。應用層負責應用功能的具體算法實現(xiàn)。實現(xiàn)了大型電商APP網(wǎng)頁分類索引,通過互聯(lián)網(wǎng)注冊URL及其類別的爬取,對數(shù)據(jù)進行統(tǒng)一管理,并置于持久化存儲中。將其中的類別進行模塊化重組,劃分至對應的層次結構,如(社交-社區(qū))或(社交-微博),對類別進行索引。
實現(xiàn)了詞庫分類管理,通過對網(wǎng)絡熱門詞匯及常用詞匯的爬取,根據(jù)所屬類別構建分詞詞庫。詞庫定期更新,不斷完善。實現(xiàn)了用戶行為統(tǒng)一分析,基于客戶的訪問行為,識別其偏好特征,根據(jù)內(nèi)容偏好特征進行客戶細分,并支持目標客戶群提取,以便支撐營銷活動,實現(xiàn)了URL地址統(tǒng)一管理。展示層負責將應用功能處理結果通過Web頁面展示,并且提供交互頁面,熟練使用各種應用處理功能,并對處理結果進行動態(tài)展示。網(wǎng)絡爬蟲負責從互聯(lián)網(wǎng)系統(tǒng)中爬取網(wǎng)頁的具體內(nèi)容信息。具體處理流程是一種按照一定的規(guī)則,自動抓取萬維網(wǎng)信息的程序或者腳本。程序從日志文件中提取URL地址,并進行過濾、去重操作。其中過濾操作去除圖片、視頻、軟件等內(nèi)容的URL地址;去重會把重復的URL、已經(jīng)抓取的URL、已經(jīng)分類的URL地址去掉。剩下的URL地址送入爬蟲的地址庫中,爬蟲會根據(jù)一定的規(guī)則產(chǎn)生要抓取的URL地址,然后通過MapReduce的方式并發(fā)抓取產(chǎn)生的URL地址,最終把抓取到的URL地址的內(nèi)容存儲到HDFS文件系統(tǒng)中。由于網(wǎng)絡爬取流程需要互聯(lián)網(wǎng)資源支持,數(shù)據(jù)處理Hadoop集群是和電信運營商內(nèi)部網(wǎng)絡互聯(lián),而且Hadoop集群的安全處理措施不夠完善,因此,它們之間的訪問需要嚴格控制,以保證網(wǎng)絡部署安全。在物理架構設計上,需要設計兩個完整的內(nèi)部集群網(wǎng)絡,集群網(wǎng)絡之間需要用防火墻進行訪問控制。大型電商APP開發(fā)關于程序系統(tǒng)上網(wǎng)日志處理系統(tǒng)的物理網(wǎng)絡部署拓撲如下圖所示。好了,
深圳APP開發(fā)公司本文關于“大型電商直播APP開發(fā)關于上網(wǎng)日志數(shù)據(jù)處理方法”的知識就分享到這里,謝謝關注,博納網(wǎng)絡編輯整理。