今天和搜索部門一起做了一下MQ的遷移,順便交流一下業(yè)務和技術。發(fā)現(xiàn)現(xiàn)在90后小伙都挺不錯。我是指能力和探究心。我家男孩,不招女婿。
在前面的文章中也提到,我們有媒資庫(樂視視頻音頻本身內(nèi)容)和全網(wǎng)作品庫(外部視頻音頻內(nèi)容),數(shù)據(jù)量級都在千萬級。我們UV,PV,CV,VV都是保密的。所以作為一個合格的員工來說………………數(shù)值我也不知道??傊?,這些數(shù)據(jù)作為最終數(shù)據(jù)源,要走一個跨多個部門的工作流才最終出現(xiàn)在用戶點擊搜索按鈕出現(xiàn)的搜索框里。大體流程圖如下:
這個流程圖之所以沒像以往一樣手繪,嗯,那是因為:鋼筆放在公司了。
這里面除了兩個庫都在我們這邊之外,其他的一個框是一個部門。我們這邊給pipeline的數(shù)據(jù)交付使用的是我開發(fā)的離線服務。pipeline將各個來源的數(shù)據(jù)做重復歸并處理。就是一些視頻內(nèi)容是一樣的,但是可能來源不同或者名稱有相似但可能不完全相同,而實際上是一個視頻。打個比方,大學時看過一個電影叫<a Cinderella story>翻譯成中文有的翻譯成《灰姑娘的故事》也有翻譯成《灰姑娘的玻璃手機》,但是可以根據(jù)其導演和演員表等判斷其實是同一個視頻。這些相同的視頻要聚合成一個專輯。推舉最優(yōu)質的描述作為專輯的描述。展開詳情有各個來源的排序后視頻列表。
正常全網(wǎng)搜索也會將自家的視頻放在前面: