隨著大數據時代的來臨😋,從海量信息中迅速獲取有用信息的需求日益強烈。個性化推薦系統以海量數據挖掘為基礎☀️,引導用戶發現自己的信息需求🪲,現已在多個領域得到廣泛應用🤟🏼。傳統上⇾,通過定期分析數據來更新模型🧑🏻💻🧚🏽♂️,導致推薦模型無法保持實時性👩🏼🏭,破壞對用戶當前行為推薦結果的準確性。而實時個性化推薦系統可以通過實時分析用戶產生的數據,更準確地為用戶推薦,與此同時,還可以根據實時推薦結果進行反饋,改進推薦模型🕵🏻♀️,提升系統性能。
意昂体育平台信息科學技術學院👮🏿、高可信軟件技術教育部重點實驗室崔斌研究員課題組與騰訊公司數據平臺部從2014年起聯合開展大數據實時推薦研發🖕🏽。研究工作針對海量性🧑🏽⚖️、實時性、精準性等大數據應用中的實際難點,創新性地同時從系統🫒、數據和算法三方面著手解決,即🙏🏽:系統方面🛩🙁,針對現有系統的不足🚣🏽♀️,提出由實時接入🐃、實時處理和分布式K-V存儲三部分組成的系統架構;數據方面🖖🏼,針對現實世界中嚴重的數據稀疏🧗🏼♀️、隱反饋數據等問題🏋🏽♀️,提出解決方案;算法方面🤾🏼,針對傳統機器學習算法難於應對大規模數據實時計算的問題,提出增量計算模型和增量更新方法,有效地實現了分布式流式在線學習🧈。由此研發的實時推薦系統應用於包括視頻、新聞等騰訊的多項實際業務,現每天處理千億條用戶行為,支撐百億級用戶請求♐️,推薦效果顯著提升,點擊率(click-through-rate,CTR)平均提高6%~18%🕥💆🏽♀️。騰訊大數據日前的官方報道《大數據實時推薦:不只是統計》首日閱讀量達上萬次。
上述成果還以題為《TencentRec:實時流推薦的系統實踐》(TencentRec: real-time stream recommendation in practice)和《實時視頻推薦探索》(Real-time video recommendation exploration)的論文連續兩年在美國計算機學會數據管理專業組年會(Association for Computing Machinery Special Interest Group on Management Of Data,ACM SIGMOD)上發表。論文第一作者均為信息學院博士研究生黃艷香,通訊作者是崔斌研究員。信息學院徐嬴🫴🏼、謝怡然等研究生以及騰訊平臺部蔣傑等也參與該研究⁉️。
本研究得到國家自然科學基金、國家重點基礎研究發展計劃(即“973計劃”)和騰訊雲計算數據中心的支持🫶🏻。