文本挖掘找出50年間最流行的音樂

大數據實驗室2020-05-06 14:29:49

編者按:


現在公眾號有置頂功能了,大家把微信更新到最新版本,點開“大數據實驗室”公眾號。點“置頂公眾號”鍵,就可以置頂了,這樣。不管我們什么時候更新,您都能容易找到。


1958年開始每年十二月Billboard都會發布一個年度百首流行曲金榜。這個圖表涵蓋了美國全年的流行單曲表現。


通過R語言,我已經把50年的(1965-2015)?年度流行金榜百首的歌詞合并到一個數據集進行分析。你可以在我的Github庫中下載該數據集。


獲取歌詞


用于分析的歌曲是來自于對維基百科中每個Billboard年度流行金榜百首(如2014年)的抓取。這是整個年度的圖表,而不是每周的排名。許多藝術家做過周圖表,但沒有做過年度圖表。年度圖表是通過周Billboard的逆點系統來進行計算的。


我使用XMLRCurl從每個維基百科詞條中抓取歌曲和藝術家的名字。然后我用這個列表從有可預見的URL字符串的網站上抓取歌詞(例如,metrolyrics.com就使用metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。如果第一個站點抓取失敗了,就轉向第二個,依此類推。大約78.9%的歌詞是從metrolyics.com上抓取的,15.7%是從songlyrics.com上,1.8%是從lyricsmode.com上。另外大約3.6%(187/5100)沒有找到。


該數據集對5100個觀測對象根據歌曲、藝術家、年份、歌詞和來源進行了1-100的特征等級劃分。歸功于維基百科藝術家特征是相當標準化的,但當涉及到與藝術家的合作時就存在一些問題。如果在抓取的歌詞中存在錯誤,如拼寫錯誤或另外的像把“night”寫成了“nite”,這些并沒有得到糾正。


管理數據


最常見的歌詞


58%一單首現象


出現在年度圖表上的1989名中的1154名藝術家(約占58%)都僅僅只有一首知名曲目。右邊的數據是通過把藝術家的歌曲進行匯總而計算出來的;另外把“精選”藝術家都單獨列出來。這意味著只有位列第一的藝術家才能得到對其歌曲的完全信任。


Songs

1

2

3

4

5

6

7

8

9

10

Artists

1154

319

160

90

70

61

31

23

13

18




馬拉松vs沖刺生涯


我們驚訝地發現一些位居表格頂端的藝術家反而有相對較短的職業生涯(Rihanna10年時間內有28個入表的歌曲),所以我觀察了一下歌手職業生涯的長度和入榜歌曲的平均數量之間的關系,并發現這兩者之間是呈負相關的。職業生涯跨度每增加一年,每年歌曲入榜平均數量就會減少94%。


*數據集不包括1964年披頭士樂隊第一年入選年度榜單,所以實際上他們的職業生涯跨度是12年。



隨時間增長歌詞的變化



Python量化投資實戰營(深圳-香港)

量化交易深入解析

用Python做量化交易

Mongodb數據庫與數據處理

Python量化引擎基礎,執行一個策略

環球FOF投資

股票數據統計與Alpha因子策略

量化策略-CTA策略……

2017年8月21日-25日(第二期)深圳-香港

報名電話/微信:18516600808



詞匯和曲長不斷增長


數據集中的歌曲平均總長332個單詞,114種詞匯。平均字數(包括種類和數量)隨著時間的推移不斷增加。字數的變化量也有所增加,可能是由于隨著時間的推移進入榜單排名的歌曲體裁更加多樣??勺兎讲钔ㄟ^字數統計的轉換日志進行校正,并和兩個線性模型擬合,最后產生總系數0.01873和單詞種類系數0.0136。在每年的增加量上,總字數平均每年增加1.87%,字數種類增加1.36%。



這個增長可能是由于較長的歌曲——自從20世紀60年代以來歌曲逐漸從2.5分鐘增長至4分鐘,這時期快節奏的音樂風格和歌曲特征盛行,超過了對某個藝術家的關注。



BoogieBitch:十年間最具特色的歌詞


利用我先前的職位(Text Mining South Park)中列出的對數似然統計,我能夠識別在特定十年內最有特色的歌詞??傊?,在有較高的對數似然語料庫中,單詞會比預期出現的頻率更高。?25個最有力的結果(總數>81; P <0.001下顯著度10.83)。


很明顯,個別歌曲是在反復重復從而影響了結果。這反而引起了對數似然在歌詞上的適用性方面的一個很好的議題——一首高度重復的歌曲會扭轉這個結果嗎?



注意事項


廣告牌年終熱門100首排行榜政策的變化


流行歌曲內容的一般變化至少可以部分歸因于隨著時間的推移百強排名方法的演變。廣告牌通過發現和購買音樂的方法改變其排名政策以保持其時代相關性。


1958年至1991年:由單曲銷量和AirPlay的比例確定排名

1991年:廣告牌開始收集數字銷售數據(使用SoundScan的),以便更快更準確的制作圖表

1998年:廣告牌要求歌曲必須作為單曲發行才能出現在圖表上

2005:包括數字下載(如iTunes

2012:流媒體點播服務(Spotify,狂想曲)收錄

2013:包括視頻形式(YouTube


現在的消費者比以往在單曲榜中更多的發言權。在此之前的2005年,消費者可以通過購買單曲或在電臺上點歌來影響圖表排名?,F在,消費者可以通過觀看視頻、下載單曲或購買物理拷貝版本來對歌曲的流行度做出影響。


來源:數盟

上海財經大學 ?期貨量化系統課程


量化知識循序漸進

策略研發深入輔導

解密私募量化交易策略核心技術

手把手輔導量化實戰

快速掌握期貨基礎

實現持續穩定盈利


第二期(9月16日-9月19日)

第三期(11月18日-11月21日)

報名電話/微信:18516600808



北斗导航股票代码