Python 爬取 394452 条《都挺好》弹幕数据,发现弹幕比剧还精彩?

  • 时间:
  • 浏览:0

声明:本文来自于微信公众号 CSDN(ID:CSDNnews),作者:周志鹏,授权站长之家转载发布。

狂野男孩大强下线的第三天,想他,想他,想他……

最近《都挺好》真的挺火。

火到什么都有有 程度?微博热搜霸榜,办公室评弹声四起,大强轻松攻占表情包,甚至连 N 年不追剧的“瘦宅”们也并且开使沉迷其中,大呼真香。

剧很精彩,但追剧界有句俗话说得好:“弹幕往往比剧更精彩”,为了让精彩延续下去,我终究不能自己忍住对(腾讯视频)弹幕下手。

经过一番折腾,发现弹幕是 JSON 格式动态加载的,并且加载得非常有规律,50 秒一发(50-50 条),多出的会隐藏。共计爬取了 394452 条弹幕(雨露均沾,每集平均 8575 条,每 50s 的间隔爬取),来挖一挖弹幕什么都有有 宝藏。

弹幕基本盘概览

爬到的源数据是酱紫的:

发现有要素用户名是缺失的,并且这要素用户占比很小(仅 0.61%),什么都有有什么都有有当我们我们我们我们直接暴力除去这要素噪声。

清洗并且,还剩下 117484 个用户发送的 392051 条弹幕,人均发送弹幕量 3.34 条。

再看看每什么都有其他同学发送弹幕数是为什么会么会样分布的:

显而易见,大要素用户还是比较佛系的,71507 位用户(占比 50.95%)在 46 集中只发送过 1 条弹幕,当我们我们我们我们内心严格遵循“爱就另一两个 字,我只发一次”的弹幕发送准则。

发送条数在 3 条及以内的用户数占比达到了 83.73%,当我们我们我们我们累计贡献了 133331 条弹幕,占到弹幕总数的 34.01%,反过来看,剩下 16.27% 的用户贡献了弹幕量的 65.99%。从什么都有有 厚度来看,二八法则在这里更像是二七法则(20% 的用户贡献了 70% 的内容)。

是谁在疯狂发射弹幕,而弹幕又爱上了谁

弹幕发送量 Top10 榜单

当当我们我们我们我们知道明成是“行走的造粪机”,不能自己 从弹幕的厚度来看,谁是“行走的弹幕发射机”呢?

为此,当我们我们我们我们筛选出累计发送弹幕 Top10 的用户:

微微一操作(爬取、清洗和分析都使用 Python)

    danmu_counts = df.groupby('用户名')['评论id'].count().sort_values(ascending= False).reset_index()danmu_counts.columns = ['用户名','累计发送弹幕数']danmu_counts.head(10)

    上一步当我们我们我们我们知道平均每什么都有其他同学在整部剧会发送 3.34 条弹幕,而弹幕发送排行榜前十的旁友们发送量全部都会过千级别的,当我们我们我们我们再再加什么都有有 用户弹幕发送涉及到的集数,进一步看看平均每集发送弹幕数。为了更直观什么都有有,可视化之:

    一位叫青 “@L”的用户独占鳌头,是毋庸置疑的 C 位输出。在 46 集的电视剧中,他的弹幕血洗了 32 集,累计发射 2773 条弹幕,平均每集发送 86.66 条。

    什么都有有 概念呢?

    一集电视剧时长约 42 分钟,也什么都有有什么都有有我说,这位大佬在看剧的一块儿,仍能保持每分钟 2.06 条的发送频次,还坚持了 32 集。

    到这里当当我们我们我们我们会有质疑,着实他肯定是刷了少量的“666”、“来了”类似于毫无意义的内容来霸榜,什么都有有什么都有有我把他的输出内容筛了出来并做成词云图:

    这……这位大佬输出的内容,不仅紧贴剧情,更是文风多变,时而总结内容,时而嬉笑怒骂,时而感慨人生,时而出口成诗,毫不夸张的说比一般弹幕全部都会有内涵。

    我的膝盖,并且开使不听使唤了......

    唯有疾呼“高山(频)仰止,景行行止”。

    谁的弹幕最受青睐(点赞数最多)

    根据每个用户累计点赞量排序,Get 到弹幕点赞 TOP10 排行榜:

    第一名“追剧小奶鹅”平均每集发 6 条弹幕,每条弹幕竟然能能得到 4585 个赞!难道这什么都有有什么都有有我传说中的精神领袖吗?难道大佬之外还有大佬吗?

    在看剧的并且一直能能被他的弹幕刷屏,并且他的弹幕比什么都有其他同学等待英文时间更长,颜色更艳丽。经核实,发现第一名,从前 是“嫡系”:

    腾讯视频电视剧弹幕专业陪聊,怪不得不能自己 高的赞。

    而第二名,又是当我们我们我们我们的大佬“@L”,他凭借高频、稳定、持续输出累计获得 21.69 万赞,平均每条弹幕获赞 78.22 个。

    大佬,请收下我的膝盖!

    高赞弹幕有何套路

    A)嫡系部队:

    当我们我们我们我们单独把腾讯的嫡系部队“追剧小奶鹅”拎出来,是并且他几乎垄断了高赞弹幕 Top50,嫡系光环加持,赞或许有虚高的嫌疑,但不妨碍当我们我们我们我们单独分析他内容的套路(着实不少小奶鹅的弹幕并不能自己 什么都有有的精彩,但毕竟是亲儿子):

    暴力总结起来就句子:对仗工整提大强,感天动地夸明玉。

    B)非嫡系部队:

    高赞的(非嫡系)当我们我们我们我们们深得演唱会那句带节奏名言“现场的当我们我们我们我们们,举起当我们我们我们我们的双手,我想要 看得人当我们我们我们我们的热情”的真传。

    “着实 XX 说得对点下谢谢”、“给 XX 点赞!”套路是获赞的一大法宝,另一法宝什么都有有什么都有有我推动剧情的内容总结了。

    弹幕视角主人公感情的句子分析

    谁是苏家最受弹幕关注的人儿

    要分析谁是苏家最受弹幕关注的人,须要先根据关键词去甄别和定位到剧中角色。

    这里列出了关于苏家人的简单词库,用来识别弹幕在议论谁。

    54.31% 的弹幕不能自己 主观倾向性,不能自己 提及具体的苏家人(并且提及了剧中什么都有其他同学,这里暂不考虑)。

    明玉竟然抢过了大强的宝座,以 19.91% 的弹幕提及率拔得头筹,而大强则以 16.16% 的关注度紧随其后。

    Emmm,无论是剧外热度还是追剧时弹幕槽点,我都着实大强应该才是最受关注的啊!

    作为另一两个 严谨的追剧人,我并且开使排查弹幕,发现了什么都有有什么都有有戏精在发弹幕时都玩起了角色扮演,当我们我们我们我们在发弹幕时,一直先在开头署名“苏明玉:” or 什么都有有剧中角色,仿佛在代当我们我们我们我们发声。

    清洗完这要素调皮的用户并且,排名跳出了新的变化:

    青春恋爱物语,什么都有有除外,大强以 15.16% 的关注占比领先什么都有有家人另一两个 身位,明玉又把另一两个 哥哥拉开了另一两个 身位的距离,占比 8.82%,明成和明哲关注占比分别是 4.84% 和 4.28%。

    P.S. 明成关注度之什么都有有什么都有有低,是并且什么都有有什么都有有弹幕骂人无须会指名道姓:),而明哲嘛,对什么都有有 排名表示很失望。

    弹幕感情的句子分析

    看剧(弹幕)时能能明显感觉到观众对于明成的态度从最并且开使的“过街老鼠,人人喊打”到并且的“明成懂事了”。

    从数据分析的厚度讲,明成是否是成功洗白?大强最后催泪演绎效果怎样才能?

    这里当我们我们我们我们调用百度感情的句子分析 API,对每三根评价的内容进行感情的句子打分,用感情的句子分值来验证上述疑问(分值在 0-1 之间,越靠近 0 负面倾向越强,越接近 1 则感情的句子越情面)。

    调用土妙招很简单:

      #先安装aip包from aip import AipNlp#到后台配置权限,获得相关ID和KEY,目前API是免费且不限量的app_id = '输入实际ID'api_key = '输入实际KEY'secret_key = '输入实际SECRET_KEY'client = AipNlp(app_id,api_key,secret_key) #定义函数,以便循环爬取def senti_analy(text):data = client.sentimentClassify(text)sentiment = data['items'][0]['positive_prob']return sentiment for text in df['内容']:try:sentiments.append(senti_analy(text))except:#print(text)sentiments.append('pass') df['感情的句子分值'] = sentiments

      打分筛选并且,当我们我们我们我们统计出每一集苏家每什么都有其他同学的平均感情的句子分值,并绘制出曲线图(4 什么都有其他同学意味 折线图可读性较差,什么都有有什么都有有能能了委屈大哥了):

      1. 大强开局不错,和明玉持平,但凭借倪老师“作死小能手”的实力诠释,让感情的句子分值越来很慢走低,11 集的低点正式印证了大强的“癫疯之作”,并且分值在 0.38 左右徘徊。随着“蔡根花宝贝”梗的跳出,“嘲讽”替代了指责,让分值略微上浮(感情的句子打分对于高级黑式嘲讽难以准确判断)。最后老年痴呆发病后大强对明玉的爱让分值一举超过 0.5,达到历史峰值,成功上岸。

      2. 明玉是原生家庭的受害者,也是另一两个 靠什么都有其他同学成功的女强人,前期爱恨分明,感情的句子分值一度飙到 0.59(超过什么都有有所有角色),18 集并且开使的买房纷争,日本日本网友纷纷表示强烈同情(例:明玉能能了像十年前一样别理当我们我们我们我们吗?感情的句子分值能能了 0.041),这让明玉相关的感情的句子分值严重走低,并且弹幕主旋律仍以叫好和同情为主。

      3. 明成的感情的句子分值走势更有意思,开局最低,靠欺负妹妹让分值越来很慢降低,可谓“人人喊打”,上端则分值飙升,一度追上明玉,主什么都有有什么都有有我并且明成期望值并且极低,并且他宠男人的行为得到观众认可。中期本色挨骂,降至低谷。27 集明成感情的句子分值再次超过 0.5,竟然是并且明成想吓走大强进行的一系列骚操作(尤其是广场舞)。再并且什么都有有什么都有有我明成幡然悔悟,走上正轨,分值在稳定在 0.45 左右,也算成功洗白。

      看来,开局降期望,中期随便作,后期催泪逆风翻盘,终究还是会被观众接受。

      作者:周志鹏, 2 年数据分析,深切感受到数据分析的有趣和学习过程中缺少案例的无奈,遂新开公众号「数据不吹牛」,定期更新数据分析相关技巧和有趣案例(含实战数据集),欢迎当我们我们我们我们关注交流。