上个礼拜权游大结局,最终的结果布兰登上了铁王座。


这个结果确实是大家没有想到的。


原本想着如果不是「龙妈」,那么就该是「雪诺」。


怎么就轮到「布兰」了呢。


一个可以随时随地监视别人的人坐上了铁王座,细思极恐...



权游从2011年4月17日开播直到最后一集5月19日,一共历时九年,终于落下了帷幕。


也算是陪伴了一些人的青春,看看上图里的「小布兰和长大后的布兰」。


时光荏苒,岁月如梭,有那么点点哈利波特的感觉(同样也是好多年)。


这次找到了一些权游的数据集,针对这些数据来做一些分析。


主要有人物信息,字幕信息以及屏幕时间信息。


这些数据由「GitHub」上的一位大佬整理的,具体可以点击阅读原文了解详情。



/ 01 / 杀手榜


数据是JSON文件,都是别人已经整理好的。


如下是人物信息,包含姓名,家族,人物图片,兄弟姐妹等。



这里只看谁干掉的人最多,其余大伙可以自行探索。


读取文件后,进行排序,代码如下。


import json

# 读取人物信息文件
with open("characters.json"'r'as load_f:
    load_dict = json.load(load_f)
    characters = load_dict["characters"]

# 计算人物的杀人数
item = {}
for character in characters:
    if 'killed' in character.keys():
        item[character['characterName']] = len(character['killed'])

# 排序
top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
print(top15, '\n\n')

# 获取杀手榜前15位,以及是哪位被领盒饭
for i in top15:
    for character in characters:
        if character['characterName'] == i[0]:
            print(i[1], i[0], character['killed'], '\n\n')


结果如下。



看一下前四位狠人,「龙妈猎狗雪诺二丫



猎狗」大叔看似人狠话不多,但是他的内心还是很正义的。



其中二丫杀了夜王,这一点也没毛病。



就是雪诺龙妈就有点那个啥了,上一秒我们还是“朋友”,下一秒就GG了。



木有想到网上居然还有神预测...



/ 02 / 发言榜


下面这个数据是每集的台词,概况如下。



通过遍历字典信息,获取人物发言频次。


import json

# 读取人物信息文件
with open("script-bag-of-words.json"'r', errors='ignore'as load_f:
    load_dict = json.load(load_f)

# 对人物人名进行统计
names = []
for i in load_dict:
    for j in i['text']:
        name = j['name']
        if name not in names:
            names.append(name)
# print(names)

# 获取人物说话次数
item = {}
for name in names:
    num = 0
    for i in load_dict:
        for j in i['text']:
            if j['name'] == name:
                num += 1
    item[name] = num

# 排序
top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
for i in top15:
    print(i[1], i[0])


结果如下。


小恶魔雪诺龙妈瑟曦詹姆排行前五。


提利昂」曾经说过“大脑需要书才能变得敏锐,就像剑需要磨刀石一样。”



果然作为读书多的,话也就多了。


不然就只能一句句「俺也一样」了...



弑君者「詹姆」,小恶魔」的哥哥。



虽然前期做了不少坏事,不过最后改邪归正,真的实力圈粉。



/ 03 /  出场时间


对场景出现时间进行分析,数据概况如下。



对数据进行处理,代码如下。


import json
from datetime import datetime

# 读取每集的出场信息
with open("episodes.json"'r'as load_f:
    load_dict = json.load(load_f)
    episodes = load_dict["episodes"]

for episode in episodes:
    # 获取每集的片段信息
    for scene in episode["scenes"]:
        # 处理时间数据
        start = datetime.strptime(scene['sceneStart'], "%H:%M:%S")
        end = datetime.strptime(scene['sceneEnd'], "%H:%M:%S")
        # 国家
        with open('got_1.csv''a+'as f:
            f.write(scene['location'] + ',' + str((end - start).seconds) + ',' + str(episode["seasonNum"]) + ',' + str(episode["episodeNum"]) + '\n')
        # 城市
        if 'subLocation' in scene.keys():
            with open('got_2.csv''a+'as f:
                f.write(scene['subLocation'] + ',' + str((end - start).seconds) + ',' + str(episode["seasonNum"]) + ',' + str(episode["episodeNum"]) + '\n')
        # 人物
        for people in scene['characters']:
            with open('got_3.csv''a+'as f:
                f.write(people['name'] + ',' + str((end - start).seconds) + ',' + str(episode["seasonNum"]) + ',' + str(episode["episodeNum"]) + '\n')


最后得到三个文件,分别为国家、城市及人物的出现时间。


这里不对每一季进行分析,那样内容太多了,有兴趣的可以自己试试。


import pandas as pd
from pyecharts import Bar

# 读取数据
df = pd.read_csv('got_1.csv', header=None)
# df = pd.read_csv('got_2.csv', header=None)
# df = pd.read_csv('got_3.csv', header=None)

# 汇总名称
names = []
for name in df[0]:
    if name not in names:
        names.append(name)

item = {}
for name in names:
    nums = []
    for num in df[df[0] == name][1]:
        nums.append(num)
    # 列表求和
    s = sum(nums)
    # 时间转换
    m, s = divmod(s, 60)
    h, m = divmod(m, 60)
    item[name] = "%02d:%02d:%02d" % (h, m, s)

# 出场时间前15位角色
top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
for i in top15:
    print(i[1], i[0])


结果如下。


先看一下区域的时间分布。



第一王领,第二北境。


下面是城市的屏幕时间情况。



第一位君临城——七大王国的首都。



第二位「临冬城」——史塔克家族的城堡。



最后是人物出现的屏幕时间。



第一位是国王之手「小恶魔」。


第二位是什么都不懂的雪诺」。



第三位是白手起家最后又被骗的龙妈



对每季的人物进行统计。


# 统计每季人物出场时间
for i in range(19):
    name_1 = []
    nums_1 = []
    df1 = df[df[2] == i]
    for j in top15:
        num_1 = []
        for k in df1[df1[0] == j[0]][1]:
            num_1.append(k)
        name_1.append(j[0])
        nums_1.append(sum(num_1))
    print(i, name_1, nums_1)


def people_scenes():
    """
    每季人物出现时间
    """

    # 参数数据
    attr = ['提利昂''雪诺''龙妈''三傻''瑟曦''二丫''詹姆''莫尔蒙''戴佛斯''山姆''瓦里斯''席恩''布蕾妮''布兰''猎狗']
    v1 = [490353234900360842523655252336500191829493270031152442]
    v2 = [525726583037245530213373136316941879122515942908186913871445]
    v3 = [414626202760236924292612267425611636207415331605200917681283]
    v4 = [548038182490313046942510426916341021227313321190153614272328]
    v5 = [44695066376729193927277018892998145227428761635116300]
    v6 = [2852552724733848222222942948827410112681424162617492107906]
    v7 = [584978405773343634262744407445494417174730722553231312463657]
    v8 = [81487513649439401551435739351740367928713247888381732961827]
    # 创建条形图
    bar = Bar("权游人物出场时间分布", title_pos='center', title_top='18', width=800, height=400)
    bar.add("第一季", attr, v1, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    bar.add("第二季", attr, v2, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    bar.add("第三季", attr, v3, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    bar.add("第四季", attr, v4, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    bar.add("第五季", attr, v5, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    bar.add("第六季", attr, v6, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    bar.add("第七季", attr, v7, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    bar.add("第八季", attr, v8, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
    # 生成图表
    bar.render("权游人物出场时间分布.html")


people_scenes()


得到结果如下。



最后来看一下第一季的数据。


def people_season(season, mes1, mes2):
    """
    每季统计
    """

    attr = mes1
    v1 = mes2
    bar = 'bar' + str(season)
    bar = Bar('第' + str(season) + '季人物出场时间分布', title_pos='center', title_top='18', width=800, height=400)
    bar.add("", attr, v1, is_convert=True, xaxis_min=10, yaxis_label_textsize=8, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=True, is_legend_show=False, label_pos='right', is_yaxis_inverse=True, is_splitline_show=False)
    bar.render('第' + str(season) + '季人物出场时间分布.html')


# 遍历每一季
for season in range(19):
    df2 = df[df[2] == season]
    for i in df2[0]:
        if i not in names:
            names.append(i)
    item = {}
    # 对人物出现时间进行统计
    for j in names:
        num_3 = []
        for k in df2[df2[0] == j][1]:
            num_3.append(k)
        item[j] = sum(num_3)
    # 排序
    top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
    print(top15)
    name_2 = []
    num_2 = []
    # 对前15位进行数据汇总
    for p in top15:
        name_2.append(p[0])
        num_2.append(p[1])
    print(season, name_2, num_2)
    people_season(season, name_2, num_2)


结果如下。



有一半都领盒饭了,当然也有坚持到最后的。


坚持下来的,狼家的居多。




/ 04 / 总结


数据已上传百度网盘,回复「权游」即可获取。


今年的权游我只看到了第三集,也就是「二丫」干掉夜王的那一集。


之后也就没看了,一方面是看网上的口碑不是很好,所以就没什么兴趣。


另一方面也是时间少了,于是乎公众号也断更了...


不过接下来会慢慢开始更新了。


毕竟学习需要自讨苦吃~


万水千山总是情,点个「在看」行不行。





···  END  ···



©著作权归作者所有:来自51CTO博客作者mb5fe18ec4a4df8的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 人物社交网络分析—平凡的世界
  2. 国庆,我决定“颓废”一段时间!
  3. 关于学习时间的一点小感悟
  4. 上班之后,学习时间不够用?
  5. Python+Kepler.gl轻松制作时间轮播地图
  6. 教你预测北京雾霾,基于keras LSTMs的多变量时间序列预测
  7. 30例 | 一文搞懂python日期时间处理
  8. Java常用的时间工具类DateTimeUtils.java对常用的时间操作方法总
  9. 如何利用寒假的时间来准备 2020 年的蓝桥杯?

随机推荐

  1. [置顶] android中加载图片
  2. 第一章:第三节:Concurrency in Android
  3. Android Service之LOCATION_SERVICE
  4. android 摄像头 ov2655 驱动注册
  5. 【Android】五种不同的Toast
  6. android原生SQLite数据库的使用
  7. Android ApiDemos示例解析(130):Views->L
  8. Android 代码实现关机重启
  9. 短视频平台源码android四种不同的事件实
  10. travis-ci如何配置android