you-get/src/you_get/extractor/bilibili.py

#!/usr/bin/env python

__all__ = ['bilibili_download']

from ..common import *

from .sina import sina_download_by_vid
from .tudou import tudou_download_by_id
from .youku import youku_download_by_vid

import re

def get_srt_xml(id):
    url = 'http://comment.bilibili.com/%s.xml' % id
    return get_html(url)

def parse_srt_p(p):
    fields = p.split(',')
    assert len(fields) == 8, fields
    time, mode, font_size, font_color, pub_time, pool, user_id, history = fields
    time = float(time)

    mode = int(mode)
    assert 1 <= mode <= 8
    # mode 1~3: scrolling
    # mode 4: bottom
    # mode 5: top
    # mode 6: reverse?
    # mode 7: position
    # mode 8: advanced

    pool = int(pool)
    assert 0 <= pool <= 2
    # pool 0: normal
    # pool 1: srt
    # pool 2: special?

    font_size = int(font_size)

    font_color = '#%06x' % int(font_color)

    return pool, mode, font_size, font_color

def parse_srt_xml(xml):
    d = re.findall(r'<d p="([^"]+)">(.*)</d>', xml)
    for x, y in d:
        p = parse_srt_p(x)
    raise NotImplementedError()

def parse_cid_playurl(xml):
    from xml.dom.minidom import parseString
    doc = parseString(xml.encode('utf-8'))
    urls = [durl.getElementsByTagName('url')[0].firstChild.nodeValue for durl in doc.getElementsByTagName('durl')]
    return urls

def bilibili_download_by_cid(id, title, output_dir = '.', merge = True, info_only = False):
    url = 'http://interface.bilibili.com/playurl?cid=' + id
    urls = [i if not re.match(r'.*\.qqvideo\.tc\.qq\.com', i) else re.sub(r'.*\.qqvideo\.tc\.qq\.com', 'http://vsrc.store.qq.com', i) for i in parse_cid_playurl(get_html(url, 'utf-8'))] # dirty fix for QQ

    if re.search(r'\.(flv|hlv)\b', urls[0]):
        type = 'flv'
    elif re.search(r'/flv/', urls[0]):
        type = 'flv'
    elif re.search(r'/mp4/', urls[0]):
        type = 'mp4'
    else:
        type = 'flv'

    size = 0
    for url in urls:
        _, _, temp = url_info(url)
        size += temp

    print_info(site_info, title, type, size)
    if not info_only:
        download_urls(urls, title, type, total_size = None, output_dir = output_dir, merge = merge)

def bilibili_download(url, output_dir = '.', merge = True, info_only = False):
    html = get_html(url)

    title = r1(r'<h2[^>]*>([^<>]+)</h2>', html)
    title = unescape_html(title)
    title = escape_file_path(title)

    flashvars = r1_of([r'player_params=\'(cid=\d+)', r'flashvars="([^"]+)"', r'"https://[a-z]+\.bilibili\.com/secure,(cid=\d+)(?:&aid=\d+)?"'], html)
    assert flashvars
    t, id = flashvars.split('=', 1)
    id = id.split('&')[0]
    if t == 'cid':
        bilibili_download_by_cid(id, title, output_dir = output_dir, merge = merge, info_only = info_only)
    elif t == 'vid':
        sina_download_by_id(id, title, output_dir = output_dir, merge = merge, info_only = info_only)
    elif t == 'ykid':
        youku_download_by_vid(id, title, output_dir = output_dir, merge = merge, info_only = info_only)
    elif t == 'uid':
        tudou_download_by_id(id, title, output_dir = output_dir, merge = merge, info_only = info_only)
    else:
        raise NotImplementedError(flashvars)

    if not info_only:
        title = get_filename(title)
        print('Downloading %s ...\n' % (title + '.cmt.xml'))
        xml = get_srt_xml(id)
        with open(os.path.join(output_dir, title + '.cmt.xml'), 'w', encoding='utf-8') as x:
            x.write(xml)

site_info = "bilibili.com"
download = bilibili_download
download_playlist = playlist_not_supported('bilibili')
add support for bilibili 2012-09-02 00:02:14 +04:00			`#!/usr/bin/env python`

			`__all__ = ['bilibili_download']`

			`from ..common import *`

Sina: fix #207 for video.sina.com 2013-07-14 19:34:42 +04:00			`from .sina import sina_download_by_vid`
add support for bilibili 2012-09-02 00:02:14 +04:00			`from .tudou import tudou_download_by_id`
Youku: fix #331, refactoring 2014-06-24 05:59:47 +04:00			`from .youku import youku_download_by_vid`
add support for bilibili 2012-09-02 00:02:14 +04:00
			`import re`

			`def get_srt_xml(id):`
Bilibili: fix #341 2014-06-18 03:14:11 +04:00			`url = 'http://comment.bilibili.com/%s.xml' % id`
add support for bilibili 2012-09-02 00:02:14 +04:00			`return get_html(url)`

			`def parse_srt_p(p):`
			`fields = p.split(',')`
			`assert len(fields) == 8, fields`
			`time, mode, font_size, font_color, pub_time, pool, user_id, history = fields`
			`time = float(time)`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
add support for bilibili 2012-09-02 00:02:14 +04:00			`mode = int(mode)`
			`assert 1 <= mode <= 8`
			`# mode 1~3: scrolling`
			`# mode 4: bottom`
			`# mode 5: top`
			`# mode 6: reverse?`
			`# mode 7: position`
			`# mode 8: advanced`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
add support for bilibili 2012-09-02 00:02:14 +04:00			`pool = int(pool)`
			`assert 0 <= pool <= 2`
			`# pool 0: normal`
			`# pool 1: srt`
			`# pool 2: special?`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
add support for bilibili 2012-09-02 00:02:14 +04:00			`font_size = int(font_size)`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
add support for bilibili 2012-09-02 00:02:14 +04:00			`font_color = '#%06x' % int(font_color)`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
add support for bilibili 2012-09-02 00:02:14 +04:00			`return pool, mode, font_size, font_color`

			`def parse_srt_xml(xml):`
			`d = re.findall(r'<d p="([^"]+)">(.*)</d>', xml)`
			`for x, y in d:`
			`p = parse_srt_p(x)`
			`raise NotImplementedError()`

merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00			`def parse_cid_playurl(xml):`
			`from xml.dom.minidom import parseString`
			`doc = parseString(xml.encode('utf-8'))`
			`urls = [durl.getElementsByTagName('url')[0].firstChild.nodeValue for durl in doc.getElementsByTagName('durl')]`
			`return urls`

			`def bilibili_download_by_cid(id, title, output_dir = '.', merge = True, info_only = False):`
Bilibili: fix #341 2014-06-18 03:14:11 +04:00			`url = 'http://interface.bilibili.com/playurl?cid=' + id`
QQ: dirty fix #153 2013-04-14 19:32:23 +04:00			`urls = [i if not re.match(r'.\.qqvideo\.tc\.qq\.com', i) else re.sub(r'.\.qqvideo\.tc\.qq\.com', 'http://vsrc.store.qq.com', i) for i in parse_cid_playurl(get_html(url, 'utf-8'))] # dirty fix for QQ`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
fix bilibili 2012-12-01 19:25:32 +04:00			`if re.search(r'\.(flv\|hlv)\b', urls[0]):`
			`type = 'flv'`
fix #123 for bilibili 2013-03-06 20:59:12 +04:00			`elif re.search(r'/flv/', urls[0]):`
			`type = 'flv'`
fix bilibili 2012-12-01 19:25:32 +04:00			`elif re.search(r'/mp4/', urls[0]):`
			`type = 'mp4'`
			`else:`
bilibili: fix #185 2013-07-01 18:39:39 +04:00			`type = 'flv'`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00			`size = 0`
			`for url in urls:`
			`_, _, temp = url_info(url)`
			`size += temp`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
fix bilibili 2012-12-01 19:25:32 +04:00			`print_info(site_info, title, type, size)`
merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00			`if not info_only:`
fix bilibili 2012-12-01 19:25:32 +04:00			`download_urls(urls, title, type, total_size = None, output_dir = output_dir, merge = merge)`
merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00
add support for bilibili 2012-09-02 00:02:14 +04:00			`def bilibili_download(url, output_dir = '.', merge = True, info_only = False):`
			`html = get_html(url)`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
Fix title extraction for the new bilibili web page 2013-11-17 07:00:48 +04:00			`title = r1(r'<h2[^>]*>([^<>]+)</h2>', html)`
add support for bilibili 2012-09-02 00:02:14 +04:00			`title = unescape_html(title)`
			`title = escape_file_path(title)`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
Bilibili: fix #341 2014-06-18 03:14:11 +04:00			`flashvars = r1_of([r'player_params=\'(cid=\d+)', r'flashvars="([^"]+)"', r'"https://[a-z]+\.bilibili\.com/secure,(cid=\d+)(?:&aid=\d+)?"'], html)`
add support for bilibili 2012-09-02 00:02:14 +04:00			`assert flashvars`
			`t, id = flashvars.split('=', 1)`
fix #30, merge iambus/youku-lixian#51: bilibili 2012-11-30 22:57:37 +04:00			`id = id.split('&')[0]`
merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00			`if t == 'cid':`
			`bilibili_download_by_cid(id, title, output_dir = output_dir, merge = merge, info_only = info_only)`
			`elif t == 'vid':`
add support for bilibili 2012-09-02 00:02:14 +04:00			`sina_download_by_id(id, title, output_dir = output_dir, merge = merge, info_only = info_only)`
			`elif t == 'ykid':`
Youku: fix #331, refactoring 2014-06-24 05:59:47 +04:00			`youku_download_by_vid(id, title, output_dir = output_dir, merge = merge, info_only = info_only)`
add support for bilibili 2012-09-02 00:02:14 +04:00			`elif t == 'uid':`
			`tudou_download_by_id(id, title, output_dir = output_dir, merge = merge, info_only = info_only)`
			`else:`
			`raise NotImplementedError(flashvars)`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00
merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00			`if not info_only:`
update acfun.py & bilibili.py to reflect the merge of #320 2014-05-21 04:39:35 +04:00			`title = get_filename(title)`
Acfun & Bilibili: 'Downloading %s ...\n' 2014-05-29 04:42:57 +04:00			`print('Downloading %s ...\n' % (title + '.cmt.xml'))`
merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00			`xml = get_srt_xml(id)`
Bilibili: fix #312 2014-03-08 22:49:51 +04:00			`with open(os.path.join(output_dir, title + '.cmt.xml'), 'w', encoding='utf-8') as x:`
merge youku-lixian commits: 8058707; add support for danmaku 2012-09-16 12:50:35 +04:00			`x.write(xml)`
add support for bilibili 2012-09-02 00:02:14 +04:00
Bilibili: fix #341 2014-06-18 03:14:11 +04:00			`site_info = "bilibili.com"`
add support for bilibili 2012-09-02 00:02:14 +04:00			`download = bilibili_download`
			`download_playlist = playlist_not_supported('bilibili')`