you-get/src/you_get/extractors/twitter.py

#!/usr/bin/env python

__all__ = ['twitter_download']

from ..common import *
from .vine import vine_download

def extract_m3u(source):
    r1 = get_content(source)
    s1 = re.findall(r'(/ext_tw_video/.*)', r1)
    s1 += re.findall(r'(/amplify_video/.*)', r1)
    r2 = get_content('https://video.twimg.com%s' % s1[-1])
    s2 = re.findall(r'(/ext_tw_video/.*)', r2)
    s2 += re.findall(r'(/amplify_video/.*)', r2)
    return ['https://video.twimg.com%s' % i for i in s2]

def twitter_download(url, output_dir='.', merge=True, info_only=False, **kwargs):
    if re.match(r'https?://mobile', url): # normalize mobile URL
        url = 'https://' + match1(url, r'//mobile\.(.+)')

    if re.match(r'https?://twitter\.com/i/moments/', url): # moments
        html = get_html(url, faker=True)
        paths = re.findall(r'data-permalink-path="([^"]+)"', html)
        for path in paths:
            twitter_download('https://twitter.com' + path,
                             output_dir=output_dir,
                             merge=merge,
                             info_only=info_only,
                             **kwargs)
        return

    html = get_html(url, faker=True)
    screen_name = r1(r'data-screen-name="([^"]*)"', html) or \
        r1(r'<meta name="twitter:title" content="([^"]*)"', html)
    item_id = r1(r'data-item-id="([^"]*)"', html) or \
        r1(r'<meta name="twitter:site:id" content="([^"]*)"', html)
    page_title = "{} [{}]".format(screen_name, item_id)

    try: # extract images
        urls = re.findall(r'property="og:image"\s*content="([^"]+:large)"', html)
        assert urls
        images = []
        for url in urls:
            url = ':'.join(url.split(':')[:-1]) + ':orig'
            filename = parse.unquote(url.split('/')[-1])
            title = '.'.join(filename.split('.')[:-1])
            ext = url.split(':')[-2].split('.')[-1]
            size = int(get_head(url)['Content-Length'])
            images.append({'title': title,
                           'url': url,
                           'ext': ext,
                           'size': size})
        size = sum([image['size'] for image in images])
        print_info(site_info, page_title, images[0]['ext'], size)

        if not info_only:
            for image in images:
                title = image['title']
                ext = image['ext']
                size = image['size']
                url = image['url']
                print_info(site_info, title, ext, size)
                download_urls([url], title, ext, size,
                              output_dir=output_dir)

    except: # extract video
        #i_url = 'https://twitter.com/i/videos/' + item_id
        #i_content = get_content(i_url)
        #js_url = r1(r'src="([^"]+)"', i_content)
        #js_content = get_content(js_url)
        #authorization = r1(r'"(Bearer [^"]+)"', js_content)
        authorization = 'Bearer AAAAAAAAAAAAAAAAAAAAANRILgAAAAAAnNwIzUejRCOuH5E6I8xnZz4puTs%3D1Zv7ttfk8LF81IUq16cHjhLTvJu4FA33AGWWjCpTnA'

        ga_url = 'https://api.twitter.com/1.1/guest/activate.json'
        ga_content = post_content(ga_url, headers={'authorization': authorization})
        guest_token = json.loads(ga_content)['guest_token']

        api_url = 'https://api.twitter.com/2/timeline/conversation/%s.json?tweet_mode=extended' % item_id
        api_content = get_content(api_url, headers={'authorization': authorization, 'x-guest-token': guest_token})

        info = json.loads(api_content)
        variants = info['globalObjects']['tweets'][item_id]['extended_entities']['media'][0]['video_info']['variants']
        variants = sorted(variants, key=lambda kv: kv.get('bitrate', 0))
        urls = [ variants[-1]['url'] ]
        size = urls_size(urls)
        mime, ext = variants[-1]['content_type'], 'mp4'

        print_info(site_info, page_title, mime, size)
        if not info_only:
            download_urls(urls, page_title, ext, size, output_dir, merge=merge)

site_info = "Twitter.com"
download = twitter_download
download_playlist = playlist_not_supported('twitter')
[twitter] add support 2015-06-14 19:04:57 +03:00			`#!/usr/bin/env python`

			`__all__ = ['twitter_download']`

			`from ..common import *`
[twitter] support embedded Vine 2015-11-09 18:48:14 +03:00			`from .vine import vine_download`
[twitter] add support 2015-06-14 19:04:57 +03:00
[twitter] fix #1139 2016-05-23 18:28:29 +03:00			`def extract_m3u(source):`
			`r1 = get_content(source)`
[twitter] fix regression 2017-10-13 16:20:06 +03:00			`s1 = re.findall(r'(/ext_tw_video/.*)', r1)`
			`s1 += re.findall(r'(/amplify_video/.*)', r1)`
[twitter] fix #1139 2016-05-23 18:28:29 +03:00			`r2 = get_content('https://video.twimg.com%s' % s1[-1])`
[twitter] fix regression 2017-10-13 16:20:06 +03:00			`s2 = re.findall(r'(/ext_tw_video/.*)', r2)`
			`s2 += re.findall(r'(/amplify_video/.*)', r2)`
[twitter] fix #1139 (really) 2016-05-23 23:13:12 +03:00			`return ['https://video.twimg.com%s' % i for i in s2]`
[twitter] fix #1139 2016-05-23 18:28:29 +03:00
fix extractors not use VideoExtractor after add --json option 2015-09-26 08:45:39 +03:00			`def twitter_download(url, output_dir='.', merge=True, info_only=False, **kwargs):`
[twitter] normalize mobile URL 2018-02-18 02:52:35 +03:00			`if re.match(r'https?://mobile', url): # normalize mobile URL`
			`url = 'https://' + match1(url, r'//mobile\.(.+)')`

[twitter] support twitter moments 2018-04-19 04:22:18 +03:00			`if re.match(r'https?://twitter\.com/i/moments/', url): # moments`
[twitter] prevent mobile redirection 2018-05-21 23:59:51 +03:00			`html = get_html(url, faker=True)`
[twitter] support twitter moments 2018-04-19 04:22:18 +03:00			`paths = re.findall(r'data-permalink-path="([^"]+)"', html)`
			`for path in paths:`
			`twitter_download('https://twitter.com' + path,`
			`output_dir=output_dir,`
			`merge=merge,`
			`info_only=info_only,`
			`**kwargs)`
			`return`

[twitter] prevent mobile redirection 2018-05-21 23:59:51 +03:00			`html = get_html(url, faker=True)`
[twitter] fix #842 2015-12-29 18:10:45 +03:00			`screen_name = r1(r'data-screen-name="([^"]*)"', html) or \`
			`r1(r'<meta name="twitter:title" content="([^"]*)"', html)`
			`item_id = r1(r'data-item-id="([^"]*)"', html) or \`
			`r1(r'<meta name="twitter:site:id" content="([^"]*)"', html)`
[twitter] download images 2015-10-20 06:20:15 +03:00			`page_title = "{} [{}]".format(screen_name, item_id)`

[twitter] prioritize (main) images over videos 2015-12-10 11:56:50 +03:00			`try: # extract images`
			`urls = re.findall(r'property="og:image"\s*content="([^"]+:large)"', html)`
			`assert urls`
[twitter] download images 2015-10-20 06:20:15 +03:00			`images = []`
			`for url in urls:`
			`url = ':'.join(url.split(':')[:-1]) + ':orig'`
			`filename = parse.unquote(url.split('/')[-1])`
			`title = '.'.join(filename.split('.')[:-1])`
			`ext = url.split(':')[-2].split('.')[-1]`
			`size = int(get_head(url)['Content-Length'])`
			`images.append({'title': title,`
			`'url': url,`
			`'ext': ext,`
			`'size': size})`
			`size = sum([image['size'] for image in images])`
			`print_info(site_info, page_title, images[0]['ext'], size)`

			`if not info_only:`
			`for image in images:`
			`title = image['title']`
			`ext = image['ext']`
			`size = image['size']`
			`url = image['url']`
			`print_info(site_info, title, ext, size)`
			`download_urls([url], title, ext, size,`
			`output_dir=output_dir)`
[twitter] add support 2015-06-14 19:04:57 +03:00
[twitter] prioritize (main) images over videos 2015-12-10 11:56:50 +03:00			`except: # extract video`
[twitter] fix #2609 2018-08-08 17:21:49 +03:00			`#i_url = 'https://twitter.com/i/videos/' + item_id`
			`#i_content = get_content(i_url)`
			`#js_url = r1(r'src="([^"]+)"', i_content)`
			`#js_content = get_content(js_url)`
			`#authorization = r1(r'"(Bearer [^"]+)"', js_content)`
			`authorization = 'Bearer AAAAAAAAAAAAAAAAAAAAANRILgAAAAAAnNwIzUejRCOuH5E6I8xnZz4puTs%3D1Zv7ttfk8LF81IUq16cHjhLTvJu4FA33AGWWjCpTnA'`
[twitter] fix #948 2016-03-04 16:46:14 +03:00
[twitter] fix #2609 2018-08-08 17:21:49 +03:00			`ga_url = 'https://api.twitter.com/1.1/guest/activate.json'`
			`ga_content = post_content(ga_url, headers={'authorization': authorization})`
			`guest_token = json.loads(ga_content)['guest_token']`
[twitter] prioritize (main) images over videos 2015-12-10 11:56:50 +03:00
[twitter] fix #2609 2018-08-08 17:21:49 +03:00			`api_url = 'https://api.twitter.com/2/timeline/conversation/%s.json?tweet_mode=extended' % item_id`
			`api_content = get_content(api_url, headers={'authorization': authorization, 'x-guest-token': guest_token})`

			`info = json.loads(api_content)`
			`variants = info['globalObjects']['tweets'][item_id]['extended_entities']['media'][0]['video_info']['variants']`
			`variants = sorted(variants, key=lambda kv: kv.get('bitrate', 0))`
			`urls = [ variants[-1]['url'] ]`
[twitter] fix #1139 (really) 2016-05-23 23:13:12 +03:00			`size = urls_size(urls)`
[twitter] fix #2609 2018-08-08 17:21:49 +03:00			`mime, ext = variants[-1]['content_type'], 'mp4'`
[twitter] prioritize (main) images over videos 2015-12-10 11:56:50 +03:00
			`print_info(site_info, page_title, mime, size)`
			`if not info_only:`
[twitter] fix #1139 (really) 2016-05-23 23:13:12 +03:00			`download_urls(urls, page_title, ext, size, output_dir, merge=merge)`
[twitter] prioritize (main) images over videos 2015-12-10 11:56:50 +03:00
[twitter] add support 2015-06-14 19:04:57 +03:00			`site_info = "Twitter.com"`
			`download = twitter_download`
			`download_playlist = playlist_not_supported('twitter')`