Add data extractor module

2020-09-10 02:24:32 +02:00 · 2020-09-10 02:24:32 +02:00 · a7c1eff8e2
commit a7c1eff8e2
parent f6e70fdbe3
2 changed files with 175 additions and 0 deletions
--- a/youtube_data/utils.py
+++ b/youtube_data/utils.py
@ -0,0 +1,59 @@
+import requests
+import urllib.parse
+import json
+from bs4 import BeautifulSoup as bs
+
+nested_renderer_dispatch = {
+    'singleColumnBrowseResultsRenderer',
+    'twoColumnBrowseResultsRenderer', # Channel renderer
+    'twoColumnSearchResultsRenderer',
+}
+
+# these renderers contain a list of renderers inside them
+nested_renderer_list_dispatch = {
+    'sectionListRenderer',
+    'itemSectionRenderer',
+    'gridRenderer',
+    'playlistVideoListRenderer',
+    'singleColumnWatchNextResults',
+}
+
+_item_types = {
+    'movieRenderer',
+    'didYouMeanRenderer',
+    'showingResultsForRenderer',
+
+    'videoRenderer',
+    'compactVideoRenderer',
+    'compactAutoplayRenderer',
+    'videoWithContextRenderer',
+    'gridVideoRenderer',
+    'playlistVideoRenderer',
+
+    'playlistRenderer',
+    'compactPlaylistRenderer',
+    'gridPlaylistRenderer',
+
+    'radioRenderer',
+    'compactRadioRenderer',
+    'gridRadioRenderer',
+
+    'showRenderer',
+    'compactShowRenderer',
+    'gridShowRenderer',
+
+
+    'channelRenderer',
+    'compactChannelRenderer',
+    'gridChannelRenderer',
+}
+
+
+def getRenderers(data):
+    renderers = []
+    for renderer in nested_renderer_dispatch:
+        renderers.append(data['contents'][renderer])
+    return renderers
+
+def getRenderedItems(renderer):
+    '''Given a renderer, return its items'''
--- a/youtube_data/videos.py
+++ b/youtube_data/videos.py
@ -0,0 +1,116 @@
+from bs4 import BeautifulSoup as bs
+from urllib.parse import unquote
+from youtube_dl import YoutubeDL
+import urllib.parse
+import requests
+import json
+
+def get_renderer_key(renderer, key):
+    for k in renderer:
+        if key in k:
+            return k[key]
+
+def get_video_primary_info(datad, datai):
+
+    contents = datai["contents"]["twoColumnWatchNextResults"]['results']['results']['contents']
+    item = get_renderer_key(contents, "videoPrimaryInfoRenderer")
+    details = datad['videoDetails']
+    try:
+        isUpcoming = details['isUpcoming']
+    except:
+        isUpcoming = False
+    
+    ydl = YoutubeDL()
+    data = ydl.extract_info(details['videoId'], False)
+    if not details['isLiveContent']:
+        url = data['formats'][-1]['url']
+    try:
+        primaryInfo = {
+            "id": details['videoId'],
+            "title": details['title'],
+            "description": details['shortDescription'],
+            "views": details['viewCount'],
+            "duration": details['lengthSeconds'],
+            "date": item['dateText']['simpleText'],
+            "rating": details['averageRating'],
+            "author": details['author'],
+            "isPrivate": details['isPrivate'],
+            "isLive": details['isLiveContent'],
+            "isUpcoming": isUpcoming,
+            "allowRatings": details['allowRatings'],
+            "url":url,
+            "thumbnail": details['thumbnail']['thumbnails'][0]['url']
+        }
+    except:
+        # If error take only most common items
+        primaryInfo = {
+            "id": details['videoId'],
+            "title": details['title'],
+            "description": details['shortDescription'],
+            "views": details['viewCount'],
+            "duration": details['lengthSeconds'],
+            "date": item['dateText']['simpleText'],
+            "rating": details['averageRating'],
+            "author": details['author'],
+            "isPrivate":False,
+            "isLive":False,
+            "isUpcoming":False,
+            "allowRatings":True,
+            "thumbnail": details['thumbnail']['thumbnails'][0]['url']
+        }
+    return primaryInfo
+
+def get_video_owner_info(data):
+    contents = data["contents"]["twoColumnWatchNextResults"]['results']['results']['contents']
+    item = get_renderer_key(contents, "videoSecondaryInfoRenderer")
+    ownerItem = item['owner']['videoOwnerRenderer']
+
+    ownerInfo = {
+        "thumbnail": ownerItem['thumbnail']['thumbnails'][0]['url'],
+        "username": ownerItem['title']['runs'][0]['text'],
+        "id": "#",
+        "suscriberCount":ownerItem['subscriberCountText']['runs'][0]['text']
+    }
+    return ownerInfo
+
+def get_video_info(id):
+    headers = {"Accept-Language": "en-US,en;q=0.5"}
+    encoded_search = urllib.parse.quote(id)
+    BASE_URL = "https://youtube.com"
+
+    url = f"{BASE_URL}/watch?v={encoded_search}"
+    response = requests.get(url, headers=headers).text
+
+    while 'window["ytInitialData"]' and 'window["ytInitialData"]' not in response:
+        response = requests.get(url, headers=headers).text
+    
+    start = (
+        response.index('window["ytInitialData"]')
+        + len('window["ytInitialData"]')
+        + 3
+    )
+
+    start2 = (
+        response.index('window["ytInitialPlayerResponse"]')
+        + len('window["ytInitialPlayerResponse"]') + 3
+    )
+
+    end1 = response.index("};", start) + 1
+    end2 = response.index("};", start2) + 1
+    jsonIni = response[start:end1]
+    dataInitial = json.loads(jsonIni)
+
+    jsonDet = response[start2:end2]
+    dataDetails = json.loads(jsonDet)
+
+    #title, views, date
+    videoInfo = get_video_primary_info(dataDetails, dataInitial)
+    ownerInfo = get_video_owner_info(dataInitial)
+
+    '''soup = bs(response, "html.parser")
+    soup = str(str(soup.find("div", attrs={"id":"player-wrap"}).find_all("script")).split("ytplayer.config =")[1]).split("url")
+    for url in soup:
+        if "googlevideo" in url:
+            print(unquote(url.replace("\\", "")))'''
+    info = {"video":videoInfo, "owner":ownerInfo}
+    return info