openmedialibrary/oml/meta/openlibrary.py

# -*- coding: utf-8 -*-
# vi:si:et:sw=4:sts=4:ts=4


from datetime import datetime
from urllib.parse import urlencode
import json

from ox.cache import read_url

from .dewey import get_classification
from .marc_countries import COUNTRIES
from .utils import normalize_isbn

import logging
logger = logging.getLogger('meta.openlibrary')


KEYS = {
    'authors': 'author',
    'covers': 'cover',
    'dewey_decimal_class': 'classification',
    'isbn_10': 'isbn',
    'isbn_13': 'isbn',
    'lccn': 'lccn',
    'number_of_pages': 'pages',
    'languages': 'language',
    'oclc_numbers': 'oclc',
    'publish_country': 'country',
    'publish_date': 'date',
    'publishers': 'publisher',
    'publish_places': 'place',
    'series': 'series',
    'title': 'title',
}

def find(query):
    query = query.strip()
    logger.debug('find %s', query)
    r = api.search(query)
    results = []
    ids = [b for b in r.get('result', []) if b.startswith('/books')]
    books = api.get_many(ids).get('result', [])
    for olid, value in books.items():
        olid = olid.split('/')[-1]
        book = format(value)
        book['olid'] = [olid]
        book['primaryid'] = ['olid', olid]
        results.append(book)
    return results


def get_ids(key, value):
    ids = []
    if key == 'olid':
        data = lookup(value)
        for id in ('isbn', 'lccn', 'oclc'):
            if id in data:
                for v in data[id]:
                    if (id, v) not in ids:
                        ids.append((id, v))
    elif key in ('isbn', 'oclc', 'lccn'):
        logger.debug('get_ids %s %s', key, value)
        if key == 'isbn':
            key = 'isbn_%s'%len(value)
        r = api.things({'type': '/type/edition', key: value})
        for b in r.get('result', []):
            if b.startswith('/books'):
                olid = b.split('/')[-1]
                for kv in [('olid', olid)] + get_ids('olid', olid):
                    if kv not in ids:
                        ids.append(kv)
    if ids:
        logger.debug('get_ids %s %s => %s', key, value, ids)
    return ids

def lookup(id, return_all=False):
    logger.debug('lookup %s', id)
    info = api.get('/books/' + id).get('result', {})
    #url = 'https://openlibrary.org/books/%s.json' % id
    #info = json.loads(read_url(url).decode('utf-8'))
    data = format(info, return_all)
    if 'olid' not in data:
        data['olid'] = []
    if id not in data['olid']:
        data['olid'] = [id]
    logger.debug('lookup %s => %s', id, list(data.keys()))
    return data

def get_type(obj):
    type_ = obj.get('type')
    if isinstance(type_, dict):
        type_ = type_['key']
    return type_

def parse_date(s):
    #"January 1, 1998"
    for pattern, fmt in (('%B %d, %Y', '%Y-%m-%d'), ('%B %Y', '%Y-%m')):
        try:
            d = datetime.strptime(s, pattern)
            s = d.strftime(fmt)
            return s
        except:
            pass
    return s

def format(info, return_all=False):
    data = {}
    if 'works' in info:
        work = api.get(info['works'][0]['key'])['result']
    else:
        work = None
    for key in KEYS:
        if key in info:
            value = info[key]
            if key == 'authors':
                if work:
                    value = resolve_names([r['author']
                        for r in work.get('authors', []) if get_type(r) == '/type/author_role'])
                else:
                    value = resolve_names(value)
            elif key == 'publish_country':
                value = value.strip()
                value = COUNTRIES.get(value, value)
            elif key == 'covers':
                value = 'https://covers.openlibrary.org/b/id/%s.jpg' % value[0]
            elif key == 'languages':
                value = resolve_names(value)
            elif key in ('isbn_10', 'isbn_13'):
                if not isinstance(value, list):
                    value = [value]
                value = list(map(normalize_isbn, value))
                if KEYS[key] in data:
                    value = data[KEYS[key]] + value
            elif isinstance(value, list) and key not in ('publish_places', 'lccn', 'oclc_numbers'):
                value = value[0]
            if key == 'publish_date':
                value = parse_date(value)
            data[KEYS[key]] = value
    if 'subtitle' in info:
        data['title'] += ' ' + info['subtitle']
    if 'classification' in data:
        value = data['classification']
        if isinstance(value, list):
            value = value[0]
        data['classification'] = get_classification(value.split('/')[0])
    return data

def resolve_names(objects, key='name'):
    r = []
    data = api.get_many([k['key'] for k in objects]).get('result', {})
    for k, value in data.items():
        if 'location' in value and value.get('type', {}).get('key') == '/type/redirect':
            value = api.get(value['location']).get('result', {})
        r.append(value[key])
    return r

class API(object):
    base = 'https://openlibrary.org/api'

    def _request(self, action, data, timeout=None):
        for key in data:
            if not isinstance(data[key], str):
                data[key] = json.dumps(data[key])
        url = self.base + '/' + action + '?' + urlencode(data)
        if timeout is None:
            r = read_url(url).decode('utf-8')
            if '504 Gateway Time-out' in r:
                r = read_url(url, timeout=-1).decode('utf-8')
            result = json.loads(r)
        else:
            r = read_url(url, timeout).decode('utf-8')
            if '504 Gateway Time-out' in r:
                r = read_url(url, timeout=-1).decode('utf-8')
            result = json.loads(r)
        if 'status' in result and result['status'] == 'error' or 'error' in result:
            logger.info('FAILED %s %s', action, data)
            logger.info('URL %s', url)
        return result

    def get(self, key):
        data = self._request('get', {'key': key})
        return data

    def get_many(self, keys):
        data = self._request('get_many', {'keys': keys})
        return data

    def search(self, query):
        if isinstance(query, str):
            query = {
                'query': query
            }
        data = self._request('search', {'q': query})
        if 'status' in data and data['status'] == 'error':
            logger.info('FAILED %s', query)
        return data

    def things(self, query):
        data = self._request('things', {'query': query})
        return data

api = API()
Open Media Library 2014-05-04 17:26:43 +00:00			`# -- coding: utf-8 --`
			`# vi:si:et:sw=4:sts=4:ts=4`
port to python3 2014-09-02 22:32:44 +00:00
Open Media Library 2014-05-04 17:26:43 +00:00
cleanup imports 2014-08-12 08:16:57 +00:00			`from datetime import datetime`
port to python3 2014-09-02 22:32:44 +00:00			`from urllib.parse import urlencode`
Open Media Library 2014-05-04 17:26:43 +00:00			`import json`
cleanup meta parser 2014-05-26 08:23:10 +00:00
			`from ox.cache import read_url`
Open Media Library 2014-05-04 17:26:43 +00:00
port to python3 2014-09-02 22:32:44 +00:00			`from .dewey import get_classification`
			`from .marc_countries import COUNTRIES`
			`from .utils import normalize_isbn`
Open Media Library 2014-05-04 17:26:43 +00:00
use python logging 2014-05-17 14:26:59 +00:00			`import logging`
			`logger = logging.getLogger('meta.openlibrary')`

cleanup imports 2014-08-12 08:16:57 +00:00
meta 2014-05-14 18:46:31 +00:00			`KEYS = {`
			`'authors': 'author',`
			`'covers': 'cover',`
			`'dewey_decimal_class': 'classification',`
lots of stuff 2014-05-21 00:02:21 +00:00			`'isbn_10': 'isbn',`
			`'isbn_13': 'isbn',`
meta 2014-05-14 18:46:31 +00:00			`'lccn': 'lccn',`
			`'number_of_pages': 'pages',`
lots of stuff 2014-05-21 00:02:21 +00:00			`'languages': 'language',`
meta 2014-05-14 18:46:31 +00:00			`'oclc_numbers': 'oclc',`
			`'publish_country': 'country',`
			`'publish_date': 'date',`
			`'publishers': 'publisher',`
			`'publish_places': 'place',`
			`'series': 'series',`
			`'title': 'title',`
			`}`

lots of stuff 2014-05-21 00:02:21 +00:00			`def find(query):`
meta 2014-05-14 18:46:31 +00:00			`query = query.strip()`
use python logging 2014-05-17 14:26:59 +00:00			`logger.debug('find %s', query)`
meta 2014-05-14 18:46:31 +00:00			`r = api.search(query)`
			`results = []`
			`ids = [b for b in r.get('result', []) if b.startswith('/books')]`
			`books = api.get_many(ids).get('result', [])`
port to python3 2014-09-02 22:32:44 +00:00			`for olid, value in books.items():`
meta 2014-05-14 18:46:31 +00:00			`olid = olid.split('/')[-1]`
			`book = format(value)`
lots of stuff 2014-05-21 00:02:21 +00:00			`book['olid'] = [olid]`
			`book['primaryid'] = ['olid', olid]`
meta 2014-05-14 18:46:31 +00:00			`results.append(book)`
			`return results`


meta 2014-05-14 09:57:11 +00:00			`def get_ids(key, value):`
			`ids = []`
			`if key == 'olid':`
lots of stuff 2014-05-21 00:02:21 +00:00			`data = lookup(value)`
			`for id in ('isbn', 'lccn', 'oclc'):`
meta 2014-05-14 09:57:11 +00:00			`if id in data:`
			`for v in data[id]:`
			`if (id, v) not in ids:`
			`ids.append((id, v))`
lots of stuff 2014-05-21 00:02:21 +00:00			`elif key in ('isbn', 'oclc', 'lccn'):`
dont fail with inconsistent changelogs 2014-05-19 01:36:37 +00:00			`logger.debug('get_ids %s %s', key, value)`
lots of stuff 2014-05-21 00:02:21 +00:00			`if key == 'isbn':`
			`key = 'isbn_%s'%len(value)`
			`r = api.things({'type': '/type/edition', key: value})`
meta 2014-05-14 18:46:31 +00:00			`for b in r.get('result', []):`
			`if b.startswith('/books'):`
			`olid = b.split('/')[-1]`
			`for kv in [('olid', olid)] + get_ids('olid', olid):`
meta 2014-05-14 09:57:11 +00:00			`if kv not in ids:`
			`ids.append(kv)`
			`if ids:`
use python logging 2014-05-17 14:26:59 +00:00			`logger.debug('get_ids %s %s => %s', key, value, ids)`
meta 2014-05-14 09:57:11 +00:00			`return ids`
Open Media Library 2014-05-04 17:26:43 +00:00
meta 2014-05-14 09:57:11 +00:00			`def lookup(id, return_all=False):`
get_type, no authors 2014-05-21 11:07:41 +00:00			`logger.debug('lookup %s', id)`
meta 2014-05-14 18:46:31 +00:00			`info = api.get('/books/' + id).get('result', {})`
			`#url = 'https://openlibrary.org/books/%s.json' % id`
python3 migration 2014-10-31 11:46:14 +00:00			`#info = json.loads(read_url(url).decode('utf-8'))`
meta 2014-05-14 18:46:31 +00:00			`data = format(info, return_all)`
lots of stuff 2014-05-21 00:02:21 +00:00			`if 'olid' not in data:`
			`data['olid'] = []`
			`if id not in data['olid']:`
			`data['olid'] = [id]`
port to python3 2014-09-02 22:32:44 +00:00			`logger.debug('lookup %s => %s', id, list(data.keys()))`
meta 2014-05-14 18:46:31 +00:00			`return data`

get_type, no authors 2014-05-21 11:07:41 +00:00			`def get_type(obj):`
			`type_ = obj.get('type')`
			`if isinstance(type_, dict):`
			`type_ = type_['key']`
			`return type_`

cleanup meta parser 2014-05-26 08:23:10 +00:00			`def parse_date(s):`
			`#"January 1, 1998"`
			`for pattern, fmt in (('%B %d, %Y', '%Y-%m-%d'), ('%B %Y', '%Y-%m')):`
			`try:`
			`d = datetime.strptime(s, pattern)`
			`s = d.strftime(fmt)`
			`return s`
			`except:`
			`pass`
			`return s`

meta 2014-05-14 18:46:31 +00:00			`def format(info, return_all=False):`
			`data = {}`
resolve author from work, add subtitle to title (ol) 2014-05-21 10:37:00 +00:00			`if 'works' in info:`
			`work = api.get(info['works'][0]['key'])['result']`
			`else:`
			`work = None`
meta 2014-05-14 18:46:31 +00:00			`for key in KEYS:`
Open Media Library 2014-05-04 17:26:43 +00:00			`if key in info:`
			`value = info[key]`
			`if key == 'authors':`
resolve author from work, add subtitle to title (ol) 2014-05-21 10:37:00 +00:00			`if work:`
			`value = resolve_names([r['author']`
get_type, no authors 2014-05-21 11:07:41 +00:00			`for r in work.get('authors', []) if get_type(r) == '/type/author_role'])`
resolve author from work, add subtitle to title (ol) 2014-05-21 10:37:00 +00:00			`else:`
			`value = resolve_names(value)`
Open Media Library 2014-05-04 17:26:43 +00:00			`elif key == 'publish_country':`
meta 2014-05-14 18:46:31 +00:00			`value = value.strip()`
Open Media Library 2014-05-04 17:26:43 +00:00			`value = COUNTRIES.get(value, value)`
			`elif key == 'covers':`
			`value = 'https://covers.openlibrary.org/b/id/%s.jpg' % value[0]`
			`elif key == 'languages':`
meta 2014-05-14 18:46:31 +00:00			`value = resolve_names(value)`
lots of stuff 2014-05-21 00:02:21 +00:00			`elif key in ('isbn_10', 'isbn_13'):`
			`if not isinstance(value, list):`
			`value = [value]`
port to python3 2014-09-02 22:32:44 +00:00			`value = list(map(normalize_isbn, value))`
lots of stuff 2014-05-21 00:02:21 +00:00			`if KEYS[key] in data:`
			`value = data[KEYS[key]] + value`
			`elif isinstance(value, list) and key not in ('publish_places', 'lccn', 'oclc_numbers'):`
Open Media Library 2014-05-04 17:26:43 +00:00			`value = value[0]`
cleanup meta parser 2014-05-26 08:23:10 +00:00			`if key == 'publish_date':`
			`value = parse_date(value)`
meta 2014-05-14 18:46:31 +00:00			`data[KEYS[key]] = value`
resolve author from work, add subtitle to title (ol) 2014-05-21 10:37:00 +00:00			`if 'subtitle' in info:`
			`data['title'] += ' ' + info['subtitle']`
lots of stuff 2014-05-21 00:02:21 +00:00			`if 'classification' in data:`
			`value = data['classification']`
			`if isinstance(value, list):`
			`value = value[0]`
			`data['classification'] = get_classification(value.split('/')[0])`
meta 2014-05-14 09:57:11 +00:00			`return data`

			`def resolve_names(objects, key='name'):`
			`r = []`
meta 2014-05-14 18:46:31 +00:00			`data = api.get_many([k['key'] for k in objects]).get('result', {})`
port to python3 2014-09-02 22:32:44 +00:00			`for k, value in data.items():`
meta 2014-05-14 18:46:31 +00:00			`if 'location' in value and value.get('type', {}).get('key') == '/type/redirect':`
			`value = api.get(value['location']).get('result', {})`
			`r.append(value[key])`
meta 2014-05-14 09:57:11 +00:00			`return r`

meta 2014-05-14 18:46:31 +00:00			`class API(object):`
			`base = 'https://openlibrary.org/api'`

expose timeout 2014-05-25 10:59:19 +00:00			`def _request(self, action, data, timeout=None):`
meta 2014-05-14 18:46:31 +00:00			`for key in data:`
port to python3 2014-09-02 22:32:44 +00:00			`if not isinstance(data[key], str):`
meta 2014-05-14 18:46:31 +00:00			`data[key] = json.dumps(data[key])`
			`url = self.base + '/' + action + '?' + urlencode(data)`
expose timeout 2014-05-25 10:59:19 +00:00			`if timeout is None:`
fail better 2015-11-03 22:40:10 +00:00			`r = read_url(url).decode('utf-8')`
			`if '504 Gateway Time-out' in r:`
			`r = read_url(url, timeout=-1).decode('utf-8')`
			`result = json.loads(r)`
expose timeout 2014-05-25 10:59:19 +00:00			`else:`
fail better 2015-11-03 22:40:10 +00:00			`r = read_url(url, timeout).decode('utf-8')`
			`if '504 Gateway Time-out' in r:`
			`r = read_url(url, timeout=-1).decode('utf-8')`
			`result = json.loads(r)`
meta 2014-05-14 18:46:31 +00:00			`if 'status' in result and result['status'] == 'error' or 'error' in result:`
use python logging 2014-05-17 14:26:59 +00:00			`logger.info('FAILED %s %s', action, data)`
			`logger.info('URL %s', url)`
meta 2014-05-14 18:46:31 +00:00			`return result`

			`def get(self, key):`
			`data = self._request('get', {'key': key})`
			`return data`

			`def get_many(self, keys):`
			`data = self._request('get_many', {'keys': keys})`
			`return data`

			`def search(self, query):`
port to python3 2014-09-02 22:32:44 +00:00			`if isinstance(query, str):`
meta 2014-05-14 18:46:31 +00:00			`query = {`
			`'query': query`
			`}`
			`data = self._request('search', {'q': query})`
			`if 'status' in data and data['status'] == 'error':`
use python logging 2014-05-17 14:26:59 +00:00			`logger.info('FAILED %s', query)`
meta 2014-05-14 18:46:31 +00:00			`return data`

			`def things(self, query):`
			`data = self._request('things', {'query': query})`
			`return data`
meta 2014-05-14 09:57:11 +00:00
meta 2014-05-14 18:46:31 +00:00			`api = API()`