RikoBot/utils.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import html
import re

from bot import admins


def can_use_bot(update):
    """Returns True if user is an admin"""
    if update.message.from_user.id in admins:
        return True
    else:
        return False


def get_new_entries(entries, last_entry):
    """Returns all new entries from an entries dict up to the last new article"""
    new_entries = []
    for entry in entries:
        if 'id' in entry:
            if entry['id'] == last_entry:
                return new_entries
            else:
                new_entries.append(entry)
        else:
            if entry['link'] == last_entry:
                return new_entries
            else:
                new_entries.append(entry)
    return new_entries


def remove_html_tags(rawhtml):
    """Removes HTML tags"""
    cleanr = re.compile('<.*?>')
    cleantext = re.sub(cleanr, '', rawhtml)
    return cleantext


def clean_rss(content):
    """Cleans content"""
    content = content.replace('\n', ' ')
    content = content.replace('←', '')
    content = content.replace('[…]', '')
    content = content.replace('[...]', '')
    content = content.replace('[bilder]', '')
    content = content.replace('[boerse]', '')
    content = content.replace('[mehr]', '')
    content = content.replace('[video]', '')
    content = content.replace('...[more]', '')
    content = content.replace('[more]', '')
    content = content.replace('[liveticker]', '')
    content = content.replace('[livestream]', '')
    content = content.replace('[multimedia]', '')
    content = content.replace('[sportschau]', '')
    content = content.replace('[phoenix]', '')
    content = content.replace('[swr]', '')
    content = content.replace('[ndr]', '')
    content = content.replace('[mdr]', '')
    content = content.replace('[rbb]', '')
    content = content.replace('[wdr]', '')
    content = content.replace('[hr]', '')
    content = content.replace('[br]', '')
    content = content.replace('Click for full.', '')
    content = content.replace('Read more »', '')
    content = content.replace('Read more', '')
    content = content.replace('...Read More', '')
    content = content.replace('(more…)', '')
    content = content.replace('View On WordPress', '')
    content = content.replace('Continue reading →', '')
    content = content.replace('» weiterlesen', '')
    content = content.replace('Ein Kommentar.', '')
    content = content.replace('Änderungen zeigen', '')
    content = content.replace('(RSS generated with FetchRss)', '')
    content = content.replace('-- Delivered by Feed43 service', '')
    content = content.replace('Meldung bei www.tagesschau.de lesen', '')
    content = content.replace('<', '&lt;')
    content = content.replace('>', '&gt;')
    content = re.sub('Nächstältere Version.*', '', content)
    content = re.sub('Die Seite wurde neu angelegt.*', '', content)
    content = re.sub('Weiterleitung nach.*erstellt.*', '', content)
    content = re.sub('Der Beitrag.*erschien zuerst auf .+\.', '', content)
    content = re.sub('The post.*appeared first on .+\.', '', content)
    content = re.sub('http://www\.serienjunkies.de/.*\.html', '', content)
    return content


def get_content(content):
    """Sanitizes content and cuts it to 250 chars"""
    content = clean_rss(remove_html_tags(html.unescape(content)).strip())
    if len(content) > 250:
        content = content[0:250] + '...'
    return content
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`#!/usr/bin/env python3`
			`# -- coding: utf-8 --`
Fixes für schon-escapete Feeds + erlaube Tilden in der URL 2017-09-21 00:50:53 +02:00			`import html`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`import re`

			`from bot import admins`


			`def can_use_bot(update):`
			`"""Returns True if user is an admin"""`
			`if update.message.from_user.id in admins:`
			`return True`
			`else:`
			`return False`


			`def get_new_entries(entries, last_entry):`
			`"""Returns all new entries from an entries dict up to the last new article"""`
			`new_entries = []`
			`for entry in entries:`
			`if 'id' in entry:`
			`if entry['id'] == last_entry:`
			`return new_entries`
			`else:`
			`new_entries.append(entry)`
			`else:`
			`if entry['link'] == last_entry:`
			`return new_entries`
			`else:`
			`new_entries.append(entry)`
			`return new_entries`


Fixes für schon-escapete Feeds + erlaube Tilden in der URL 2017-09-21 00:50:53 +02:00			`def remove_html_tags(rawhtml):`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`"""Removes HTML tags"""`
			`cleanr = re.compile('<.*?>')`
Fixes für schon-escapete Feeds + erlaube Tilden in der URL 2017-09-21 00:50:53 +02:00			`cleantext = re.sub(cleanr, '', rawhtml)`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`return cleantext`


			`def clean_rss(content):`
			`"""Cleans content"""`
Kleine Änderungen 2017-09-21 00:13:40 +02:00			`content = content.replace('\n', ' ')`
Mehr cleanRSS 2018-02-25 23:19:12 +01:00			`content = content.replace('←', '')`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`content = content.replace('[…]', '')`
Mehr cleanRSS 2018-02-25 23:19:12 +01:00			`content = content.replace('[...]', '')`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`content = content.replace('[bilder]', '')`
Aktualisiere clean_rss 2017-09-20 23:57:58 +02:00			`content = content.replace('[boerse]', '')`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`content = content.replace('[mehr]', '')`
			`content = content.replace('[video]', '')`
			`content = content.replace('...[more]', '')`
			`content = content.replace('[more]', '')`
			`content = content.replace('[liveticker]', '')`
			`content = content.replace('[livestream]', '')`
			`content = content.replace('[multimedia]', '')`
Aktualisiere clean_rss 2017-09-20 23:57:58 +02:00			`content = content.replace('[sportschau]', '')`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`content = content.replace('[phoenix]', '')`
			`content = content.replace('[swr]', '')`
			`content = content.replace('[ndr]', '')`
			`content = content.replace('[mdr]', '')`
			`content = content.replace('[rbb]', '')`
			`content = content.replace('[wdr]', '')`
			`content = content.replace('[hr]', '')`
			`content = content.replace('[br]', '')`
			`content = content.replace('Click for full.', '')`
			`content = content.replace('Read more »', '')`
			`content = content.replace('Read more', '')`
Aktualisiere clean_rss 2017-09-20 23:57:58 +02:00			`content = content.replace('...Read More', '')`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`content = content.replace('(more…)', '')`
			`content = content.replace('View On WordPress', '')`
			`content = content.replace('Continue reading →', '')`
Mehr cleanRSS 2018-02-25 23:19:12 +01:00			`content = content.replace('» weiterlesen', '')`
			`content = content.replace('Ein Kommentar.', '')`
Entferne MediaWiki Stuff 2018-09-15 18:29:12 +02:00			`content = content.replace('Änderungen zeigen', '')`
typo 2019-01-03 22:46:55 +01:00			`content = content.replace('(RSS generated with FetchRss)', '')`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`content = content.replace('-- Delivered by Feed43 service', '')`
			`content = content.replace('Meldung bei www.tagesschau.de lesen', '')`
			`content = content.replace('<', '<')`
			`content = content.replace('>', '>')`
Mehr cleanRSS 2018-02-25 23:19:12 +01:00			`content = re.sub('Nächstältere Version.*', '', content)`
Entferne MediaWiki Stuff 2018-09-15 18:29:12 +02:00			`content = re.sub('Die Seite wurde neu angelegt.*', '', content)`
			`content = re.sub('Weiterleitung nach.erstellt.', '', content)`
Aktualisiere clean_rss 2017-09-20 23:57:58 +02:00			`content = re.sub('Der Beitrag.*erschien zuerst auf .+\.', '', content)`
			`content = re.sub('The post.*appeared first on .+\.', '', content)`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`content = re.sub('http://www\.serienjunkies.de/.*\.html', '', content)`
			`return content`


			`def get_content(content):`
			`"""Sanitizes content and cuts it to 250 chars"""`
Fixes für schon-escapete Feeds + erlaube Tilden in der URL 2017-09-21 00:50:53 +02:00			`content = clean_rss(remove_html_tags(html.unescape(content)).strip())`
Kompletter Rewrite 2017-09-20 23:25:57 +02:00			`if len(content) > 250:`
			`content = content[0:250] + '...'`
			`return content`