Om nyhetssökmotorn Nyhetsfilter

Bakgrund

Nyhetsssajter är en bra källa för att hålla koll på vad som händer i världen. Men det händer också ganska mycket ute i världen som inte alltid känns så väldigt intressant, och mycket av det hamnar också på nyhetssajterna. Detta gör att det kan vara intressant att sålla ut vissa nyheter, vilket är målet med denna sajt. Genom att samla in de nyhetsartiklar som publiceras på en mängd nyhetssajter och indexera innehållet så blir det enkelt att söka ut de nyheter som känns intressanta vid ett specifikt tillfälle.

Nyhetssökmotorn Nyhetsfilter startade 2001, då under namnet Frisim, utifrån idén att samla in nyhetsartiklar och skapa strömmar med länkar till nyheter på specifika teman. Under åren har vi fortsatt att erbjuda denna typ av strömmar (RSS) från en mängd svenska nyhetssidor, men också gjort dem direkt sökbara från denna publika nyhetssökmotor.

Tjänster

Nyhetsfilter erbjuder strömmar med nyhetslänkar anpassade efter specifika teman. Teman sätts ihop genom att specificera sökningar med stora mängder sökord. Strömmarna erbjuds i passande format för att t.ex. visas direkt på en webbsida eller intranät.

Teknik

Nyhetsfilter bygger dels på att samla in nyhetsartiklar, dels göra dem sökbara. Insamlingen av nyhetsartiklarna görs via en så kallad "spindel" som läser in de nyhtsartiklar den hittar på nyhetssajter. Initialt så letade vi direkt på nyhetssajterna, men nu använder vi oftast RSS-feeds för att hitta länkar till nyhetsartiklar. När en artikel är inläst så indexeras den så att den blir snabbt sökbar. Vi använder Solr för att indexera och göra nyhetsartiklarna sökbara.

De nyheter som presenteras på förstasidan är delvis genererade utifrån senaste dagens vanligaste sökningar hos Google. Dessa hämtas från Google Trends för Sverige. Övriga nyheter som presenteras på förstasidan genereras från manuellt valda sökord. Länkarna uppdateras en gång varje timma. Till varje nyhet så använder vi GPT-3 från OpenAI för att generera en punktlista med information som ger en bakgrund till nyheten. För att identifiera namn och platser i nyhetstexter så använder vi SpaCy och dess modell för svenska.

Baserat på automatiserade sökningar i detta arkiv så kan vi enkelt skapa strömmar (RSS-feeds) med nyheter på specifika teman. Genom att anlysera de artiklar som läggs in i dessa strömmar så kan vi t.ex. undvika dubbletter, hitta vilka personer som nyheten handlar om etc. Nyhetsfilter har ett "icke-publikt" gränssnitt för att hantera dessa automatiserade strömmar.

Nyhetsfilter har också en Utvecklingblog för den som vill läsa mer om teknikerna som används och andra texter om programmeringsnörderi.

Kontakt

Är det någon nyhetssajt som du vill ska vara med bland sökresultaten, speciellt om det är en sajt utan betalvägg, så får du gärna kontakta mig på clas@nic-sys.se. Det får du också gärna göra om du vill veta mer om Nyhetsfilter, eller är intresserad av att använda denna typ av nyhetsström på din webbsajt eller tjänst.