Cette année a été passionnante en termes de nouvelles versions, et le produit CityFALCON prend vraiment forme avec des analyses, plus de sources et plus de services mis en ligne au premier semestre 2020. De nombreux services et fonctionnalités API sont en effet très puissants, et l'effort de R&D derrière eux était considérable. Pour cette raison, la plupart des nouvelles fonctionnalités ont leurs propres articles de blog, vous pouvez donc les comprendre plus en profondeur. Cet article est simplement pour vous présenter ce que nous avons accompli jusqu'à présent cette année.

Si vous souhaitez voir ce que nous avons fait du côté des consommateurs au cours du premier semestre 2020, veuillez consulter le CityFALCON 2020 Retail Updates post

Documents déposés par LSE, Companies House, Gazette, etc.

Vers le début de cette année, nous avons commencé à servir les dépôts de la Bourse de Londres (LSE) et de Companies House au Royaume-Uni. Depuis, nous avons ajouté The Gazette et nous sommes sur le point d'ajouter des documents déposés par la SEC aux États-Unis. Nous recevons déjà les données et sommes configurés sur notre environnement de préparation, mais nous avons besoin de plus de temps pour transférer les dépôts auprès de la SEC vers l'environnement de production.

Nous avons publié un article de blog complet sur notre communiqué de dépôt. Pour l'instant, ils ne sont disponibles que via l'API, mais nous les ajouterons bientôt au site Web et aux applications mobiles.

Extraction NLU

Une autre fonctionnalité très précieuse pour les entreprises est notre service d'extraction NLU. Encore une fois, celui-ci justifiait sa propre article de blog.

Nous avons construit le service pendant une grande partie de la vie de CityFALCON, et nous l'utilisions en interne pour extraire des entités du texte. Par exemple, nous extrayons de manière algorithmique Amazon à partir d'un titre et marquez-le comme une entreprise pour ce contenu. 

En combinant cela avec notre base de données hiérarchique, les informations qui en résultent peuvent être très éclairantes. Nous avons le ticker d'Amazon, leurs numéros IRS et SEC, ainsi que leur secteur, industrie et sous-structure associés. 

Désormais, les entreprises peuvent utiliser ce service et des données structurées sur leur propre contenu interne, comme les mémos, les chats, les e-mails et les rapports internes. Voir l'article de blog ci-dessus pour un traitement plus approfondi. Nous fournissons l'extraction d'entités NLU en tant que service autonome pour l'indexation du contenu interne, de sorte que les entreprises abonnées n'ont pas besoin d'acheter d'autres packages d'API si elles n'en ont pas besoin.

Vous trouverez ci-dessous un exemple de réponse JSON pour un message simple envoyé entre deux employés, qui fournit de nombreuses informations aux entreprises.

Réponse JSON pour un message informel entre deux employés
{
«Text»: «vous pensez que les États-Unis vont lancer une enquête contre Facebook»,
"Lang": "en",
"Mots clés": [

{
«Début»: 14,
«Fin»: 16,
"Value": "US",
"Type": "emplacement",
"Apparié": vrai,
«Entités»: [

{
"Name": "États-Unis d'Amérique",
"Type": "geo_regions",
"Métadonnées": {
"des pays": [
"Les États-Unis d'Amérique"
],
«Sous-continents»: [
«Amérique du Nord»
],
«Continents»: [
"Amérique du Nord"
]
}

}

]
},
{
«Début»: 51,
«Fin»: 59,
"Valeur": "Facebook",
"Type": "société",
"Apparié": vrai,
«Entités»: [

{
«Nom»: «Facebook Inc»,
"Type": "actions",
"Métadonnées": {
"Legal_ids": [
"0201665019_irs-us",
«0001326801_sec-us»
],
"Tickers": [
"FB_US"
],
"Catégories": [
"Des médias sociaux"
],
«Sous-industries»: [
«Services Internet et infrastructure»
],
"les industries": [
"Services informatiques"
],
«Secteurs»: [
"La technologie",
«Communications»
]
}
}

]
},
{
«Début»: 22,
«Fin»: 42,
"Value": "lancer une enquête",
"Type": "événement",
"Correspondant": faux
}
]
}

 

Les tickers et les numéros légaux glanés auprès du service NLU peuvent être introduits dans le service de dépôt pour automatiser de nombreuses tâches. Un tableau de bord interne potentiel qui extrait les entités puis se dirige vers la récupération des dossiers, de la recherche et du contenu d'actualités peut ressembler à ceci:

Une application interne potentielle pour aider les employés dans leurs recherches et leurs opérations

Regroupement d'histoires similaires en 16 langues

Similar Stories utilise un apprentissage automatique avancé et exclusif pour comparer chaque élément de contenu que nous recevons à des fins de similitude, y compris les actualités, les tweets et les rapports. Chaque élément de contenu est comparé à tous les autres éléments en utilisant 512 dimensions, telles que l'auteur et l'emplacement. Bien sûr, avec plus de 500 dimensions, certaines peuvent sembler être des combinaisons étranges et ne pas signifier grand-chose pour les humains, mais les corrélations que les algorithmes de Big Data peuvent établir peuvent révéler des similitudes subtiles. 

Une fois que tout le contenu est comparé, des groupes sont formés en fonction de la proximité les uns des autres dans l'espace vectoriel de comparaison de similarité. Ensuite, AI choisit le plus représentatif du groupe (le centroïde), et cet élément de contenu est marqué comme l'histoire principale, qui est retournée comme entrée de niveau supérieur dans le JSON. Dans chaque entrée JSON de niveau supérieur, l'autre contenu du groupe relève de la similar_content champ de cette entrée.

Sur le Web et le mobile, cela permet aux humains de sauter facilement du contenu répétitif ou, au contraire, de lire diverses prises et angles sur le même événement. 

Dans l'API, cette configuration peut conduire à un meilleur traitement des différents angles. CityFALCON a déjà regroupé le contenu, de sorte que votre entreprise n'a pas besoin de rechercher et d'exécuter cette tâche NLU compliquée. Vous pouvez maintenant vous concentrer sur la prise de décisions avec ces informations similaires au lieu de mobiliser des ressources pour essayer de construire la technologie NLU - nous l'avons déjà développée pour vous. Si votre application implique la diffusion de contenu aux utilisateurs finaux, vous pouvez supprimer toutes les histoires similaires et n'afficher que les entrées JSON principales (c'est-à-dire des histoires uniques), afin qu'ils bénéficient de la même réduction de redondance.

De plus, l'algorithme de similarité fonctionne dans 16 langues. Un cas d'utilisation serait de saisir les nuances pour les équipes bilingues afin d'analyser et de mieux comprendre le processus de réflexion et les résultats potentiels des événements, en fonction de qui écrit quoi et quand.

Analyse des sentiments

C'est une autre fonctionnalité si précieuse que nous avons écrit un article de blog complet sur l'analyse des sentiments.

L'analyse des sentiments est une analyse puissante qui exploite NLU pour évaluer le contenu en fonction de la façon dont son langage est positif, négatif ou neutre. Nos systèmes décomposent le contenu au niveau de la clause, de sorte que même une seule phrase peut avoir plus d'un score de sentiment associé (un pour chaque clause). 

De plus, en utilisant notre service d'extraction d'entités NLU (en interne, bien sûr), nous pouvons identifier laquelle de nos 300 000 entités dans notre base de données est associée au contenu en question. Ensuite, nous construisons des scores agrégés pour tous les emplacements, personnes, entreprises, actions, organisations et autres types d'entités de la base de données. 

Les groupes agrégés, tels que les secteurs (une agrégation de toutes les entreprises constituantes) obtiennent également leurs propres scores. Les scores pour les groupes agrégés sont des moyennes pondérées, donc si CityFALCON est dans le secteur de la technologie avec Microsoft et IBM, ces deux ont généralement beaucoup plus de poids que CityFALCON car ils attirent beaucoup plus l'attention des médias.

Un aperçu simplifié du système peut ressembler à ceci:

Un aperçu simplifié des connexions d'analyse des sentiments

Grâce à l'API, ces données sont diffusées avec des entités et du contenu (actualités). Une réponse JSON joliment formatée (jolie imprimée) avec un sentiment peut ressembler à ceci:

Ajout du champ d'identification légale pour la recherche

Auparavant, l'API acceptait uniquement les atouts, tickers, et full_tickers comme champs de saisie pour rechercher des entreprises, des personnes et d'autres cibles d'informations demandées. Désormais, les utilisateurs d'API peuvent rechercher par legal_id, aussi. Cela rend l'intégration plus standardisée et précise. De plus, il est plus facile de cibler les entreprises privées qui n'ont pas de tickers. Par exemple, Revolut au Royaume-Uni est une entreprise très populaire à regarder, mais elle n'a pas de ticker standard pour l'identifier. Avec le legal_id champ, les utilisateurs de l'API peuvent désormais cibler 08804411_companieshouse-fr pour récupérer des informations sur Revolut.

Voir le Base de connaissances pour plus de tutoriels et d'explications ou consultez le Documentation pour l'essayer dans le bac à sable.

Accès API personnel

Nous avons également ouvert l'API pour un usage personnel. Nous avons constaté l'intérêt des développeurs et des particuliers qui souhaitaient créer leurs propres applications financières et commerciales à l'aide de nos données, mais qui n'ont pas été en mesure d'acheter des abonnements API complets. 

Les particuliers peuvent désormais utiliser l'API pour effectuer jusqu'à 10 000 appels par mois et récupérer les données de l'histoire, le titre, la description et le score CityFALCON.

Un abonnement personnel commence à partir de $20 par mois pour les utilisateurs universitaires, de la santé et à but non lucratif ou de $40 par mois pour tous les autres. Une version Premium arrive bientôt qui offre plus de fonctionnalités et une limite d'appels plus élevée.

Plus de détails sont dans le article de blog dédié sur l'accès personnel aux API.

Parties intéressées et deuxième semestre

Jusqu'à présent cette année, nous avons publié plusieurs fonctionnalités majeures pour l'API, et nous sommes confiants dans la position de notre entreprise pour en publier davantage à l'avenir. Nous sommes fiers de ce que nous avons accompli à ce jour et sommes ravis de récolter les fruits d'années de R&D dans les domaines de la science des données, des infrastructures et de la conservation des données financières.

Nous ajoutons constamment de nouvelles sources de contenu et nous continuons notre Projet de R&D à Malte pour étendre notre couverture linguistique, à la fois du point de vue du contenu et dans les applications d'apprentissage automatique. Des services d'apprentissage automatique supplémentaires pour les données internes sont à l'horizon.

Si vous êtes intéressé par des services API, faites Nous contacter pour une consultation et une démonstration. Mieux nous connaissons votre cas d'utilisation et votre situation, meilleur sera le produit que nous pouvons vous fournir.