Annotated software requirement corpus

Project

Description

English software requirement text corpus annotated with universal dependencies syntactic and part-of-speech information. Requirements are taken from a variety of domains contained in the open source PURE corpus (accessible at http://nlreqdataset.isti.cnr.it/).

Contact

Pierre André Ménard, Computer Research Institute of Montréal

Email

pierre-andre.menard@crim.ca

Technical features

Data available: https://github.com/UniversalDependencies/UD_English-CTeTex/

Input(s):

Main feature(s):

Software and system requirement descriptions annotated in universal dependencies

Output(s):

Integration constraints

None

Targeted customer(s)

Machine learning or natural language processing experts that require training or evaluation data for automatic analysis of software requirements in universal dependencies grammar as a standalone task or as part of a multi-objective task. This corpus can help improve natural language understanding tasks aiming to interpret, validate or analyse software requirements in a requirement validation or verification scenario.

Conditions for reuse

Open source licence CC BY-SA 4.0

Confidentiality

Public

Publication date

22-11-2022

Involved partners

Centre de recherche informatique de Montréal (CAN)