Opendatabay APP

High Quality Arabic Corpus

Foundation Model Datasets

Tags and Keywords

Arabic

Fineweb

Commoncrawl

Translation

Trusted By
Trusted by company1Trusted by company2Trusted by company3
High Quality Arabic Corpus Dataset on Opendatabay data marketplace

"No reviews yet"

£12,000

About

13M docs, 15B Tokens, 4+ FineWeb-edu score collection of high-quality Arabic text data with their metadata.
Buy the Multilingual Pack for £28,000 instead of ~~£36,000~~ and save £8,000.
Save over $20,000 in GPU costs with our ready-to-use dataset.
Dataset License

Creation

The dataset was created by filtering all English common crawl data for high-quality text using the FineWeb-Edu classifier with education score of 4 or higher over 5. The data is source from the v1.0.0 of the HuggingFaceFW/fineweb-edu dataset which corresponds to CC-MAIN-2024-10 from common crawl. The data was also fully deduplicated and labeled for Topic and Format using the WebOrganizer Classifiers, and then we only keep documents with a specific format (list below). All documents were then translated from English to Arabic using the Qwen3-235B-A22B LLM model, while also removing any webscraping artifacts and reformating the output text using markdown (added headings, lists, or other formatting elements to improve readability), ensuring the text is high quality and clean. The LLM was also used to generate a title if the document did not have one.

Data Statistics

  • Total Documents: 13,287,694
  • Total Tokens: 14.9B GPT-4o Tokens (14,895,034,936 Tokens)
  • Total Size: ~71GB
  • Total GPU Hours Needed: 15,000 H100 Hours per language

Data Fields

  • id: (str) Unique identifier for the document.
  • title: (str) Title of the document.
  • text: (str) The main content of the document, translated to Arabic.
  • metadata: (dict) Additional metadata about the document, including:
    • url: (str) The original URL of the document.
    • dump: (str) The common crawl dump from which the document was extracted.
    • date: (str) The date when the document was scraped.
    • file_path: (str) The path to the original file in the common crawl dataset.
    • language: (str) The language of the original document (always "English" en).
    • language_score: (float) The language quality score of the document, ranging from 0 to 1.
    • minhash_cluster_size: (int) The size of the deduplication cluster the document belongs to.
    • fw_edu_int_score: (int) The rounded FineWeb-Edu classifier score for the document, indicating its educational quality (0-5).
    • fw_edu_score: (float) The FineWeb-Edu classifier score for the document, indicating its educational quality (0-5).
    • wo_format_label: (str) The format label assigned by the WebOrganizer classifier, indicating the type of content. Check the WebOrganizer Classifiers for more details.
    • wo_format_score: (float) The confidence score for the format label assigned by the WebOrganizer classifier.
    • wo_topic_label: (str) The topic label assigned by the WebOrganizer classifier, indicating the main subject of the content. Check the WebOrganizer Classifiers for more details.
    • wo_topic_score: (float) The confidence score for the topic label assigned by the WebOrganizer classifier.
    • wo_format_output: (list[dict]) The full output of the WebOrganizer classifier for the format label, including the label and score of all formats.
    • wo_topic_output: (list[dict]) The full output of the WebOrganizer classifier for the topic label, including the label and score of all topics.
    • length: (int) The length of the document in characters.
    • token_count: (int) The number of tokens in the document, calculated using the GPT-4o tokenizer.
    • orig_text: (str) The original text of the document before translation.
    • orig_len: (int) The length of the original text in characters.
    • orig_token_count: (int) The number of tokens in the original text, using the gpt2 tokenizer.

Data Formats

The dataset contains documents in the following formats, filtered from all formats available in the WebOrganizer classifier:
  1. Academic Writing
  2. Nonfiction Writing
  3. Personal Blog
  4. Q&A Forum
  5. Structured Data
  6. Creative Writing
  7. Documentation
  8. Tutorial
  9. Knowledge Article

Topics

The dataset contains documents on the following topics:
  1. Adult
  2. Art & Design
  3. Software Dev.
  4. Crime & Law
  5. Education & Jobs
  6. Hardware
  7. Entertainment
  8. Social Life
  9. Fashion & Beauty
  10. Finance & Business
  11. Food & Dining
  12. Games
  13. Health
  14. History
  15. Home & Hobbies
  16. Industrial
  17. Literature
  18. Politics
  19. Religion
  20. Science & Tech.
  21. Software
  22. Sports & Fitness
  23. Transportation
  24. Travel

Deduplication

The dataset has been fully deduplicated using the MinHash algorithm with the following parameters:
  • Num Buckets: 16
  • Hashes per Bucket: 8
  • Ngrams: 13

Sample Example

{
  "id": "<urn:uuid:799a110f-fc5d-4445-9eb4-1bfb04283d86>",
  "text": "يُعد نموذج TCP/IP إطارًا يُستخدم لتصور كيفية تنظيم البيانات ونقلها عبر الشبكة. يساعد هذا النموذج مهندسي الشبكات و محللي أمن الشبكات في فهم العمليات التي تحدث على الشبكة وتحديد الأماكن التي تحدث فيها الاضطرابات أو التهديدات الأمنية.\n\nيتكون نموذج TCP/IP من أربع طبقات: طبقة الوصول إلى الشبكة، وطبقة الإنترنت، وطبقة النقل، وطبقة التطبيق. وعند استكشاف المشاكل في الشبكة، يمكن للمهنيين الأمنيين تحليل وتحديد الطبقة أو الطبقات التي وقع عليها الهجوم بناءً على العمليات التي تورطت في الحادثة.\n\n### طبقة الوصول إلى الشبكة\n\nتُعرف طبقة الوصول إلى الشبكة أحيانًا بطبقة ربط البيانات، وهي تقوم بتنظيم إرسال وإستقبال الإطارات البيانات داخل شبكة واحدة. تتوافق هذه الطبقة مع الأجهزة المادية المتضمنة في نقل البيانات عبر الشبكة. وتشمل هذه الطبقة الأجهزة مثل الموزعات (Hubs)، والماودم (Modems)، والكابلات، والأسلاك. ويتضمن بروتوكول حل عنوان الشبكة (ARP) جزءًا من طبقة الوصول إلى الشبكة. ويساعد بروتوكول ARP في توجيه الحزم البيانات إلى الشبكة المادية نفسها من خلال ربط عناوين IP بعناوين MAC على نفس الشبكة المادية.\n\n### طبقة الإنترنت\n\nوتُعرف طبقة الإنترنت أحيانًا باسم طبقة الشبكة، وهي مسؤولة عن التأكد من تسليم البيانات إلى المضيف الهدف، والذي قد يكون موجودًا على شبكة مختلفة. وتحدد طبقة الإنترنت البروتوكول المسؤول عن تسليم الحزم البيانات. وفيما يلي بعض البروتوكولات الشائعة التي تعمل في طبقة الإنترنت:\n\n- **بروتوكول الإنترنت (IP)**: يقوم بروتوكول الإنترنت (IP) بإرسال الحزم البيانات إلى الوجهة الصحيحة، ويعتمد على بروتوكول تحكم النقل/بروتوكول بيانات المستخدم (TCP/UDP) لتسليمها إلى الخدمة المقابلة. تتيح حزم IP الاتصال بين شبكتين، وتمرّ من الشبكة المرسلة إلى الشبكة المستقبلة. كما يقوم بإعادة إرسال أي بيانات ضائعة أو تالفة.\n- **بروتوكول رسالة التحكم في الإنترنت (ICMP)**: يشارك بروتوكول ICMP في نقل معلومات الأخطاء وتحديثات حالة الحزم البيانات، وهو مفيد لاكتشاف المشاكل في الشبكة وتصحيحها. كما يُبلغ عن المعلومات المتعلقة بالحزم التي تم فقدانها أو اختفت أثناء النقل، ومشاكل الاتصال بالشبكة، والحزم التي تم إعادة توجيهها إلى موجهات أخرى.\n\n### طبقة النقل\n\nتُعتبر طبقة النقل مسؤولة عن تسليم البيانات بشكل موثوق بين نظامين أو شبكتين. بروتوكولا TCP وUDP هما البروتوكولان النقلان اللذان يعملان في هذه الطبقة.\n\n#### بروتوكول تحكم النقل (TCP)\n\nيُضمن بروتوكول تحكم النقل (TCP) نقل البيانات بشكل موثوق إلى الخدمة الهدف. ويحتوي TCP على رقم منفذ الخدمة الهدف، والذي يقع في رأس TCP لحزمة TCP/IP.\n\n#### بروتوكول بيانات المستخدم (UDP)\n\nيُستخدم بروتوكول بيانات المستخدم (UDP) من قبل التطبيقات التي لا تهتم كثيرًا باعتمادية النقل. لا يتم تتبع البيانات المرسلة عبر UDP بنفس القدر من التفصيل كما في البيانات المرسلة باستخدام TCP. وبما أن بروتوكول UDP لا ينشئ اتصالات شبكة، فإنه يُستخدم غالبًا في التطبيقات التي تهتم بالأداء وتُدار في الوقت الفعلي، مثل بث الفيديو.\n\n### طبقة التطبيق\n\nتُشبه طبقة التطبيق في نموذج TCP/IP طبقات التطبيق، والعرض، والجلسة في نموذج OSI. وتحدد طبقة التطبيق الخدمات والتطبيقات التي يمكن لأي مستخدم الوصول إليها. وتُستخدم بعض البروتوكولات الشائعة في هذه الطبقة وهي:\n\n- **بروتوكول نقل النص التشعبي (HTTP)**\n- **بروتوكول نقل البريد البسيط (SMTP)**\n- **القناة الآمنة (SSH)**\n- **بروتوكول نقل الملفات (FTP)**\n- **نظام أسماء النطاقات (DNS)**\n\nوتعتمد بروتوكولات طبقة التطبيق على الطبقات الأساسية لنقل البيانات عبر الشبكة.\n\n### نموذج TCP/IP مقابل نموذج OSI\n\nيُنظم نموذج OSI بروتوكولات الشبكة بصريًا إلى طبقات مختلفة. ويستخدمه غالبًا المهنيون في مجال الشبكات للتواصل فيما بينهم حول مصادر المشاكل أو التهديدات الأمنية المحتملة عند حدوثها.\n\nيجمع نموذج TCP/IP بين عدة طبقات من نموذج OSI. ويوجد العديد من أوجه التشابه بين النموذجين. فكلا النموذجين يحددان معايير للشبكات ويقسمان عملية الاتصال الشبكي إلى طبقات مختلفة. ونموذج TCP/IP هو إصدار مبسط من نموذج OSI.\n\nتُفضل بعض المؤسسات الاعتماد بشكل كبير على نموذج TCP/IP، بينما تفضل أخرى استخدام نموذج OSI. وكمحلل أمني، من المهم أن تكون مألوفًا بكلا النموذجين. فكل من نموذجي TCP/IP وOSI مفيدان لفهم كيفية عمل الشبكات.\n\n### الطبقة السابعة: طبقة التطبيق\n\nتتضمن طبقة التطبيق العمليات التي ترتبط مباشرة بالمستخدم اليومي. وتتضمن هذه الطبقة جميع بروتوكولات الشبكة التي تستخدمها التطبيقات البرمجية لتوصيل المستخدم بالإنترنت. وتمثّل هذه الخاصية السمة المميزة لطبقة التطبيق وهي اتصال المستخدم بالشبكة عبر التطبيقات والطلبات.\n\nمثال على نوع من الاتصال الذي يحدث في طبقة التطبيق هو استخدام متصفح ويب. حيث يستخدم المتصفح بروتوكول HTTP أو HTTPS لإرسال واستقبال المعلومات من خادم الموقع. كما تستخدم تطبيقات البريد الإلكتروني بروتوكول نقل البريد الإلكتروني البسيط (SMTP) لإرسال واستقبال معلومات البريد الإلكتروني. بالإضافة إلى ذلك، يستخدم متصفح الويب بروتوكول نظام أسماء النطاقات (DNS) لتحويل أسماء النطاقات للمواقع إلى عناوين IP التي تحدد الخادم الويب الذي يستضيف معلومات الموقع.\n\n### الطبقة السادسة: طبقة العرض\n\nتشمل وظائف الطبقة السادسة تحويل البيانات وتشفيرها للشبكة. وتضيف هذه الطبقة إلى البيانات وتستبدلها بتنسيقات يمكن فهمها من قبل التطبيقات (الطبقة 7) في كل من الأنظمة المرسلة والمستقبلة. وقد تختلف تنسيقات الطرف المستخدم عن تلك الموجودة في النظام المستقبل. وتتطلب العمليات في طبقة العرض استخدام تنسيق قياسي.\n\nومن بين وظائف التنسيق التي تحدث في الطبقة السادسة، التشفير، والضغط، والتأكد من أن مجموعة أحرف الشفرة يمكن تفسيرها في النظام المستقبل. ومثال على التشفير الذي يحدث في هذه الطبقة هو بروتوكول SSL، الذي يُشفر البيانات بين خوادم الويب والمتصفحات كجزء من المواقع التي تستخدم HTTPS.\n\n### الطبقة الخامسة: طبقة الجلسة\n\nتصف الجلسة إنشاء اتصال بين جهازين. وتمكن الجلسة المفتوحة الجهازين من التواصل مع بعضهما البعض. وتحدث بروتوكولات طبقة الجلسة للحفاظ على الجلسة مفتوحة أثناء نقل البيانات وإنهاء الجلسة بمجرد اكتمال النقل.\n\nوتشمل مسؤوليات طبقة الجلسة أيضًا الأنشطة مثل المصادقة، وإعادة الاتصال، وتحديد نقاط التحقق أثناء نقل البيانات. فإذا توقفت الجلسة، فإن نقاط التحقق تضمن استئناف النقل من آخر نقطة تحقق عند استعادة الاتصال. وتشمل الجلسات طلبًا واستجابة بين التطبيقات. وتجيب وظائف طبقة الجلسة على طلبات الخدمة من العمليات في طبقة العرض (الطبقة 6) وتُرسل طلبات الخدمة إلى طبقة النقل (الطبقة 4).\n\n### الطبقة الرابعة: طبقة النقل\n\nتتولى طبقة النقل مسؤولية تسليم البيانات بين الأجهزة. كما تتعامل هذه الطبقة مع سرعة نقل البيانات، وتدفق النقل، وتقسيم البيانات إلى أجزاء أصغر لتسهيل نقلها. ويعني التقسيم عملية تقسيم نقل بيانات كبيرة إلى أجزاء أصغر يمكن معالجتها من قبل النظام المستقبل. ويجب إعادة تجميع هذه الأجزاء في وجهتها لكي تُعالج في طبقة الجلسة (الطبقة 5). ويجب أيضًا أن تتطابق سرعة ومعدل النقل مع سرعة اتصال النظام المستقبل. وبروتوكولا TCP وUDP هما بروتوكولان نقلان في هذه الطبقة.\n\n### الطبقة الثالثة: طبقة الشبكة\n\nتشرف طبقة الشبكة على استلام الإطارات من طبقة ربط البيانات (الطبقة 2) وتوصيلها إلى الوجهة المقصودة. ويمكن تحديد الوجهة المقصودة بناءً على العنوان الموجود في إطار حزم البيانات. وتمكّن حزم البيانات الاتصال بين شبكتين. وتحتوي هذه الحزم على عناوين IP التي تخبر الموجهات إلى أين تُرسل. وتُنقل من الشبكة المرسلة إلى الشبكة المستقبلة.\n\n### الطبقة الثانية: طبقة ربط البيانات\n\nتُنظم طبقة ربط البيانات إرسال واستقبال حزم البيانات داخل شبكة واحدة. وتحتوي هذه الطبقة على المفاتيح (Switches) في الشبكة المحلية وبطاقات واجهة الشبكة في الأجهزة المحلية.\n\nومن بين البروتوكولات المستخدمة في طبقة ربط البيانات: بروتوكول التحكم الشبكي (NCP)، وبروتوكول التحكم في ربط البيانات عالي المستوى (HDLC)، وبروتوكول التحكم في ربط البيانات متزامن (SDLC).\n\n### الطبقة الأولى: الطبقة الفيزيائية\n\nكما يوحي اسمها، تتوافق الطبقة الفيزيائية مع الأجهزة المادية المتضمنة في نقل البيانات عبر الشبكة. وتشمل الطبقة الفيزيائية الموزعات (Hubs)، والماودم (Modems)، والكابلات والأسلاك التي تربط بينها. لكي تنتقل حزمة بيانات عبر كابل إيثرنت أو كابل محوري، يجب تحويلها إلى تدفق من القيم 0 و1. ويتم إرسال تدفق القيم 0 و1 عبر الأسلاك والكابلات المادية، ويتم استقبالها، ثم تمريرها إلى مستويات أعلى في نموذج OSI.",
  "title": "نموذج TCP/IP وأساسياته",
  "metadata": {
    "url": "https://seoindek.com/the-tcp-ip-model/",
    "dump": "CC-MAIN-2023-40",
    "date": "1970-01-01 00:00:00",
    "file_path": "s3://commoncrawl/crawl-data/CC-MAIN-2023-40/segments/1695233510179.22/warc/CC-MAIN-20230926075508-20230926105508-00860.warc.gz",
    "language": "en",
    "language_score": 0.9021962285,
    "minhash_cluster_size": 3,
    "fw_edu_int_score": 4,
    "fw_edu_score": 3.96875,
    "wo_format_label": "Knowledge_Article",
    "wo_format_score": 0.5131,
    "wo_topic_label": "Hardware",
    "wo_topic_score": 0.7743555,
    "wo_format_output": [
      {
        "label": "Knowledge Article",
        "score": 0.5131
      },
      {
        "label": "Documentation",
        "score": 0.3903459
      },
      {
        "label": "Tutorial",
        "score": 0.049530078
      },
      {
        "label": "Academic Writing",
        "score": 0.010261114
      },
      .......
    ],
    "wo_topic_output": [
      {
        "label": "Hardware",
        "score": 0.7743555
      },
      {
        "label": "Science & Tech.",
        "score": 0.13196012
      },
      {
        "label": "Software",
        "score": 0.049502887
      },
      {
        "label": "Software Dev.",
        "score": 0.02200972
      },
      ........
    ],
    "length": 7383,
    "token_count": 1664,
    "orig_text": "The TCP/IP model is a framework used to visualize how data is organized and transmitted across a network. This model helps network engineers and network security analysts conceptualize processes on the network and communicate where disruptions or security threats occur.\nThe TCP/IP model has four layers: network access layer, internet layer, transport layer, and application layer. When troubleshooting issues on the network, security professionals can analyze and deduce which layer or layers an attack occurred based on what processes were involved in an incident.\nNetwork access layer\nThe network access layer, sometimes called the data link layer, organizes sending and receiving data frames within a single network. This layer corresponds to the physical hardware involved in network transmission. Hubs, modems, cables, and wiring are all considered part of this layer. The address resolution protocol (ARP) is part of the network access layer. ARP assists IP with directing data packets on the same physical network by mapping IP addresses to MAC addresses on the same physical network.\nThe internet layer, sometimes referred to as the network layer, is responsible for ensuring the delivery to the destination host, which potentially resides on a different network. The internet layer determines which protocol is responsible for delivering the data packets. Here are some of the common protocols that operate at the internet layer:\n- Internet Protocol (IP). IP sends the data packets to the correct destination and relies on Transmission Control Protocol/User Datagram Protocol (TCP/UDP) to deliver them to corresponding service. IP packets allow communication between two networks. They are routed from the sending network to the receiving network. It retransmits any data that is lost or corrupt.\n- Internet Control Message Protocol (ICMP). ICMP shares error information and status updates of data packets. This is useful for detecting and troubleshooting network errors. ICMP reports information about packets that were dropped or disappeared in transit, issues with network connectivity, and packets redirected to other routers.\nThe transport layer is responsible for reliably delivering data between two systems or networks. TCP and UDP are the two transport protocols that occur at this layer.\nTransmission Control Protocol\nTCP ensures that data is reliably transmitted to the destination service. TCP contains the port number of the intended destination service, which resides in the TCP header of an TCP/IP packet.\nUser Datagram Protocol\nUDP is used by applications that are not concerned with reliability of the transmission. Data sent over UDP is not tracked as extensively as data sent using TCP. Because UDP does not establish network connections, it is used mostly for performance sensitive applications that operate in real time, such as video streaming.\nThe application layer in the TCP/IP model is similar to the application, presentation, and session layers of the OSI model. The application layer is responsible for making network requests or responding to requests. This layer defines which internet services and applications any user can access. Some common protocols used on this layer are:\nHypertext transfer protocol (HTTP)\nSimple mail transfer protocol (SMTP)\nSecure shell (SSH)\nFile transfer protocol (FTP)\nDomain name system (DNS)\nApplication layer protocols rely on underlying layers to transfer the data across the network.\nTCP/IP model versus OSI model\nThe OSI visually organizes network protocols into different layers. Network professionals often use this model to communicate with each other about potential sources of problems or security threats when they occur.\nThe TCP/IP model combines multiple layers of the OSI model. There are many similarities between the two models. Both models define standards for networking and divide the network communication process into different layers. The TCP/IP model is a simplified version of the OSI model.\nSome organizations rely heavily on the TCP/IP model, while others prefer to use the OSI model. As a security analyst, it’s important to be familiar with both models. Both the TCP/IP and OSI models are useful for understanding how networks work.\nLayer 7: Application layer\nThe application layer includes processes that directly involve the everyday user. This layer includes all of the networking protocols that software applications use to connect a user to the internet. This characteristic is the identifying feature of the application layer—user connection to the network via applications and requests.\nAn example of a type of communication that happens at the application layer is using a web browser. The internet browser uses HTTP or HTTPS to send and receive information from the website server. The email application uses simple mail transfer protocol (SMTP) to send and receive email information. Also, web browsers use the domain name system (DNS) protocol to translate website domain names into IP addresses which identify the web server that hosts the information for the website.\nLayer 6: Presentation layer\nFunctions at the presentation layer involve data translation and encryption for the network. This layer adds to and replaces data with formats that can be understood by applications (layer 7) on both sending and receiving systems. Formats at the user end may be different from those of the receiving system. Processes at the presentation layer require the use of a standardized format.\nSome formatting functions that occur at layer 6 include encryption, compression, and confirmation that the character code set can be interpreted on the receiving system. One example of encryption that takes place at this layer is SSL, which encrypts data between web servers and browsers as part of websites with HTTPS.\nLayer 5: Session layer\nA session describes when a connection is established between two devices. An open session allows the devices to communicate with each other. Session layer protocols occur to keep the session open while data is being transferred and terminate the session once the transmission is complete.\nThe session layer is also responsible for activities such as authentication, reconnection, and setting checkpoints during a data transfer. If a session is interrupted, checkpoints ensure that the transmission picks up at the last session checkpoint when the connection resumes. Sessions include a request and response between applications. Functions in the session layer respond to requests for service from processes in the presentation layer (layer 6) and send requests for services to the transport layer (layer 4).\nLayer 4: Transport layer\nThe transport layer is responsible for delivering data between devices. This layer also handles the speed of data transfer, flow of the transfer, and breaking data down into smaller segments to make them easier to transport. Segmentation is the process of dividing up a large data transmission into smaller pieces that can be processed by the receiving system. These segments need to be reassembled at their destination so they can be processed at the session layer (layer 5). The speed and rate of the transmission also has to match the connection speed of the destination system. TCP and UDP are transport layer protocols.\nLayer 3: Network layer\nThe network layer oversees receiving the frames from the data link layer (layer 2) and delivers them to the intended destination. The intended destination can be found based on the address that resides in the frame of the data packets. Data packets allow communication between two networks. These packets include IP addresses that tell routers where to send them. They are routed from the sending network to the receiving network.\nLayer 2: Data link layer\nThe data link layer organizes sending and receiving data packets within a single network. The data link layer is home to switches on the local network and network interface cards on local devices.\nProtocols like network control protocol (NCP), high-level data link control (HDLC), and synchronous data link control protocol (SDLC) are used at the data link layer.\nLayer 1: Physical layer\nAs the name suggests, the physical layer corresponds to the physical hardware involved in network transmission. Hubs, modems, and the cables and wiring that connect them are all considered part of the physical layer. To travel across an ethernet or coaxial cable, a data packet needs to be translated into a stream of 0s and 1s. The stream of 0s and 1s are sent across the physical wiring and cables, received, and then passed on to higher levels of the OSI model.\nSource: Google Cybersecurity Certificate",
    "orig_len": 8669,
    "orig_token_count": 1664
  }
}

Listing Stats

VIEWS

6

DOWNLOADS

0

LISTED

17/10/2025

REGION

GLOBAL

Universal Data Quality Score Logo UDQSQUALITY

5 / 5

VERSION

1.0

Loading...

£12,000

Download Dataset in ZIP Format